Cara menggunakan GPU NVIDIA untuk pelatihan AI

Cara menggunakan GPU NVIDIA untuk pelatihan AI

Jawaban singkat: Gunakan GPU NVIDIA untuk pelatihan AI dengan terlebih dahulu memastikan driver dan GPU terdeteksi menggunakan nvidia-smi , kemudian instal framework/stack CUDA yang kompatibel dan jalankan uji coba kecil "model + batch pada cuda". Jika terjadi kehabisan memori, kurangi ukuran batch dan gunakan presisi campuran, sambil memantau penggunaan, memori, dan suhu.

Poin-poin penting:

Pemeriksaan dasar : Mulailah dengan nvidia-smi ; perbaiki visibilitas driver sebelum Anda menginstal framework.

Kompatibilitas tumpukan : Pastikan versi driver, runtime CUDA, dan framework selaras untuk mencegah kerusakan dan instalasi yang rapuh.

Keberhasilan kecil : Konfirmasikan bahwa satu kali proses penerusan data (forward pass) berjalan pada CUDA sebelum Anda meningkatkan skala eksperimen.

Disiplin VRAM : Andalkan presisi campuran, akumulasi gradien, dan checkpointing untuk menyesuaikan model yang lebih besar.

Kebiasaan pemantauan : Lacak pemanfaatan, pola memori, daya, dan suhu agar Anda dapat mendeteksi hambatan sejak dini.

Artikel-artikel yang mungkin ingin Anda baca setelah ini:

🔗 Cara membangun agen AI
Rancang alur kerja, alat, memori, dan pengamanan agen Anda.

🔗 Cara menerapkan model AI
Siapkan lingkungan, kemas model, dan kirim ke produksi dengan andal.

🔗 Cara mengukur kinerja AI
Pilih metrik, jalankan evaluasi, dan lacak kinerja dari waktu ke waktu.

🔗 Cara mengotomatiskan tugas dengan AI
Otomatiskan pekerjaan berulang dengan petunjuk, alur kerja, dan integrasi.


1) Gambaran besar - apa yang Anda lakukan saat "melatih di GPU" 🧠⚡

Saat melatih model AI, Anda sebagian besar melakukan banyak perhitungan matriks. GPU dirancang untuk pekerjaan paralel semacam itu, sehingga kerangka kerja seperti PyTorch, TensorFlow, dan JAX dapat mengurangi beban kerja berat ke GPU. ( Dokumentasi PyTorch CUDA , Instalasi TensorFlow (pip) , Panduan Singkat JAX )

Dalam praktiknya, “menggunakan GPU NVIDIA untuk pelatihan” biasanya berarti:

  • Parameter model Anda (sebagian besar) tersimpan di VRAM GPU

  • Data Anda akan dipindahkan dari RAM ke VRAM pada setiap langkah

  • Proses forward pass dan backprop Anda berjalan pada kernel CUDA ( Panduan Pemrograman CUDA )

  • Pembaruan pengoptimal Anda terjadi pada GPU (idealnya)

  • Anda memantau suhu, memori, dan pemanfaatan agar tidak terjadi panas berlebih 🔥 ( dokumentasi NVIDIA nvidia-smi )

Jika itu terdengar seperti banyak hal, jangan khawatir. Sebagian besar hanyalah daftar periksa dan beberapa kebiasaan yang Anda bangun seiring waktu.


2) Apa yang membuat sebuah versi pengaturan pelatihan AI GPU NVIDIA menjadi bagus? 🤌

Ini adalah bagian "jangan membangun rumah di atas agar-agar". Pengaturan yang baik untuk Cara menggunakan GPU NVIDIA untuk Pelatihan AI adalah pengaturan yang minim masalah. Minim masalah berarti stabil. Stabil berarti cepat. Cepat berarti… yah, cepat 😄

Fasilitas pelatihan yang solid biasanya memiliki:

  • VRAM yang cukup untuk ukuran batch Anda + model + status pengoptimal.

    • VRAM itu seperti ruang di dalam koper. Anda bisa berkemas lebih cerdas, tetapi Anda tidak bisa membawa barang tanpa batas.

  • Tumpukan perangkat lunak yang cocok (driver + runtime CUDA + kompatibilitas kerangka kerja) ( PyTorch Get Started (pemilih CUDA) , instalasi TensorFlow (pip) )

  • Penyimpanan cepat (NVMe sangat membantu untuk kumpulan data besar)

  • CPU dan RAM yang memadai agar pemuatan data tidak membebani GPU ( Panduan Penyetelan Performa PyTorch )

  • Kapasitas pendinginan dan daya (diremehkan sampai akhirnya tidak lagi 😬)

  • Lingkungan yang dapat direproduksi (venv/conda atau kontainer) sehingga peningkatan tidak menjadi kacau ( Gambaran umum NVIDIA Container Toolkit )

Dan satu hal lagi yang sering dilewati orang:

  • Kebiasaan memantau - Anda memeriksa memori dan pemanfaatan GPU seperti Anda memeriksa kaca spion saat mengemudi. ( NVIDIA nvidia-smi docs )


3) Tabel Perbandingan - cara populer untuk melakukan pelatihan dengan GPU NVIDIA (beserta keunikannya) 📊

Berikut ini adalah contekan singkat "mana yang paling cocok?". Harga hanyalah perkiraan (karena kenyataan bervariasi), dan ya, salah satu sel ini agak bertele-tele, memang sengaja.

Alat / Pendekatan Terbaik untuk Harga Mengapa ini berhasil (sebagian besar)
PyTorch (versi standar) PyTorch kebanyakan orang, kebanyakan proyek Bebas Fleksibel, ekosistem besar, mudah di-debug - dan setiap orang punya pendapat masing-masing
Dokumentasi PyTorch Lightning tim, pelatihan terstruktur Bebas Mengurangi kode berulang, alur yang lebih bersih; terkadang terasa seperti "sihir", sampai akhirnya tidak lagi
Wajah Berpelukan Transformers + Pelatih Dokumen Penyempurnaan NLP + LLM Bebas Pelatihan lengkap, pengaturan default yang bagus, kemenangan cepat 👍
Percepat Percepat dokumen multi-GPU tanpa kesulitan Bebas Membuat DDP tidak terlalu merepotkan, bagus untuk peningkatan skala tanpa perlu menulis ulang semuanya
DeepSpeed ​​ZeRO model besar, trik memori Bebas ZeRO, offload, scaling - mungkin agak rumit, tetapi akan terasa memuaskan jika sudah berhasil
TensorFlow + Keras TF saluran produksi Bebas Perangkat pendukung yang mumpuni, kisah implementasi yang bagus; sebagian orang menyukainya, sebagian lagi diam-diam tidak
JAX + Flax Panduan Cepat JAX / Dokumentasi Flax peneliti + penggemar kecepatan Bebas Kompilasi XLA bisa sangat cepat, tetapi proses debugging bisa terasa…abstrak
Ikhtisar NVIDIA NeMo Alur kerja pidato + LLM Bebas Stack yang dioptimalkan NVIDIA, resep yang bagus - terasa seperti memasak dengan oven mewah 🍳
Gambaran umum toolkit Docker + NVIDIA Container Toolkit lingkungan yang dapat direproduksi Bebas “Berfungsi di mesin saya” menjadi “berfungsi di mesin kami” (sebagian besar, lagi)

4) Langkah pertama - pastikan GPU Anda terdeteksi dengan benar 🕵️♂️

Sebelum Anda memasang selusin hal, verifikasi hal-hal mendasar terlebih dahulu.

Hal-hal yang ingin Anda wujudkan:

  • Mesin tersebut mendeteksi GPU

  • Driver NVIDIA telah terpasang dengan benar

  • GPU tidak sedang melakukan hal lain

  • Anda dapat menanyakan hal itu dengan andal

Pengecekan klasiknya adalah:

Yang Anda cari:

  • Nama GPU (misalnya, RTX, seri A, dll.)

  • Versi driver

  • Penggunaan memori

  • Proses yang sedang berjalan ( dokumen NVIDIA nvidia-smi )

Jika nvidia-smi gagal, berhenti di situ. Jangan instal framework dulu. Itu seperti mencoba memanggang roti saat oven Anda tidak tercolok. ( Antarmuka Manajemen Sistem NVIDIA (NVSMI) )

Catatan kecil dari manusia: terkadang nvidia-smi berfungsi tetapi pelatihan Anda tetap gagal karena runtime CUDA yang digunakan oleh framework Anda tidak sesuai dengan harapan driver. Itu bukan karena Anda bodoh. Itu…memang begitulah adanya 😭 ( PyTorch Get Started (CUDA selector) , TensorFlow install (pip) )


5) Membangun tumpukan perangkat lunak - driver, CUDA, cuDNN, dan "proses kompatibilitas" 💃

Di sinilah orang-orang menghabiskan waktu berjam-jam. Kuncinya adalah: pilih satu jalur dan tetaplah berpegang pada jalur tersebut .

Opsi A: CUDA yang terintegrasi dalam framework (seringkali paling mudah)

Banyak versi PyTorch yang sudah dilengkapi dengan runtime CUDA sendiri, artinya Anda tidak perlu menginstal toolkit CUDA lengkap di seluruh sistem. Anda hanya perlu driver NVIDIA yang kompatibel. ( Panduan Memulai PyTorch (Pemilih CUDA) , Versi PyTorch Sebelumnya (wheel CUDA) )

Kelebihan:

  • Lebih sedikit komponen bergerak

  • Instalasi lebih mudah

  • Lebih mudah direproduksi per lingkungan

Kontra:

  • Jika Anda mencampur berbagai lingkungan secara sembarangan, Anda bisa menjadi bingung

Opsi B: Toolkit CUDA sistem (kontrol lebih banyak)

Anda menginstal toolkit CUDA pada sistem dan menyelaraskan semuanya dengannya. ( Dokumentasi Toolkit CUDA )

Kelebihan:

  • Kontrol lebih besar untuk pembuatan kustom, beberapa peralatan khusus

  • Berguna untuk menyusun operasi tertentu

Kontra:

  • Lebih banyak cara untuk mencampuradukkan versi dan menangis diam-diam

cuDNN dan NCCL, dalam bahasa manusia

  • cuDNN mempercepat primitif pembelajaran mendalam (konvolusi, bit RNN, dll.) ( dokumentasi NVIDIA cuDNN )

  • NCCL adalah pustaka "komunikasi GPU-ke-GPU" yang cepat untuk pelatihan multi-GPU ( gambaran umum NCCL ).

Jika Anda melakukan pelatihan multi-GPU, NCCL adalah sahabat terbaik Anda - dan, terkadang, teman sekamar Anda yang temperamental. ( Gambaran umum NCCL )


6) Latihan GPU pertama Anda (contoh pola pikir PyTorch) ✅🔥

Untuk mengikuti panduan Cara menggunakan GPU NVIDIA untuk Pelatihan AI , Anda tidak perlu proyek besar terlebih dahulu. Anda hanya perlu kesuksesan kecil.

Ide inti:

  • Deteksi perangkat

  • Pindahkan model ke GPU

  • Pindahkan tensor ke GPU

  • Konfirmasikan bahwa proses forward pass berjalan di sana ( dokumentasi PyTorch CUDA ).

Hal-hal yang selalu saya periksa kewarasannya di awal:

Pertanyaan umum "mengapa lambat?"

  • Dataloader Anda terlalu lambat (GPU menunggu dalam keadaan idle) ( Panduan Penyetelan Performa PyTorch )

  • Anda lupa memindahkan data ke GPU (ups)

  • Ukuran batch sangat kecil (GPU kurang dimanfaatkan)

  • Anda melakukan pra-pemrosesan CPU yang berat pada langkah pelatihan

Ya, GPU Anda memang sering terlihat "tidak terlalu sibuk" jika hambatan utamanya adalah data. Ini seperti mempekerjakan pembalap mobil lalu menyuruh mereka menunggu bahan bakar setiap putaran.


7) Permainan VRAM - ukuran batch, presisi campuran, dan tidak meledak 💥🧳

Sebagian besar masalah pelatihan praktis bermuara pada memori. Jika Anda mempelajari satu keterampilan, pelajari manajemen VRAM.

Cara cepat untuk mengurangi penggunaan memori

Momen "mengapa VRAM masih penuh setelah saya berhenti?"

Framework sering kali menyimpan memori dalam cache untuk meningkatkan performa. Ini normal. Kelihatannya menakutkan, tetapi tidak selalu merupakan kebocoran memori. Anda akan belajar membaca polanya. ( Semantik PyTorch CUDA: alokator caching )

Kebiasaan praktis:

  • Perhatikan memori yang dialokasikan vs memori yang dicadangkan (spesifik kerangka kerja) ( Semantik PyTorch CUDA: alokator caching )

  • Jangan panik saat melihat angka pertama yang menakutkan 😅


8) Manfaatkan GPU sebaik mungkin - penyempurnaan performa yang sepadan dengan waktu Anda 🏎️

Mengaktifkan "pelatihan GPU" adalah langkah pertama. Melakukannya dengan cepat adalah langkah kedua.

Optimalisasi berdampak tinggi

Hambatan yang paling sering diabaikan

Pipeline penyimpanan dan pra-pemrosesan Anda. Jika dataset Anda sangat besar dan disimpan di disk yang lambat, GPU Anda akan menjadi pemanas ruangan yang mahal. Pemanas ruangan yang sangat canggih dan sangat mengkilap.

Selain itu, sedikit pengakuan: Saya pernah "mengoptimalkan" sebuah model selama satu jam hanya untuk menyadari bahwa logging adalah hambatan utamanya. Terlalu banyak mencetak data dapat memperlambat pelatihan. Ya, memang bisa.


9) Pelatihan Multi-GPU - DDP, NCCL, dan penskalaan tanpa kekacauan 🧩🤝

Jika Anda menginginkan kecepatan lebih tinggi atau model yang lebih besar, Anda perlu menggunakan multi-GPU. Di sinilah segalanya menjadi lebih menarik.

Pendekatan umum

  • Data Paralel (DDP)

  • Model Paralel / Tensor Paralel

    • Bagi model ke beberapa GPU (untuk model yang sangat besar)

  • Saluran Pipa Paralel

    • Pisahkan lapisan model menjadi beberapa tahapan (seperti jalur perakitan, tetapi untuk tensor)

Jika Anda baru memulai, pelatihan bergaya DDP adalah pilihan yang tepat. ( Tutorial PyTorch DDP )

Tips praktis multi-GPU

  • Pastikan GPU memiliki kemampuan yang serupa (mencampuradukkan GPU dapat menyebabkan bottleneck)

  • Interkoneksi pengawasan: NVLink vs PCIe penting untuk beban kerja yang banyak melibatkan sinkronisasi ( Ikhtisar NVIDIA NVLink , Dokumentasi NVIDIA NVLink )

  • Jaga agar ukuran batch per-GPU tetap seimbang

  • Jangan abaikan CPU dan penyimpanan - multi-GPU dapat memperburuk hambatan data

Ya, kesalahan NCCL memang terasa seperti teka-teki yang penuh misteri dan pertanyaan "mengapa sekarang?". Anda tidak dikutuk. Mungkin. ( Gambaran umum NCCL )


10) Pemantauan dan pembuatan profil - hal yang tidak glamor namun menghemat waktu Anda berjam-jam 📈🧯

Anda tidak memerlukan dasbor mewah untuk memulai. Anda hanya perlu memperhatikan ketika ada sesuatu yang tidak beres.

Sinyal-sinyal penting yang perlu diperhatikan

  • Pemanfaatan GPU : apakah selalu tinggi atau fluktuatif?

  • Penggunaan memori : stabil, meningkat, atau aneh?

  • Konsumsi daya : sangat rendah dapat berarti pemanfaatan yang kurang optimal.

  • Suhu : Suhu tinggi yang berkelanjutan dapat menghambat kinerja.

  • Penggunaan CPU : masalah pipeline data muncul di sini ( Panduan Penyetelan Kinerja PyTorch )

Pola pikir profiling (versi sederhana)

  • Jika penggunaan GPU rendah, maka terjadi bottleneck pada data atau CPU

  • Jika GPU berkinerja tinggi tetapi lambat - inefisiensi kernel, presisi, atau arsitektur model

  • Jika kecepatan pelatihan tiba-tiba menurun - disebabkan oleh pembatasan termal, proses latar belakang, atau gangguan I/O

Aku tahu, memantau terdengar tidak menyenangkan. Tapi ini seperti membersihkan sela-sela gigi. Menyebalkan, lalu tiba-tiba hidupmu menjadi lebih baik.


11) Penyelesaian Masalah - penyebab umum (dan yang kurang umum) 🧰😵💫

Bagian ini pada dasarnya berisi: “lima isu yang sama, selamanya.”

Masalah: CUDA kehabisan memori

Perbaikan:

Masalah: Pelatihan berjalan di CPU secara tidak sengaja

Perbaikan:

  • pastikan model dipindahkan ke CUDA

  • pastikan tensor dipindahkan ke CUDA

  • Periksa konfigurasi perangkat kerangka kerja ( dokumentasi PyTorch CUDA )

Masalah: Crash aneh atau akses memori ilegal

Perbaikan:

Masalah: Lebih lambat dari yang diharapkan

Perbaikan:

Masalah: Multi-GPU mengalami hang

Perbaikan:

Catatan kecil tambahan: terkadang solusinya adalah dengan melakukan reboot. Rasanya konyol. Tapi berhasil. Komputer memang seperti itu.


12) Biaya dan kepraktisan - memilih GPU NVIDIA dan pengaturan yang tepat tanpa terlalu banyak berpikir 💸🧠

Tidak setiap proyek membutuhkan GPU terbesar. Terkadang Anda hanya membutuhkan yang cukup .

Jika Anda sedang menyempurnakan model menengah

Jika Anda melatih model yang lebih besar dari awal

Jika Anda sedang melakukan eksperimen

  • Anda menginginkan iterasi cepat

  • Jangan habiskan semua uangmu untuk GPU lalu mengabaikan penyimpanan dan RAM

  • Sistem yang seimbang lebih baik daripada sistem yang timpang (hampir setiap hari)

Dan sebenarnya, Anda bisa menghabiskan waktu berminggu-minggu mengejar pilihan perangkat keras yang "sempurna". Buat sesuatu yang berfungsi, ukur, lalu sesuaikan. Musuh sebenarnya bukanlah tidak adanya umpan balik.


Catatan penutup - Cara menggunakan GPU NVIDIA untuk pelatihan AI tanpa membuat Anda stres 😌✅

Jika Anda tidak mengambil apa pun dari panduan tentang Cara menggunakan GPU NVIDIA untuk Pelatihan AI ini , ambillah ini:

Pelatihan tentang GPU NVIDIA adalah salah satu keterampilan yang awalnya terasa menakutkan, lalu tiba-tiba menjadi...normal saja. Seperti belajar mengemudi. Awalnya semuanya berisik dan membingungkan, dan Anda menggenggam kemudi terlalu erat. Kemudian suatu hari Anda sudah bisa mengemudi dengan santai, menyeruput kopi, dan dengan mudah memperbaiki masalah ukuran batch seolah-olah itu bukan masalah besar ☕😄

Pertanyaan yang Sering Diajukan (FAQ)

Apa artinya melatih model AI pada GPU NVIDIA?

Melatih model menggunakan GPU NVIDIA berarti parameter model dan batch pelatihan Anda tersimpan di VRAM GPU, dan perhitungan matematis yang kompleks (forward pass, backprop, langkah-langkah optimizer) dieksekusi melalui kernel CUDA. Dalam praktiknya, ini seringkali berarti memastikan model dan tensor berada di CUDA , kemudian memantau memori, pemanfaatan, dan suhu agar throughput tetap konsisten.

Cara memastikan GPU NVIDIA berfungsi sebelum memasang perangkat lain

Mulailah dengan nvidia-smi . Perintah ini seharusnya menampilkan nama GPU, versi driver, penggunaan memori saat ini, dan proses yang sedang berjalan. Jika nvidia-smi gagal, tunda dulu penggunaan PyTorch/TensorFlow/JAX - perbaiki visibilitas driver terlebih dahulu. Ini adalah pemeriksaan dasar "apakah oven terhubung" untuk pelatihan GPU.

Memilih antara CUDA sistem dan CUDA yang disertakan dengan PyTorch

Pendekatan umum adalah menggunakan CUDA yang sudah terintegrasi dalam framework (seperti banyak wheel PyTorch) karena mengurangi komponen yang bergerak - Anda terutama membutuhkan driver NVIDIA yang kompatibel. Menginstal toolkit CUDA sistem lengkap menawarkan kontrol lebih (build kustom, operasi kompilasi), tetapi juga memperkenalkan lebih banyak peluang untuk ketidakcocokan versi dan kesalahan runtime yang membingungkan.

Mengapa pelatihan masih bisa lambat bahkan dengan GPU NVIDIA

Seringkali, GPU kekurangan sumber daya karena banyaknya input yang masuk. Dataloader yang lambat, pra-pemrosesan CPU yang berat di dalam langkah pelatihan, ukuran batch yang kecil, atau penyimpanan yang lambat dapat membuat GPU yang bertenaga berperilaku seperti pemanas ruangan yang tidak digunakan. Meningkatkan jumlah worker dataloader, mengaktifkan pinned memory, menambahkan prefetching, dan mengurangi logging adalah langkah awal yang umum dilakukan sebelum menyalahkan model.

Cara mencegah kesalahan “CUDA out of memory” selama pelatihan GPU NVIDIA

Sebagian besar perbaikan berkaitan dengan taktik VRAM: mengurangi ukuran batch, mengaktifkan presisi campuran (FP16/BF16), menggunakan akumulasi gradien, memperpendek panjang/ukuran crop sequence, atau menggunakan checkpointing aktivasi. Periksa juga proses GPU lain yang mengonsumsi memori. Beberapa percobaan dan kesalahan adalah hal yang normal - penganggaran VRAM menjadi kebiasaan inti dalam pelatihan GPU praktis.

Mengapa VRAM masih terlihat penuh setelah skrip pelatihan berakhir?

Framework sering kali menyimpan memori GPU dalam cache untuk meningkatkan kecepatan, sehingga memori yang dicadangkan dapat tetap tinggi bahkan ketika memori yang dialokasikan menurun. Ini mungkin tampak seperti kebocoran memori, tetapi seringkali ini adalah perilaku alokator caching yang sesuai dengan desainnya. Kebiasaan praktisnya adalah melacak pola tersebut dari waktu ke waktu dan membandingkan "dialokasikan vs dicadangkan" daripada terpaku pada satu kejadian yang mengkhawatirkan.

Bagaimana cara memastikan model tidak melakukan pelatihan diam-diam di CPU?

Lakukan pengecekan awal: pastikan `torch.cuda.is_available()` mengembalikan `True` , verifikasi ` next(model.parameters()).device` menunjukkan `cuda` , dan jalankan satu kali proses forward pass tanpa kesalahan. Jika performa terasa lambat secara mencurigakan, pastikan juga batch Anda dipindahkan ke GPU. Seringkali terjadi kesalahan saat memindahkan model dan secara tidak sengaja meninggalkan data di belakang.

Jalur paling sederhana untuk pelatihan multi-GPU

Data Parallel (pelatihan bergaya DDP) seringkali merupakan langkah pertama terbaik: membagi batch di beberapa GPU dan menyinkronkan gradien. Alat seperti Accelerate dapat membuat multi-GPU menjadi lebih mudah tanpa perlu penulisan ulang sepenuhnya. Harapkan variabel tambahan - komunikasi NCCL, perbedaan interkoneksi (NVLink vs PCIe), dan hambatan data yang lebih besar - sehingga penskalaan secara bertahap setelah menjalankan single-GPU dengan baik cenderung berjalan lebih lancar.

Hal-hal yang perlu dipantau selama pelatihan GPU NVIDIA untuk mendeteksi masalah sejak dini

Pantau penggunaan GPU, penggunaan memori (stabil vs meningkat), konsumsi daya, dan suhu - pembatasan kinerja (throttling) dapat secara diam-diam mengurangi kecepatan. Perhatikan juga penggunaan CPU, karena masalah pada pipeline data seringkali muncul di sana terlebih dahulu. Jika penggunaan CPU berfluktuasi atau rendah, curigai I/O atau pemuat data; jika tinggi tetapi waktu langkah masih lambat, profilkan kernel, mode presisi, dan rincian waktu langkah.

Referensi

  1. NVIDIA - Dokumentasi NVIDIA nvidia-smi - docs.nvidia.com

  2. NVIDIA - Antarmuka Manajemen Sistem NVIDIA (NVSMI) - developer.nvidia.com

  3. NVIDIA - Ikhtisar NVIDIA NVLink - nvidia.com

  4. PyTorch - Panduan Memulai PyTorch (pemilih CUDA) - pytorch.org

  5. PyTorch - Dokumentasi PyTorch CUDA - docs.pytorch.org

  6. TensorFlow - Instalasi TensorFlow (pip) - tensorflow.org

  7. JAX - Panduan Singkat JAX - docs.jax.dev

  8. Hugging Face - Dokumen Pelatih - huggingface.co

  9. Lightning AI - Dokumentasi Lightning - lightning.ai

  10. DeepSpeed ​​- ZeRO - deepspeed.readthedocs.io

  11. Microsoft Research - Microsoft Research: ZeRO/DeepSpeed ​​- microsoft.com

  12. Forum PyTorch - Forum PyTorch: periksa model pada CUDA - discuss.pytorch.org

Temukan AI Terbaru di Toko Resmi Asisten AI

Tentang Kami

Kembali ke blog