Cara Menerapkan Model AI

Cara Menerapkan Model AI

Jawaban singkat: Menerapkan model AI berarti memilih pola penyajian (real-time, batch, streaming, atau edge), kemudian membuat seluruh jalur dapat direproduksi, diamati, aman, dan dapat dibalik. Ketika Anda membuat versi untuk semuanya dan melakukan benchmark latensi p95/p99 pada payload yang menyerupai lingkungan produksi, Anda dapat menghindari sebagian besar kegagalan "berjalan di laptop saya".

Poin-poin penting:

Pola penerapan: Pilih waktu nyata, batch, streaming, atau edge sebelum Anda memutuskan alat mana yang akan digunakan.

Reproduksibilitas: Buat versi untuk model, fitur, kode, dan lingkungan untuk mencegah penyimpangan.

Observabilitas: Terus-menerus memantau ekor latensi, kesalahan, saturasi, dan distribusi data atau keluaran.

Peluncuran yang aman: Gunakan pengujian canary, blue-green, atau shadow dengan ambang batas rollback otomatis.

Keamanan & privasi: Terapkan otentikasi, batasan laju akses, dan manajemen rahasia, serta minimalkan informasi identitas pribadi (PII) dalam log.

Bagaimana Cara Menerapkan Model AI? Infografis

Artikel-artikel yang mungkin ingin Anda baca setelah ini: 

🔗 Cara mengukur kinerja AI
Pelajari metrik, tolok ukur, dan pemeriksaan dunia nyata untuk hasil AI yang andal.

🔗 Cara mengotomatiskan tugas dengan AI
Ubah pekerjaan berulang menjadi alur kerja menggunakan petunjuk, alat, dan integrasi.

🔗 Cara menguji model AI
Evaluasi desain, kumpulan data, dan penilaian untuk membandingkan model secara objektif.

🔗 Cara berbicara dengan AI
Ajukan pertanyaan yang lebih baik, tetapkan konteks, dan dapatkan jawaban yang lebih jelas dengan cepat.


1) Apa arti sebenarnya dari “deployment” (dan mengapa bukan hanya API) 🧩

Ketika orang mengatakan "menerapkan model," mereka mungkin merujuk pada salah satu dari hal-hal berikut:

Jadi, penerapannya bukan lagi sekadar "membuat model mudah diakses", melainkan lebih seperti:

  • pengemasan + penyajian + penskalaan + pemantauan + tata kelola + pengembalian ( Penerapan Biru-Hijau )

Ini seperti membuka restoran. Memasak hidangan yang enak itu penting, tentu saja. Tapi Anda tetap membutuhkan bangunan, staf, pendingin, menu, rantai pasokan, dan cara untuk menangani kesibukan makan malam tanpa menangis di ruang pendingin. Bukan metafora yang sempurna… tapi Anda mengerti maksudnya. 🍝


2) Apa yang membuat versi "Cara Menerapkan Model AI" yang baik? ✅

"Deployment yang baik" itu membosankan dalam arti yang terbaik. Ia berperilaku dapat diprediksi di bawah tekanan, dan ketika tidak, Anda dapat mendiagnosisnya dengan cepat.

Inilah gambaran umum tentang apa yang "baik":

  • Build yang dapat direproduksi.
    Kode yang sama + dependensi yang sama = perilaku yang sama. Tidak ada efek aneh "berjalan di laptop saya" 👻 ( Docker: Apa itu kontainer? )

  • Kontrak antarmuka yang jelas.
    Input, output, skema, dan kasus khusus didefinisikan. Tidak ada tipe yang mengejutkan di tengah malam. ( OpenAPI: Apa itu OpenAPI?, Skema JSON )

  • Performa yang sesuai dengan kenyataan.
    Latensi dan throughput diukur pada perangkat keras yang menyerupai lingkungan produksi dan beban kerja yang realistis.

  • Pemantauan yang efektif:
    Metrik, log, jejak, dan pemeriksaan penyimpangan yang memicu tindakan (bukan hanya dasbor yang tidak pernah dibuka). ( Buku SRE: Memantau Sistem Terdistribusi )

  • Strategi peluncuran yang aman
    (Canary atau blue-green), rollback yang mudah, dan pembuatan versi yang tidak memerlukan doa. ( Rilis Canary , Penyebaran Blue-Green )

  • Kesadaran akan biaya
    "Cepat" memang bagus sampai tagihannya terlihat seperti nomor telepon 📞💸

  • Keamanan dan privasi terintegrasi dalam
    manajemen rahasia, kontrol akses, penanganan PII (Informasi Identitas Pribadi), dan kemampuan audit. ( Kubernetes Secrets , NIST SP 800-122 )

Jika Anda bisa melakukan itu secara konsisten, Anda sudah selangkah lebih maju daripada sebagian besar tim. Jujur saja.


3) Pilih pola penerapan yang tepat (sebelum Anda memilih alat) 🧠

Inferensi API waktu nyata ⚡

Terbaik saat:

  • Pengguna membutuhkan hasil instan (rekomendasi, pengecekan penipuan, obrolan, personalisasi)

  • Keputusan harus diambil selama permintaan diajukan

Hal-hal yang perlu diperhatikan:

Penilaian kelompok 📦

Terbaik saat:

  • Prediksi dapat ditunda (penilaian risiko semalaman, prediksi pelanggan berhenti berlangganan, pengayaan ETL) ( Amazon SageMaker Batch Transform )

  • Anda menginginkan efisiensi biaya dan operasi yang lebih sederhana

Hal-hal yang perlu diperhatikan:

  • Kesegaran data dan pengisian ulang

  • Menjaga logika fitur tetap konsisten dengan pelatihan

Inferensi streaming 🌊

Terbaik saat:

  • Anda memproses peristiwa secara terus menerus (IoT, clickstream, sistem pemantauan)

  • Anda menginginkan keputusan mendekati waktu nyata tanpa adanya aturan permintaan-respons yang ketat

Hal-hal yang perlu diperhatikan:

Penyebaran di tepi jaringan 📱

Terbaik saat:

Hal-hal yang perlu diperhatikan:

Pilih polanya dulu, lalu pilih tumpukannya. Kalau tidak, Anda akan memaksakan model persegi ke dalam runtime bulat. Atau semacam itu. 😬


4) Mengemas model agar tetap utuh saat bersentuhan dengan proses produksi 📦🧯

Di sinilah sebagian besar "implementasi mudah" berakhir dengan sia-sia.

Versi semuanya (ya, semuanya)

  • Artefak model (bobot, grafik, tokenizer, peta label)

  • Logika fitur (transformasi, normalisasi, encoder)

  • Kode inferensi (pra/pasca-pemrosesan)

  • Lingkungan (Python, CUDA, pustaka sistem)

Pendekatan sederhana yang berhasil:

  • perlakukan model tersebut seperti artefak rilis

  • simpan dengan tag versi

  • Membutuhkan berkas metadata seperti kartu model: skema, metrik, catatan cuplikan data pelatihan, batasan yang diketahui ( Kartu Model untuk Pelaporan Model )

Wadah memang membantu, tapi jangan dipuja-puja 🐳

Wadah sangat bagus karena:

Namun Anda tetap perlu mengelola:

  • pembaruan gambar dasar

  • Kompatibilitas driver GPU

  • pemindaian keamanan

  • Ukuran gambar (tidak ada yang suka "hello world" berukuran 9GB) ( Praktik terbaik pembuatan Docker )

Standarisasi antarmuka

Tentukan format input/output Anda sejak awal:

Dan mohon validasi input. Input yang tidak valid adalah penyebab utama tiket "mengapa ini mengembalikan hal yang tidak masuk akal". ( OpenAPI: Apa itu OpenAPI?, Skema JSON )


5) Opsi penyajian - dari “API sederhana” hingga server model lengkap 🧰

Ada dua jalur umum:

Opsi A: Server aplikasi + kode inferensi (pendekatan ala FastAPI) 🧪

Anda membuat API yang memuat model dan mengembalikan prediksi. ( FastAPI )

Kelebihan:

  • mudah disesuaikan

  • Cocok untuk model yang lebih sederhana atau produk tahap awal

  • otentikasi, perutean, dan integrasi yang mudah

Kontra:

  • Anda sendiri yang melakukan penyetelan performa (batching, threading, pemanfaatan GPU)

  • Anda akan menciptakan kembali beberapa hal yang sudah ada, mungkin dengan buruk pada awalnya

Opsi B: Server model (pendekatan ala TorchServe / Triton) 🏎️

Server khusus yang menangani:

Kelebihan:

  • pola kinerja yang lebih baik langsung dari awal

  • pemisahan yang lebih jelas antara logika penyajian dan logika bisnis

Kontra:

  • kompleksitas operasional tambahan

  • Pengaturannya bisa terasa… rumit, seperti mengatur suhu pancuran air

Pola hibrida sangat umum:


6) Tabel Perbandingan - cara-cara populer untuk menerapkan (dengan nuansa jujur) 📊😌

Berikut adalah gambaran praktis dari opsi yang sebenarnya digunakan orang ketika mencari tahu Cara Menerapkan Model AI .

Alat / Pendekatan Hadirin Harga Mengapa ini berhasil
Docker + FastAPI (atau yang serupa) Tim kecil, perusahaan rintisan Agak gratis Sederhana, fleksibel, cepat dikirim - namun Anda akan "merasakan" setiap masalah penskalaan ( Docker , FastAPI ).
Kubernetes (DIY) Tim platform Infra-dependen Kontrol + skalabilitas… juga, banyak pengaturan, beberapa di antaranya bermasalah ( Kubernetes HPA )
Platform ML terkelola (layanan ML berbasis cloud) Tim yang menginginkan operasi yang lebih sedikit Bayar sesuai penggunaan Alur kerja penerapan bawaan, fitur pemantauan - terkadang mahal untuk titik akhir yang selalu aktif ( penerapan Vertex AI , inferensi waktu nyata SageMaker )
Fungsi tanpa server (untuk inferensi ringan) Aplikasi berbasis peristiwa Bayar per penggunaan Bagus untuk lalu lintas yang fluktuatif - tetapi cold start dan ukuran model dapat merusak hari Anda 😬 ( AWS Lambda cold start )
Server Inferensi NVIDIA Triton Tim yang berfokus pada kinerja Perangkat lunak gratis, biaya infrastruktur Pemanfaatan GPU yang sangat baik, pemrosesan batch, multi-model - konfigurasi membutuhkan kesabaran ( Triton: Pemrosesan batch dinamis )
TorchServe Tim yang banyak menggunakan PyTorch Perangkat lunak gratis Pola penyajian default yang layak - mungkin perlu penyesuaian untuk skala besar ( dokumentasi TorchServe )
BentoML (kemasan + penyajian) Insinyur ML Paket inti gratis, tambahan bervariasi Pengemasan yang rapi, pengalaman pengembang yang baik - Anda tetap membutuhkan pilihan infrastruktur ( pengemasan BentoML untuk penyebaran )
Ray Serve Para ahli sistem terdistribusi Infra-dependen Skalabilitas horizontal, bagus untuk pipeline - terasa "besar" untuk proyek-proyek kecil ( dokumentasi Ray Serve )

Catatan tabel: "Agak gratis" adalah istilah kehidupan nyata. Karena tidak pernah ada yang benar-benar gratis. Selalu ada tagihan di suatu tempat, bahkan jika itu adalah biaya tidur Anda. 😴


7) Performa dan skalabilitas - latensi, throughput, dan kebenarannya 🏁

Penyempurnaan performa adalah di mana implementasi menjadi sebuah keahlian. Tujuannya bukanlah "cepat." Tujuannya adalah konsisten cukup cepat .

Metrik kunci yang penting

Tuas umum yang dapat ditarik

  • Menggabungkan
    permintaan secara berkelompok untuk memaksimalkan penggunaan GPU. Bagus untuk throughput, tetapi dapat meningkatkan latensi jika berlebihan. ( Triton: Pengelompokan dinamis )

  • Kuantisasi
    dengan presisi lebih rendah (seperti INT8) dapat mempercepat inferensi dan mengurangi penggunaan memori. Mungkin sedikit menurunkan akurasi. Terkadang tidak, yang cukup mengejutkan. ( Kuantisasi pasca-pelatihan )

  • Kompilasi/optimasi
    ekspor ONNX, pengoptimal grafik, alur mirip TensorRT. Ampuh, tetapi proses debugging bisa jadi rumit 🌶️ ( ONNX , optimasi model ONNX Runtime )


  • Jika input berulang (atau Anda dapat menyimpan embedding dalam cache), Anda dapat menghemat banyak waktu .

  • Autoscaling
    melakukan penskalaan berdasarkan pemanfaatan CPU/GPU, kedalaman antrian, atau laju permintaan. Kedalaman antrian sering diremehkan. ( Kubernetes HPA )

Sebuah tips yang mungkin aneh tapi benar: ukur dengan ukuran muatan yang menyerupai ukuran produksi. Muatan uji yang sangat kecil akan menipu Anda. Mereka tampak ramah, lalu mengkhianati Anda di kemudian hari.


8) Pemantauan dan pengamatan - jangan terbang tanpa arah 👀📈

Pemantauan model bukan hanya pemantauan waktu aktif. Anda ingin mengetahui apakah:

Apa yang perlu dipantau (set minimum yang layak)

Layanan kesehatan

Perilaku model

  • distribusi fitur masukan (statistik dasar)

  • norma penyematan (untuk model penyematan)

  • distribusi keluaran (kepercayaan, campuran kelas, rentang skor)

  • deteksi anomali pada input (sampah masuk, sampah keluar)

Pergeseran data dan pergeseran konsep

Melakukan pencatatan (logging), tetapi bukan dengan pendekatan "mencatat semuanya selamanya" 🪵

Log:

Berhati-hatilah dengan privasi. Anda tidak ingin log Anda menjadi sumber kebocoran data. ( NIST SP 800-122 )


9) Strategi CI/CD dan peluncuran - perlakukan model seperti rilis sungguhan 🧱🚦

Jika Anda menginginkan penerapan yang andal, buatlah pipeline. Bahkan yang sederhana sekalipun.

Aliran padat

  • Pengujian unit untuk pra-pemrosesan dan pasca-pemrosesan

  • Pengujian integrasi dengan "set emas" input-output yang diketahui

  • Beban uji dasar (bahkan yang ringan sekalipun)

  • Membangun artefak (kontainer + model) ( praktik terbaik pembangunan Docker )

  • Lakukan deployment ke area staging

  • Rilis Canary ke sebagian kecil lalu lintas ( Rilis Canary )

  • Tingkatkan secara bertahap

  • Pengembalian otomatis pada ambang batas utama ( Penerapan Biru-Hijau )

Pola peluncuran yang menyelamatkan kewarasan Anda

  • Canary : rilis ke 1-5% lalu lintas terlebih dahulu ( Rilis Canary )

  • Biru-hijau : jalankan versi baru berdampingan dengan versi lama, beralihlah saat sudah siap ( Deployment Biru-Hijau )

  • Pengujian bayangan : mengirimkan lalu lintas nyata ke model baru tetapi tidak menggunakan hasilnya (sangat bagus untuk evaluasi) ( Microsoft: Pengujian bayangan )

Dan beri versi pada endpoint atau rute Anda berdasarkan versi model. Diri Anda di masa depan akan berterima kasih. Diri Anda saat ini juga akan berterima kasih, tetapi secara diam-diam.


10) Keamanan, privasi, dan “jangan sampai ada yang bocor” 🔐🙃

Petugas keamanan cenderung datang terlambat, seperti tamu tak diundang. Lebih baik mengundangnya lebih awal.

Daftar periksa praktis

  • Autentikasi dan otorisasi (siapa yang dapat memanggil model?)

  • Pembatasan laju (melindungi dari penyalahgunaan dan lonjakan permintaan yang tidak disengaja) ( pembatasan laju API Gateway )

  • Manajemen rahasia (tidak ada kunci dalam kode, tidak ada kunci dalam file konfigurasi juga…) ( AWS Secrets Manager , Kubernetes Secrets )

  • Kontrol jaringan (subnet privat, kebijakan antar layanan)

  • Log audit (khususnya untuk prediksi sensitif)

  • Minimalisasi data (simpan hanya apa yang Anda perlukan) ( NIST SP 800-122 )

Jika model tersebut menyentuh data pribadi:

  • menyunting atau membuat hash pengenal

  • hindari pencatatan muatan mentah ( NIST SP 800-122 )

  • tetapkan aturan retensi

  • Alur data dokumen (membosankan, tetapi melindungi)

Selain itu, injeksi prompt dan penyalahgunaan output dapat menjadi masalah bagi model generatif. Tambahkan: ( OWASP Top 10 untuk Aplikasi LLM , OWASP: Injeksi Prompt )

  • aturan sanitasi input

  • penyaringan keluaran bila diperlukan

  • pembatas untuk pemanggilan alat atau tindakan basis data

Tidak ada sistem yang sempurna, tetapi Anda dapat membuatnya lebih tahan terhadap kerusakan.


11) Jebakan umum (alias perangkap biasa) 🪤

Berikut adalah yang klasik:

Jika Anda membaca ini dan berpikir "ya, kami melakukan dua hal itu," selamat datang di klub. Klub ini menyediakan camilan, dan sedikit stres. 🍪


12) Kesimpulan - Cara Menerapkan Model AI tanpa kehilangan akal sehat 😄✅

Implementasi adalah tahap di mana AI menjadi produk nyata. Ini bukan proses yang glamor, tetapi di sinilah kepercayaan diperoleh.

Ringkasan singkat

Ya, cara menerapkan model AI memang terasa seperti melempar bola bowling yang terbakar pada awalnya. Tetapi begitu alur kerja Anda stabil, rasanya sangat memuaskan. Seperti akhirnya merapikan laci yang berantakan… hanya saja laci itu berisi lalu lintas produksi. 🔥🎳

Pertanyaan yang Sering Diajukan (FAQ)

Apa artinya menerapkan model AI dalam lingkungan produksi?

Menerapkan model AI biasanya melibatkan lebih dari sekadar mengekspos API prediksi. Dalam praktiknya, ini mencakup pengemasan model dan dependensinya, pemilihan pola penyajian (real-time, batch, streaming, atau edge), penskalaan dengan keandalan, pemantauan kesehatan dan penyimpangan, serta pengaturan jalur peluncuran dan pengembalian yang aman. Penerapan yang solid akan tetap stabil dan dapat diprediksi di bawah beban dan tetap dapat didiagnosis ketika terjadi kesalahan.

Bagaimana cara memilih antara penerapan waktu nyata, batch, streaming, atau edge?

Pilih pola penerapan berdasarkan kapan prediksi dibutuhkan dan batasan yang Anda hadapi. API waktu nyata cocok untuk pengalaman interaktif di mana latensi menjadi penting. Penilaian batch paling baik digunakan ketika penundaan dapat diterima dan efisiensi biaya menjadi prioritas. Streaming cocok untuk pemrosesan peristiwa berkelanjutan, terutama ketika semantik pengiriman menjadi rumit. Penerapan edge ideal untuk operasi offline, privasi, atau persyaratan latensi sangat rendah, meskipun pembaruan dan variasi perangkat keras menjadi lebih sulit dikelola.

Versi apa yang perlu diubah untuk menghindari kegagalan penyebaran dengan pesan "berjalan di laptop saya"?

Lebih dari sekadar bobot model, Anda perlu memberi versi pada artefak model yang diberi versi (termasuk tokenizer atau peta label), logika pra-pemrosesan dan fitur, kode inferensi, dan lingkungan runtime lengkap (Python/CUDA/pustaka sistem). Perlakukan model sebagai artefak rilis dengan versi yang diberi tag dan metadata ringan yang menjelaskan harapan skema, catatan evaluasi, dan batasan yang diketahui.

Apakah akan menggunakan layanan sederhana bergaya FastAPI atau server model khusus?

Server aplikasi sederhana (pendekatan ala FastAPI) bekerja dengan baik untuk produk awal atau model yang sederhana karena Anda tetap memegang kendali atas perutean, otentikasi, dan integrasi. Server model (ala TorchServe atau NVIDIA Triton) dapat memberikan pengelompokan, konkurensi, dan efisiensi GPU yang lebih kuat secara langsung. Banyak tim memilih pendekatan hibrida: server model untuk inferensi ditambah lapisan API tipis untuk otentikasi, pembentukan permintaan, dan pembatasan laju.

Bagaimana cara meningkatkan latensi dan throughput tanpa mengurangi akurasi?

Mulailah dengan mengukur latensi p95/p99 pada perangkat keras yang menyerupai lingkungan produksi dengan muatan data yang realistis, karena pengujian kecil dapat menyesatkan. Beberapa cara yang umum dilakukan meliputi pengelompokan (throughput lebih baik, tetapi latensi berpotensi lebih buruk), kuantisasi (lebih kecil dan lebih cepat, terkadang dengan sedikit kompromi pada akurasi), alur kompilasi dan optimasi (mirip ONNX/TensorRT), dan caching input atau embedding yang berulang. Penskalaan otomatis berdasarkan kedalaman antrian juga dapat mencegah latensi ekor meningkat.

Pemantauan apa yang dibutuhkan selain hanya memastikan "endpoint sudah aktif"?

Waktu aktif saja tidak cukup, karena suatu layanan dapat terlihat sehat sementara kualitas prediksinya menurun. Minimal, pantau volume permintaan, tingkat kesalahan, dan distribusi latensi, ditambah sinyal saturasi seperti CPU/GPU/memori dan waktu antrian. Untuk perilaku model, lacak distribusi input dan output beserta sinyal anomali dasar. Tambahkan pemeriksaan penyimpangan yang memicu tindakan daripada peringatan yang berisik, dan catat ID permintaan, versi model, dan hasil validasi skema.

Cara meluncurkan versi model baru dengan aman dan pulih dengan cepat

Perlakukan model seperti rilis penuh, dengan pipeline CI/CD yang menguji pra-pemrosesan dan pasca-pemrosesan, menjalankan pemeriksaan integrasi terhadap "golden set," dan menetapkan baseline beban. Untuk peluncuran, rilis canary meningkatkan lalu lintas secara bertahap, sementara blue-green mempertahankan versi lama tetap aktif untuk fallback segera. Pengujian shadow membantu mengevaluasi model baru pada lalu lintas nyata tanpa memengaruhi pengguna. Rollback harus menjadi mekanisme utama, bukan sekadar tambahan.

Kesalahan umum yang sering terjadi saat mempelajari cara menerapkan model AI

Perbedaan antara pelatihan dan produksi adalah kasus klasik: pra-pemrosesan berbeda antara pelatihan dan produksi, dan kinerja menurun secara perlahan. Masalah lain yang sering terjadi adalah kurangnya validasi skema, di mana perubahan hulu merusak input dengan cara yang halus. Tim juga meremehkan latensi ekor dan terlalu fokus pada rata-rata, mengabaikan biaya (GPU yang menganggur akan cepat menumpuk), dan melewatkan perencanaan rollback. Memantau hanya waktu aktif sangat berisiko, karena "aktif tetapi salah" bisa lebih buruk daripada tidak aktif.

Referensi

  1. Amazon Web Services (AWS) - Amazon SageMaker: Inferensi waktu nyata - docs.aws.amazon.com

  2. Amazon Web Services (AWS) - Amazon SageMaker Batch Transform - docs.aws.amazon.com

  3. Amazon Web Services (AWS) - Amazon SageMaker Model Monitor - docs.aws.amazon.com

  4. Amazon Web Services (AWS) - Pembatasan permintaan API Gateway - docs.aws.amazon.com

  5. Amazon Web Services (AWS) - AWS Secrets Manager: Pengantar - docs.aws.amazon.com

  6. Amazon Web Services (AWS) - Siklus hidup lingkungan eksekusi AWS Lambda - docs.aws.amazon.com

  7. Google Cloud - Vertex AI: Menerapkan model ke titik akhir - docs.cloud.google.com

  8. Google Cloud - Ikhtisar Pemantauan Model AI Vertex - docs.cloud.google.com

  9. Google Cloud - Vertex AI: Memantau penyimpangan dan pergeseran fitur - docs.cloud.google.com

  10. Blog Google Cloud - Dataflow: mode streaming tepat sekali vs setidaknya sekali - cloud.google.com

  11. Google Cloud - Mode streaming Cloud Dataflow - docs.cloud.google.com

  12. Buku SRE Google - Memantau Sistem Terdistribusi - sre.google

  13. Riset Google - Ekor dalam Skala Besar - research.google

  14. LiteRT (Google AI) - Ikhtisar LiteRT - ai.google.dev

  15. LiteRT (Google AI) - Inferensi LiteRT di perangkat - ai.google.dev

  16. Docker - Apa itu kontainer? - docs.docker.com

  17. Docker - Praktik terbaik pembuatan Docker - docs.docker.com

  18. Kubernetes - Rahasia Kubernetes - kubernetes.io

  19. Kubernetes - Penskalaan Otomatis Pod Horizontal - kubernetes.io

  20. Martin Fowler - Pelepasan Burung Kenari - martinfowler.com

  21. Martin Fowler - Penempatan Biru-Hijau - martinfowler.com

  22. Inisiatif OpenAPI - Apa itu OpenAPI? - openapis.org

  23. Skema JSON - (situs yang dirujuk) - json-schema.org

  24. Protocol Buffers - Gambaran umum Protocol Buffers - protobuf.dev

  25. FastAPI - (situs yang dirujuk) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Pengelompokan Dinamis & Eksekusi Model Bersamaan - docs.nvidia.com

  27. NVIDIA - Triton: Eksekusi Model Bersamaan - docs.nvidia.com

  28. NVIDIA - Dokumentasi Triton Inference Server - docs.nvidia.com

  29. PyTorch - Dokumentasi TorchServe - docs.pytorch.org

  30. BentoML - Pengemasan untuk penyebaran - docs.bentoml.com

  31. Ray - Dokumentasi Ray Serve - docs.ray.io

  32. TensorFlow - Kuantisasi pasca-pelatihan (Optimasi Model TensorFlow) - tensorflow.org

  33. TensorFlow - Validasi Data TensorFlow: mendeteksi ketidakseimbangan antara pelatihan dan penyajian data - tensorflow.org

  34. ONNX - (situs yang dirujuk) - onnx.ai

  35. ONNX Runtime - Optimasi model - onnxruntime.ai

  36. NIST (Institut Standar dan Teknologi Nasional) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Kartu Model untuk Pelaporan Model - arxiv.org

  38. Microsoft - Pengujian bayangan - microsoft.github.io

  39. OWASP - OWASP Top 10 untuk Aplikasi LLM - owasp.org

  40. Proyek Keamanan OWASP GenAI - OWASP: Injeksi Prompt - genai.owasp.org

Temukan AI Terbaru di Toko Resmi Asisten AI

Tentang Kami

Kembali ke blog