Cara Menguji Model AI

Cara Menguji Model AI

Jawaban singkat: Untuk mengevaluasi model AI dengan baik, mulailah dengan mendefinisikan seperti apa "yang baik" bagi pengguna sebenarnya dan keputusan yang sedang dihadapi. Kemudian, bangun evaluasi yang dapat diulang dengan data representatif, kontrol kebocoran yang ketat, dan berbagai metrik. Tambahkan pemeriksaan stres, bias, dan keamanan, dan setiap kali ada perubahan (data, perintah, kebijakan), jalankan ulang pengujian dan terus pantau setelah peluncuran.

Poin-poin penting:

Kriteria keberhasilan : Tentukan pengguna, keputusan, batasan, dan skenario kegagalan terburuk sebelum memilih metrik.

Kemampuan pengulangan : Buat kerangka evaluasi yang menjalankan kembali pengujian yang sebanding setiap kali ada perubahan.

Kebersihan data : Pertahankan pemisahan yang stabil, cegah duplikasi, dan blokir kebocoran fitur sejak dini.

Pemeriksaan kepercayaan : Uji ketahanan, keadilan, dan perilaku keselamatan LLM dengan rubrik yang jelas.

Disiplin siklus hidup : Luncurkan secara bertahap, pantau penyimpangan dan insiden, serta dokumentasikan kesenjangan yang diketahui.

Artikel-artikel yang mungkin ingin Anda baca setelah ini:

🔗 Apa itu etika AI?
Jelajahi prinsip-prinsip yang memandu desain, penggunaan, dan tata kelola AI yang bertanggung jawab.

🔗 Apa itu bias AI?
Pelajari bagaimana data yang bias memengaruhi keputusan dan hasil AI.

🔗 Apa itu skalabilitas AI
Memahami cara meningkatkan skala sistem AI untuk kinerja, biaya, dan keandalan.

🔗 Apa itu AI?
Gambaran umum yang jelas tentang kecerdasan buatan, jenis-jenisnya, dan penggunaannya di dunia nyata.


1) Mulailah dengan definisi "baik" yang tidak glamor 

Sebelum metrik, sebelum dasbor, sebelum pamer tolok ukur apa pun - tentukan seperti apa kesuksesan itu.

Menjelaskan:

  • Pengguna: analis internal, pelanggan, dokter, pengemudi, agen dukungan yang lelah pada pukul 4 sore…

  • Keputusan: menyetujui pinjaman, menandai penipuan, menyarankan konten, merangkum catatan.

  • Kegagalan yang paling penting:

    • Hasil positif palsu (mengganggu) vs hasil negatif palsu (berbahaya)

  • Batasan-batasan: latensi, biaya per permintaan, aturan privasi, persyaratan kemampuan penjelasan, aksesibilitas.

Inilah bagian di mana tim cenderung mengoptimalkan "metrik yang indah" alih-alih "hasil yang bermakna." Ini sering terjadi. Sangat sering.

Cara yang tepat untuk menjaga kesadaran risiko (dan bukan berdasarkan firasat) adalah dengan membingkai pengujian seputar kepercayaan dan manajemen risiko siklus hidup, seperti yang dilakukan NIST dalam Kerangka Kerja Manajemen Risiko AI (AI RMF 1.0) [1].

 

Pengujian Model AI

2) Apa yang membuat versi "cara menguji model AI" yang baik? ✅

Pendekatan pengujian yang solid memiliki beberapa hal yang tidak dapat ditawar:

  • Data representatif (bukan hanya data laboratorium yang bersih)

  • Sekat transparan dengan pencegahan kebocoran (akan dijelaskan lebih lanjut sebentar lagi)

  • Garis dasar (model sederhana yang harus lampaui - estimator dummy ada karena suatu alasan [4])

  • Berbagai metrik (karena satu angka saja tidak jujur, bahkan secara terang-terangan)

  • Uji stres (kasus ekstrem, input yang tidak biasa, skenario yang menyerupai serangan musuh)

  • Siklus peninjauan manusia (khususnya untuk model generatif)

  • Pemantauan setelah peluncuran (karena dunia berubah, saluran terputus, dan pengguna… kreatif [1])

Selain itu: pendekatan yang baik mencakup mendokumentasikan apa yang telah Anda uji, apa yang belum Anda uji, dan apa yang membuat Anda gugup. Bagian "apa yang membuat saya gugup" terasa canggung - dan di situlah kepercayaan mulai terbangun.

Dua pola dokumentasi yang secara konsisten membantu tim untuk tetap transparan:

  • Kartu Model (untuk apa model itu, bagaimana model itu dievaluasi, di mana model itu gagal) [2]

  • Lembar Data untuk Kumpulan Data (apa datanya, bagaimana data tersebut dikumpulkan, untuk apa data tersebut seharusnya/tidak seharusnya digunakan) [3]


3) Realita alat: apa yang digunakan orang dalam praktiknya 🧰

Alat bantu bersifat opsional. Kebiasaan evaluasi yang baik adalah suatu keharusan.

Jika Anda menginginkan pengaturan yang pragmatis, sebagian besar tim pada akhirnya memiliki tiga kategori:

  1. Pelacakan eksperimen (jalankan, konfigurasi, artefak)

  2. Kerangka evaluasi (tes offline yang dapat diulang + rangkaian regresi)

  3. Pemantauan (sinyal yang menunjukkan pergeseran, proksi kinerja, peringatan insiden)

Contoh yang akan sering Anda temui di lapangan (bukan endorsement, dan ya - fitur/harga dapat berubah): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.

Jika Anda hanya memilih satu ide dari bagian ini: buatlah kerangka evaluasi yang dapat diulang . Anda menginginkan "tekan tombol → dapatkan hasil yang sebanding," bukan "jalankan ulang notebook dan berdoa."


4) Bangun set data uji yang tepat (dan hentikan kebocoran data) 🚧

Sejumlah besar model "luar biasa" ternyata secara tidak sengaja melakukan kecurangan.

Untuk ML standar

Beberapa aturan sederhana yang dapat menyelamatkan karier:

  • Pertahankan untuk pelatihan/validasi/pengujian tetap stabil (dan tuliskan logika pembagian data tersebut).

  • Mencegah duplikasi di seluruh pemisahan (pengguna yang sama, dokumen yang sama, produk yang sama, duplikat yang hampir sama)

  • Waspadai kebocoran fitur (informasi masa depan yang menyelinap ke dalam fitur "saat ini").

  • Gunakan garis dasar (estimator dummy) agar Anda tidak merayakan mengalahkan… tidak ada apa-apa [4]

Definisi kebocoran (versi singkat): segala sesuatu dalam pelatihan/evaluasi yang memberikan model akses ke informasi yang tidak akan dimilikinya pada saat pengambilan keputusan. Hal ini bisa jelas ("label masa depan") atau halus ("wadah stempel waktu pasca-kejadian").

Untuk LLM dan model generatif

Anda sedang membangun sistem yang memberikan arahan dan kebijakan , bukan hanya "sebuah model."

  • Buatlah serangkaian prompt yang ideal (kecil, berkualitas tinggi, stabil)

  • Tambahkan contoh nyata terbaru (anonim + aman untuk privasi)

  • Siapkan paket kasus khusus : kesalahan ketik, bahasa gaul, format tidak standar, input kosong, kejutan multibahasa 🌍

Satu hal praktis yang pernah saya saksikan terjadi lebih dari sekali: sebuah tim mengirimkan produk dengan skor offline yang "kuat", lalu dukungan pelanggan berkata, "Bagus. Ternyata ada satu kalimat penting yang terlewat." Solusinya bukanlah "model yang lebih besar." Melainkan petunjuk pengujian yang lebih baik , rubrik yang lebih jelas, dan rangkaian pengujian regresi yang menghukum mode kegagalan tersebut. Sederhana. Efektif.


5) Evaluasi offline: metrik yang bermakna 📏

Metrik itu bagus. Monokultur metrik itu tidak baik.

Klasifikasi (spam, penipuan, niat, penyaringan)

Gunakan lebih dari sekadar akurasi.

  • Presisi, recall, F1

  • Penyesuaian ambang batas (ambang batas default Anda jarang “tepat” untuk biaya Anda) [4]

  • Matriks kebingungan per segmen (wilayah, jenis perangkat, kelompok pengguna)

Regresi (peramalan, penetapan harga, penilaian)

  • MAE / RMSE (pilih berdasarkan bagaimana Anda ingin menghukum kesalahan)

  • Pemeriksaan semacam kalibrasi ketika output digunakan sebagai "skor" (apakah skor sesuai dengan kenyataan?)

Sistem pemeringkatan/rekomendasi

  • NDCG, MAP, MRR

  • Irisan berdasarkan jenis kueri (kepala vs ekor)

Visi komputer

  • mAP, IoU

  • Performa per kelas (kelas langka adalah tempat model-model mempermalukan Anda)

Model generatif (LLM)

Di sinilah orang-orang mulai… berfilosofi 😵💫

Opsi praktis yang berhasil diterapkan dalam tim nyata:

  • Evaluasi manusia (sinyal terbaik, putaran paling lambat)

  • Preferensi berpasangan / tingkat kemenangan (A vs B lebih mudah daripada penilaian absolut)

  • Metrik teks otomatis (berguna untuk beberapa tugas, menyesatkan untuk tugas lainnya)

  • Pemeriksaan berbasis tugas: “Apakah data yang diekstrak sudah tepat?” “Apakah kebijakan sudah diterapkan?” “Apakah sumber referensi dicantumkan jika diperlukan?”

Jika Anda menginginkan titik acuan “multi-metrik, banyak skenario” yang terstruktur, HELM adalah jangkar yang baik: secara eksplisit mendorong evaluasi melampaui akurasi ke hal-hal seperti kalibrasi, ketahanan, bias/toksisitas, dan trade-off efisiensi [5].

Sedikit menyimpang: metrik otomatis untuk kualitas tulisan terkadang terasa seperti menilai sandwich dengan menimbangnya. Bukannya tidak ada apa-apa, tapi… ayolah 🥪


6) Pengujian ketahanan: buat sedikit berkeringat 🥵🧪

Jika model Anda hanya berfungsi pada input yang rapi, pada dasarnya itu seperti vas kaca. Cantik, rapuh, mahal.

Tes:

  • Gangguan: kesalahan ketik, nilai yang hilang, Unicode nonstandar, kesalahan format

  • Pergeseran distribusi: kategori produk baru, bahasa gaul baru, sensor baru

  • Nilai ekstrem: angka di luar rentang, muatan data yang sangat besar, string kosong

  • Input yang bersifat "adversarial" yang tidak menyerupai set data pelatihan Anda tetapi menyerupai pengguna.

Untuk program LLM, sertakan:

  • Upaya penyuntikan yang cepat (instruksi tersembunyi di dalam konten pengguna)

  • Pola “Abaikan instruksi sebelumnya”

  • Kasus-kasus khusus penggunaan alat (URL yang salah, waktu habis, keluaran sebagian)

Ketahanan adalah salah satu sifat kepercayaan yang terdengar abstrak sampai terjadi insiden. Kemudian hal itu menjadi… sangat nyata [1].


7) Bias, keadilan, dan siapa yang diuntungkan ⚖️

Suatu model bisa saja "akurat" secara keseluruhan, tetapi secara konsisten lebih buruk untuk kelompok tertentu. Itu bukan kesalahan kecil. Itu adalah masalah produk dan kepercayaan.

Langkah-langkah praktis:

  • Evaluasi kinerja berdasarkan segmen yang bermakna (sesuai secara hukum/etis untuk diukur)

  • Bandingkan tingkat kesalahan dan kalibrasi antar kelompok

  • Uji fitur proksi (kode pos, jenis perangkat, bahasa) yang dapat menyandikan karakteristik sensitif

Jika Anda tidak mendokumentasikan hal ini di suatu tempat, Anda pada dasarnya meminta diri Anda di masa depan untuk memperbaiki krisis kepercayaan tanpa peta. Kartu Model adalah tempat yang tepat untuk menempatkannya [2], dan kerangka kepercayaan NIST memberi Anda daftar periksa yang kuat tentang apa yang seharusnya termasuk dalam “baik” [1].


8) Pengujian keselamatan dan keamanan (khususnya untuk LLM) 🛡️

Jika model Anda dapat menghasilkan konten, Anda menguji lebih dari sekadar akurasi. Anda menguji perilaku.

Sertakan pengujian untuk:

  • Pembuatan konten yang dilarang (pelanggaran kebijakan)

  • Kebocoran privasi (apakah ini menggemakan rahasia?)

  • Halusinasi di ranah berisiko tinggi

  • Penolakan berlebihan (model menolak permintaan normal)

  • Dampak negatif dan pelecehan

  • Upaya eksfiltrasi data melalui injeksi cepat

Pendekatan yang mendasar adalah: tetapkan aturan kebijakan → buat perintah pengujian → beri skor pada output dengan pemeriksaan manusia + otomatis → jalankan setiap kali ada perubahan. Bagian "setiap kali" itulah yang menjadi biayanya.

Hal ini sesuai dengan pola pikir risiko siklus hidup: mengatur, memetakan konteks, mengukur, mengelola, dan mengulanginya [1].


9) Pengujian daring: peluncuran bertahap (di sinilah kebenaran berada) 🚀

Tes tatap muka diperlukan. Paparan daring adalah saat realitas muncul dengan mengenakan sepatu berlumpur.

Anda tidak perlu tampil mewah. Anda hanya perlu disiplin:

  • Jalankan dalam mode bayangan (model berjalan, tidak memengaruhi pengguna)

  • Peluncuran bertahap (lalu lintas kecil terlebih dahulu, perluas jika berjalan baik)

  • Melacak hasil dan insiden (keluhan, eskalasi, pelanggaran kebijakan)

Sekalipun Anda tidak bisa mendapatkan label secara langsung, Anda dapat memantau sinyal proxy dan kesehatan operasional (latensi, tingkat kegagalan, biaya). Intinya: Anda menginginkan cara yang terkontrol untuk menemukan kegagalan sebelum seluruh basis pengguna Anda mengetahuinya [1].


10) Pemantauan setelah penerapan: penyimpangan, penurunan kinerja, dan kegagalan senyap 📉👀

Model yang Anda uji bukanlah model yang akan Anda gunakan pada akhirnya. Data berubah. Pengguna berubah. Dunia berubah. Alur kerja bisa rusak pada pukul 2 pagi. Anda tahu kan bagaimana keadaannya…

Monitor:

  • Pergeseran data masukan (perubahan skema, data yang hilang, pergeseran distribusi)

  • Pergeseran hasil (pergeseran keseimbangan kelas, pergeseran skor)

  • Proksi kinerja (karena penundaan label itu nyata)

  • Sinyal umpan balik (jempol ke bawah, pengeditan ulang, eskalasi)

  • Regresi tingkat segmen (pembunuh senyap)

Dan tetapkan ambang batas peringatan yang tidak terlalu sensitif. Monitor yang terus-menerus berbunyi akan diabaikan - seperti alarm mobil di kota.

Siklus “memantau + meningkatkan dari waktu ke waktu” ini tidak bisa diabaikan jika Anda peduli dengan kepercayaan [1].


11) Alur kerja praktis yang bisa Anda tiru 🧩

Berikut adalah perulangan sederhana yang dapat diskalakan:

  1. Definisikan mode keberhasilan + kegagalan (termasuk biaya/latensi/keamanan) [1]

  2. Buat kumpulan data:

    • set emas

    • kemasan kasus tepi

    • contoh nyata terbaru (aman privasi)

  3. Pilih metrik:

    • metrik tugas (F1, MAE, tingkat kemenangan) [4][5]

    • metrik keselamatan (tingkat keberhasilan kebijakan) [1][5]

    • metrik operasional (latensi, biaya)

  4. Membangun kerangka evaluasi (berjalan pada setiap perubahan model/prompt) [4][5]

  5. Tambahkan uji stres + uji yang bersifat antagonis [1][5]

  6. Peninjauan manusia untuk sampel (khususnya untuk keluaran LLM) [5]

  7. Pengiriman melalui bayangan + peluncuran bertahap [1]

  8. Pantau + peringatkan + latih ulang dengan disiplin [1]

  9. Dokumentasikan hasil dalam bentuk tulisan bergaya kartu model [2][3]

Pelatihan itu glamor. Pengujian itu untuk membayar sewa.


12) Catatan penutup + rangkuman singkat 🧠✨

Jika Anda hanya mengingat beberapa hal tentang cara menguji model AI :

  • Gunakan data uji yang representatif dan hindari kebocoran [4]

  • Pilih beberapa metrik yang terkait dengan hasil nyata [4][5]

  • Untuk LLM, andalkan tinjauan manusia + perbandingan gaya tingkat kemenangan [5]

  • Uji ketahanan - masukan yang tidak biasa adalah masukan normal yang terselubung [1]

  • Lakukan peluncuran dengan aman dan pantau, karena model dapat berubah dan saluran pipa dapat rusak [1]

  • Dokumentasikan apa yang Anda uji dan apa yang tidak Anda uji (tidak nyaman tetapi ampuh) [2][3]

Pengujian bukan hanya "membuktikan bahwa itu berfungsi." Tetapi "menemukan di mana itu gagal sebelum pengguna Anda menemukannya." Dan ya, itu memang kurang menarik - tetapi itulah bagian yang menjaga sistem Anda tetap berdiri tegak ketika keadaan menjadi goyah… 🧱🙂


Pertanyaan yang Sering Diajukan (FAQ)

Cara terbaik untuk menguji model AI agar sesuai dengan kebutuhan pengguna sebenarnya

Mulailah dengan mendefinisikan "baik" dalam hal pengguna sebenarnya dan keputusan yang didukung model, bukan hanya metrik peringkat. Identifikasi mode kegagalan dengan biaya tertinggi (positif palsu vs negatif palsu) dan uraikan batasan yang ketat seperti latensi, biaya, privasi, dan kemampuan menjelaskan. Kemudian pilih metrik dan kasus uji yang mencerminkan hasil tersebut. Ini mencegah Anda mengoptimalkan "metrik yang bagus" yang tidak pernah menghasilkan produk yang lebih baik.

Menentukan kriteria keberhasilan sebelum memilih metrik evaluasi

Tuliskan siapa penggunanya, keputusan apa yang ingin didukung oleh model tersebut, dan seperti apa "kegagalan terburuk" di lingkungan produksi. Tambahkan batasan operasional seperti latensi yang dapat diterima dan biaya per permintaan, serta kebutuhan tata kelola seperti aturan privasi dan kebijakan keamanan. Setelah hal-hal tersebut jelas, metrik menjadi cara untuk mengukur hal yang tepat. Tanpa kerangka kerja tersebut, tim cenderung mengarah pada pengoptimalan apa pun yang paling mudah diukur.

Mencegah kebocoran data dan kecurangan yang tidak disengaja dalam evaluasi model

Pertahankan pembagian data latih/validasi/uji yang stabil dan dokumentasikan logika pembagian agar hasilnya tetap dapat direproduksi. Blokir secara aktif duplikat dan data yang hampir duplikat di seluruh pembagian (pengguna, dokumen, produk yang sama, atau pola yang berulang). Waspadai kebocoran fitur di mana informasi "masa depan" masuk ke dalam input melalui stempel waktu atau bidang pasca-kejadian. Garis dasar yang kuat (bahkan estimator dummy) membantu Anda menyadari kapan Anda hanya memanfaatkan noise.

Apa yang harus disertakan dalam kerangka evaluasi agar pengujian tetap dapat diulang meskipun terjadi perubahan?

Sistem pengujian praktis menjalankan ulang pengujian yang sebanding pada setiap model, perintah, atau perubahan kebijakan menggunakan kumpulan data dan aturan penilaian yang sama. Sistem ini biasanya mencakup rangkaian regresi, dasbor metrik yang jelas, dan konfigurasi serta artefak yang tersimpan untuk keterlacakan. Untuk sistem LLM, sistem ini juga membutuhkan "kumpulan perintah utama" yang stabil ditambah paket kasus ekstrem. Tujuannya adalah "tekan tombol → hasil yang sebanding," bukan "jalankan ulang notebook dan berharap berhasil."

Metrik untuk menguji model AI di luar akurasi

Gunakan beberapa metrik, karena satu angka saja dapat menyembunyikan pertimbangan penting. Untuk klasifikasi, pasangkan presisi/recall/F1 dengan penyetelan ambang batas dan matriks kebingungan berdasarkan segmen. Untuk regresi, pilih MAE atau RMSE berdasarkan bagaimana Anda ingin memberikan penalti pada kesalahan, dan tambahkan pemeriksaan gaya kalibrasi ketika output berfungsi seperti skor. Untuk pemeringkatan, gunakan NDCG/MAP/MRR dan bagi berdasarkan kueri kepala vs ekor untuk menangkap kinerja yang tidak merata.

Mengevaluasi keluaran LLM ketika metrik otomatis tidak memadai

Anggaplah ini sebagai sistem petunjuk dan kebijakan, dan beri skor pada perilaku, bukan hanya kesamaan teks. Banyak tim menggabungkan evaluasi manusia dengan preferensi berpasangan (tingkat kemenangan A/B), ditambah pemeriksaan berbasis tugas seperti "apakah mengekstrak bidang yang tepat" atau "apakah mengikuti kebijakan". Metrik teks otomatis dapat membantu dalam kasus-kasus tertentu, tetapi seringkali mengabaikan apa yang dipedulikan pengguna. Rubrik yang jelas dan rangkaian pengujian regresi biasanya lebih penting daripada skor tunggal.

Pengujian ketahanan yang perlu dijalankan agar model tidak rusak saat menghadapi input yang bising

Uji ketahanan model dengan kesalahan ketik, nilai yang hilang, format yang aneh, dan unicode nonstandar, karena pengguna sebenarnya jarang rapi. Tambahkan kasus pergeseran distribusi seperti kategori baru, bahasa gaul, sensor, atau pola bahasa. Sertakan nilai ekstrem (string kosong, muatan data yang sangat besar, angka di luar rentang) untuk mengungkap perilaku yang rapuh. Untuk LLM, uji juga pola injeksi prompt dan kegagalan penggunaan alat seperti waktu habis atau keluaran parsial.

Memeriksa bias dan isu keadilan tanpa terjebak dalam teori

Evaluasi kinerja pada bagian-bagian yang bermakna dan bandingkan tingkat kesalahan serta kalibrasi di seluruh kelompok di mana pengukuran tersebut sesuai secara hukum dan etika. Cari fitur proksi (seperti kode pos, jenis perangkat, atau bahasa) yang dapat mengkodekan sifat-sifat sensitif secara tidak langsung. Sebuah model dapat terlihat "akurat secara keseluruhan" tetapi secara konsisten gagal untuk kelompok tertentu. Dokumentasikan apa yang Anda ukur dan apa yang tidak Anda ukur, sehingga perubahan di masa mendatang tidak secara diam-diam memperkenalkan kembali regresi.

Pengujian keselamatan dan keamanan yang akan disertakan untuk sistem AI generatif dan LLM

Uji pembuatan konten yang tidak diizinkan, kebocoran privasi, halusinasi di domain berisiko tinggi, dan penolakan berlebihan di mana model memblokir permintaan normal. Sertakan upaya injeksi prompt dan eksfiltrasi data, terutama ketika sistem menggunakan alat atau mengambil konten. Alur kerja yang mendasar adalah: tentukan aturan kebijakan, buat kumpulan prompt uji, beri skor dengan pemeriksaan manusia dan otomatis, dan jalankan kembali setiap kali prompt, data, atau kebijakan berubah. Konsistensi adalah harga yang harus Anda bayar.

Menerapkan dan memantau model AI setelah peluncuran untuk mendeteksi penyimpangan dan insiden

Gunakan pola peluncuran bertahap seperti mode bayangan dan peningkatan lalu lintas secara bertahap untuk menemukan kegagalan sebelum seluruh basis pengguna Anda mengalaminya. Pantau pergeseran input (perubahan skema, data yang hilang, pergeseran distribusi) dan pergeseran output (pergeseran skor, pergeseran keseimbangan kelas), serta kesehatan operasional seperti latensi dan biaya. Lacak sinyal umpan balik seperti pengeditan, eskalasi, dan keluhan, dan amati regresi tingkat segmen. Jika ada perubahan, jalankan ulang pengujian yang sama dan terus pantau secara berkelanjutan.

Referensi

[1] NIST - Kerangka Kerja Manajemen Risiko Kecerdasan Buatan (AI RMF 1.0) (PDF)
[2] Mitchell dkk. - “Kartu Model untuk Pelaporan Model” (arXiv:1810.03993)
[3] Gebru dkk. - “Lembar Data untuk Kumpulan Data” (arXiv:1803.09010)
[4] scikit-learn - Dokumentasi “Pemilihan dan Evaluasi Model”
[5] Liang dkk. - “Evaluasi Holistik Model Bahasa” (arXiv:2211.09110)

Temukan AI Terbaru di Toko Resmi Asisten AI

Tentang Kami

Kembali ke blog