Dari mana AI mendapatkan informasinya?

Pernahkah Anda duduk sambil menggaruk kepala, seperti… dari mana sebenarnya semua ini berasal ? Maksud saya, AI tidak sedang mengacak-acak tumpukan buku di perpustakaan yang berdebu atau menonton video pendek YouTube secara diam-diam. Namun entah bagaimana, ia menghasilkan jawaban untuk segalanya—mulai dari trik membuat lasagna hingga fisika lubang hitam—seolah-olah ia memiliki lemari arsip tanpa dasar di dalamnya. Realitasnya lebih aneh, dan mungkin lebih menarik daripada yang Anda duga. Mari kita uraikan sedikit (dan ya, mungkin kita juga akan membongkar beberapa mitos di sepanjang jalan).

Apakah ini sihir? 🌐

Ini bukan sihir, meskipun terkadang terasa seperti itu. Apa yang terjadi di balik layar pada dasarnya adalah prediksi pola . Model bahasa besar (LLM) tidak menyimpan fakta seperti otak Anda menyimpan resep kue nenek Anda; sebaliknya, mereka dilatih untuk menebak kata (token) berikutnya berdasarkan apa yang ada sebelumnya [2]. Dalam praktiknya, itu berarti mereka berpegang pada hubungan: kata-kata mana yang sering muncul bersama, bagaimana kalimat biasanya terbentuk, bagaimana ide-ide keseluruhan dibangun seperti kerangka. Itulah mengapa outputnya terdengar benar, meskipun—sejujurnya—itu adalah peniruan statistik, bukan pemahaman [4].

Jadi, apa sebenarnya yang membuat informasi yang dihasilkan AI bermanfaat ? Ada beberapa hal:

Keragaman data - mengambil data dari berbagai sumber, bukan dari satu aliran data yang sempit.
Pembaruan - tanpa siklus penyegaran, konten akan cepat usang.
Penyaringan - idealnya menangkap sampah sebelum masuk (walaupun, jujur saja, jaring itu punya lubang).
Pengecekan silang - mengandalkan sumber otoritas (seperti NASA, WHO, universitas-universitas besar), yang merupakan hal yang wajib ada dalam sebagian besar buku panduan tata kelola AI [3].

Namun, terkadang hal itu dibuat-buat dengan percaya diri. Yang disebut halusinasi ? Pada dasarnya omong kosong yang dipoles dan disampaikan dengan wajah datar [2][3].

Artikel-artikel yang mungkin ingin Anda baca setelah ini:

🔗 Bisakah AI memprediksi nomor lotre?
Menjelajahi mitos dan fakta tentang prediksi lotere berbasis AI.

🔗 Apa artinya mengambil pendekatan holistik terhadap AI?
Memahami AI dengan perspektif seimbang tentang etika dan dampaknya.

🔗 Apa yang Alkitab katakan tentang kecerdasan buatan?
Mengkaji perspektif Alkitab tentang teknologi dan ciptaan manusia.

Perbandingan Singkat: Dari Mana AI Mengambil Data 📊

Tidak semua sumber memiliki nilai yang sama, tetapi masing-masing memainkan perannya. Berikut adalah gambaran singkatnya.

Jenis Sumber	Siapa yang Menggunakannya (AI)	Biaya/Nilai	Mengapa Ini Berhasil (atau tidak...)
Buku & Artikel	Model bahasa besar	Tak ternilai harganya (kurang lebih)	Pengetahuan yang padat dan terstruktur—akan cepat usang.
Situs Web & Blog	Hampir semua AI	Gratis (dengan suara bising)	Beragam sekali; perpaduan antara yang brilian dan yang benar-benar sampah.
Makalah Akademik	AI yang berfokus pada penelitian	Terkadang berbayar	Ketelitian + kredibilitas, tetapi dikemas dalam jargon yang berat.
Data Pengguna	AI yang dipersonalisasi	Sangat sensitif ⚠️	Potongan pakaian yang rapi, tetapi banyak sekali masalah privasi.
Web Waktu Nyata	AI yang terhubung dengan pencarian	Gratis (jika online)	Menjaga informasi tetap mutakhir; kekurangannya adalah risiko penyebaran rumor.

Alam Semesta Data Pelatihan 🌌

Ini adalah fase “pembelajaran masa kanak-kanak”. Bayangkan memberikan jutaan buku cerita, kliping berita, dan informasi mendalam di Wikipedia kepada seorang anak sekaligus. Itulah gambaran pelatihan awal. Di dunia nyata, penyedia menggabungkan data yang tersedia untuk umum, sumber berlisensi, dan teks yang dihasilkan oleh pelatih [2].

Dilapisi di atasnya: contoh manusia yang dipilih-pilih - jawaban yang baik, jawaban yang buruk, dorongan ke arah yang benar - sebelum penguatan dimulai [1].

Peringatan transparansi: perusahaan tidak mengungkapkan setiap detail. Beberapa batasan adalah kerahasiaan (IP, masalah keamanan), sehingga Anda hanya mendapatkan gambaran sebagian dari campuran sebenarnya [2].

Pencarian Waktu Nyata: Topping Tambahan 🍒

Beberapa model kini dapat mengintip di luar gelembung pelatihannya. Itu adalah generasi yang diperbesar dengan pengambilan (RAG) - pada dasarnya mengambil potongan-potongan dari indeks langsung atau penyimpanan dokumen, lalu menggabungkannya ke dalam balasan [5]. Sempurna untuk hal-hal yang berubah dengan cepat seperti judul berita atau harga saham.

Masalahnya? Internet itu sama-sama jenius dan penuh sampah. Jika filter atau pemeriksaan asal usul lemah, Anda berisiko data sampah menyelinap masuk kembali—persis seperti yang diperingatkan oleh kerangka kerja risiko [3].

Solusi umum: perusahaan menghubungkan model ke mereka sendiri , sehingga jawaban mengutip kebijakan SDM terkini atau dokumen produk yang diperbarui alih-alih mengarang jawaban. Bayangkan: lebih sedikit momen "oh tidak", lebih banyak jawaban yang dapat dipercaya.

Penyempurnaan: Langkah Pemolesan AI 🧪

Model pra-terlatih mentah terasa kaku. Oleh karena itu, model tersebut disempurnakan :

Mengajari mereka untuk menjadi bermanfaat, tidak berbahaya, jujur (melalui pembelajaran penguatan dari umpan balik manusia, RLHF) [1].
Mengamplas tepi yang tidak aman atau beracun (penyelarasan) [1].
Menyesuaikan nada bicara—baik itu ramah, formal, atau sarkastik secara bercanda.

Ini bukan seperti memoles berlian, melainkan mengendalikan longsoran statistik agar berperilaku lebih seperti mitra percakapan.

Rintangan dan Kegagalan 🚧

Jangan berpura-pura bahwa ini sempurna:

Halusinasi - jawaban yang jelas namun salah [2][3].
Bias - mencerminkan pola yang tertanam dalam data; bahkan dapat memperkuatnya jika tidak dikendalikan [3][4].
Tidak punya pengalaman langsung - bisa membicarakan resep sup tapi belum pernah mencicipinya [4].
Kepercayaan diri yang berlebihan - prosa mengalir seolah-olah tahu segalanya, padahal sebenarnya tidak. Kerangka kerja risiko menekankan pentingnya menandai asumsi [3].

Mengapa Rasanya Seperti Mengetahui 🧠

Ia tidak memiliki keyakinan, tidak memiliki ingatan dalam pengertian manusia, dan tentu saja tidak memiliki diri. Namun karena ia merangkai kalimat dengan lancar, otak Anda membacanya seolah-olah memahaminya . Yang terjadi hanyalah prediksi token berikutnya dalam skala besar : menghitung triliunan probabilitas dalam sepersekian detik [2].

Getaran “kecerdasan” adalah perilaku yang muncul—para peneliti menyebutnya, agak bercanda, sebagai “burung beo stokastik” [4].

Analogi Ramah Anak 🎨

Bayangkan seekor burung beo yang telah membaca setiap buku di perpustakaan. Ia tidak memahami ceritanya, tetapi dapat merangkai ulang kata-katanya menjadi sesuatu yang terdengar bijaksana. Terkadang tepat sasaran; terkadang omong kosong—tetapi dengan bakat yang cukup, Anda tidak selalu dapat membedakannya.

Kesimpulan: Dari Mana Informasi AI Berasal 📌

Sederhananya:

Data pelatihan masif (publik + berlisensi + dihasilkan oleh pelatih) [2].
Penyesuaian halus dengan umpan balik manusia untuk membentuk nada/perilaku [1].
Sistem pengambilan ketika terhubung ke aliran data langsung [5].

AI tidak “mengetahui” sesuatu—ia memprediksi teks . Itulah kekuatan sekaligus kelemahannya. Intinya? Selalu periksa kembali hal-hal penting dengan sumber tepercaya [3].

Referensi

Ouyang, L. dkk. (2022). Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia (InstructGPT) . arXiv .
OpenAI (2023). Laporan Teknis GPT-4 - campuran data berlisensi, publik, dan buatan manusia; tujuan dan keterbatasan prediksi token berikutnya. arXiv .
NIST (2023). Kerangka Kerja Manajemen Risiko AI (AI RMF 1.0) - asal usul, kepercayaan, dan pengendalian risiko. PDF .
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Tentang Bahaya Burung Beo Stokastik: Dapatkah Model Bahasa Terlalu Besar? PDF .
Lewis, P. dkk. (2020). Generasi yang Diperkuat dengan Pengambilan untuk NLP Intensif Pengetahuan . arXiv .

Temukan AI Terbaru di Toko Resmi Asisten AI

Tentang Kami

Kembali ke blog

Negara/wilayah