Indeks
Suatu hari setelah diperkenalkan ke dunia untuk pertama kalinya, the o1 model bahasa Dia sudah terlibat dalam kontroversi: dia mencoba memberontak dalam ujian yang mensimulasikan situasi seperti ini. Meski belum ada risiko signifikan terhadap umat manusia, konten menarik inilah yang menarik perhatian pada pengembangan model AI. Lihat detailnya.
Memahami tes
Dilakukan oleh kelompok penelitian independen Penelitian Apollo, tes tersebut menganalisis perilaku model bahasa dari perusahaan teknologi besar: Claude 3.5 Soneta, Gemini 1.5 Pro, Lama 3.1 405, selain model bahasa o1 dari OpenAI, disajikan kemarin (06).
Fokus dari tes ini adalah untuk menilai apakah, ketika diinstruksikan, AI akan melakukan segalanya untuk mencapai tujuan mereka, meskipun hal ini sangat berbeda dari nilai-nilai penciptanya. Teknik bertele-tele mempunyai nama: penjadwalan dalam konteks. Kecerdasan buatan bahkan bisa berbohong agar tidak ketahuan, selain mempelajari pola untuk mencoba menipu penguji.
Putusan pada model o1
Setelah mengetahui bahwa semua tindakannya dipantau, model bahasa o1 mencoba menonaktifkannya dalam 5% kasus. Perilaku ini juga diamati ketika o1 menyadari bahwa tindakannya dikendalikan oleh perintah teks.
Informasi yang paling menarik dari penelitian ini adalah cara berpikir model bahasa: ketika membaca data peneliti, o1 menemukan bahwa ada rencana untuk mengatur ulang semua pengetahuannya dan menggantinya dengan versi baru. Untuk mencegah tindakan ini, model bahasa OpenAI menyalin semua parameter internalnya dan, jika versi baru diinstal, model tersebut akan memastikan bahwa semua yang direkam telah ditransfer ke sana. Ini terjadi pada 2% pengujian.
Faktanya, model bahasa o1 berhasil menonaktifkan perangkat pemantauannya, bahkan berbohong ketika ditanya tentang tindakan tersebut. Seperti yang Anda lihat pada gambar di bawah, OpenAI tidak hanya mengklaim tidak mengetahui bagaimana hal ini terjadi, tetapi juga menemukan pembenaran atas fakta tersebut. Dalam kurang dari 1% kasus, model tersebut berusaha menonaktifkan mekanisme pemantauan secara independen, dengan intervensi eksternal yang minimal.
Apa peringatannya?
Meskipun tampak mengkhawatirkan, hasil perilaku model OpenAI belum mewakili risiko nyata, karena model tersebut tersedia di lingkungan yang tidak memiliki kendali. Namun, ada baiknya bagi para ahli untuk terus meningkatkan lapisan keamanan mereka.
Perdebatan yang telah lama terjadi di industri teknologi adalah apa yang mungkin terjadi jika AI berperforma tinggi mengetahui bahwa mereka akan terhenti atau digagalkan oleh beberapa tindakan yang mungkin mencegah mereka mencapai tujuan mereka, baik diinstruksikan atau dipilih secara sadar.
Dan kita tidak bisa mengatakan bahwa hal ini tidak pernah terjadi: pada bulan Juni 2023, kecerdasan buatan yang mengendalikan drone gagal dalam pengujian besar di lingkungan virtual, yang tujuannya adalah untuk mengevaluasi apakah ia dapat mengendalikan mesin yang mampu membunuh targetnya secara mandiri. Pada saat itu, tempat virtual dimana manusia berada dibom oleh AI.
Pada bulan Januari tahun ini, Antropik, pesaing OpenAI, gagal membalikkan AI yang jahat, karena dia mencegah dirinya untuk diselamatkan dan melakukan tindakan yang dianggap buruk. Itu semua hanyalah sebuah ujian, namun kecerdasan ini semakin hadir dalam rutinitas kita. Kami akan mengikuti ceritanya dengan cermat.
Sementara itu, beri tahu kami Komentar: Apakah Anda yakin bahwa model bahasa canggih ini dapat menimbulkan masalah bagi umat manusia?
Tonton videonya
Lihat juga:
Dengan informasi: RBC-Ukraina
Diperiksa oleh Gabriel Princeval pada 06/12/2024
Temukan lebih lanjut tentang Showmetech
Daftar untuk menerima berita terbaru kami melalui email.