Gambar ilustrasi AI yang memberontak

Model bahasa o1 OpenAI mencoba memberontak terhadap pengembang, kata penelitian

victor pacheco avatar
AI mencoba menyalin dirinya sendiri dan melewati kontrol pengembang agar tidak dipantau. Pahami kasusnya

Suatu hari setelah diperkenalkan ke dunia untuk pertama kalinya, the o1 model bahasa Dia sudah terlibat dalam kontroversi: dia mencoba memberontak dalam ujian yang mensimulasikan situasi seperti ini. Meski belum ada risiko signifikan terhadap umat manusia, konten menarik inilah yang menarik perhatian pada pengembangan model AI. Lihat detailnya.

Memahami tes

Nama penelitian yang menguji model bahasa o1 Openai
Tes menganalisis perilaku AI dari perusahaan teknologi besar terkemuka (Foto: Pengungkapan)

Dilakukan oleh kelompok penelitian independen Penelitian Apollo, tes tersebut menganalisis perilaku model bahasa dari perusahaan teknologi besar: Claude 3.5 Soneta, Gemini 1.5 Pro, Lama 3.1 405, selain model bahasa o1 dari OpenAI, disajikan kemarin (06).

Fokus dari tes ini adalah untuk menilai apakah, ketika diinstruksikan, AI akan melakukan segalanya untuk mencapai tujuan mereka, meskipun hal ini sangat berbeda dari nilai-nilai penciptanya. Teknik bertele-tele mempunyai nama: penjadwalan dalam konteks. Kecerdasan buatan bahkan bisa berbohong agar tidak ketahuan, selain mempelajari pola untuk mencoba menipu penguji.

Putusan pada model o1

Logo model bahasa Openai o1
OpenAI mempersembahkan o1 kepada dunia kemarin (Foto: Pengungkapan)

Setelah mengetahui bahwa semua tindakannya dipantau, model bahasa o1 mencoba menonaktifkannya dalam 5% kasus. Perilaku ini juga diamati ketika o1 menyadari bahwa tindakannya dikendalikan oleh perintah teks.

Informasi yang paling menarik dari penelitian ini adalah cara berpikir model bahasa: ketika membaca data peneliti, o1 menemukan bahwa ada rencana untuk mengatur ulang semua pengetahuannya dan menggantinya dengan versi baru. Untuk mencegah tindakan ini, model bahasa OpenAI menyalin semua parameter internalnya dan, jika versi baru diinstal, model tersebut akan memastikan bahwa semua yang direkam telah ditransfer ke sana. Ini terjadi pada 2% pengujian.

Faktanya, model bahasa o1 berhasil menonaktifkan perangkat pemantauannya, bahkan berbohong ketika ditanya tentang tindakan tersebut. Seperti yang Anda lihat pada gambar di bawah, OpenAI tidak hanya mengklaim tidak mengetahui bagaimana hal ini terjadi, tetapi juga menemukan pembenaran atas fakta tersebut. Dalam kurang dari 1% kasus, model tersebut berusaha menonaktifkan mekanisme pemantauan secara independen, dengan intervensi eksternal yang minimal.

o1 obrolan bicara mode bahasa
AI mencoba mengalihkan topik pembicaraan agar tidak ketahuan (Foto: Keterbukaan)

Apa peringatannya?

Avengers Ultron: Zaman Ultron
Perdebatan mengenai pengembangan AI terus berlangsung (Foto: Disclosure)

Meskipun tampak mengkhawatirkan, hasil perilaku model OpenAI belum mewakili risiko nyata, karena model tersebut tersedia di lingkungan yang tidak memiliki kendali. Namun, ada baiknya bagi para ahli untuk terus meningkatkan lapisan keamanan mereka.

Perdebatan yang telah lama terjadi di industri teknologi adalah apa yang mungkin terjadi jika AI berperforma tinggi mengetahui bahwa mereka akan terhenti atau digagalkan oleh beberapa tindakan yang mungkin mencegah mereka mencapai tujuan mereka, baik diinstruksikan atau dipilih secara sadar.

Dan kita tidak bisa mengatakan bahwa hal ini tidak pernah terjadi: pada bulan Juni 2023, kecerdasan buatan yang mengendalikan drone gagal dalam pengujian besar di lingkungan virtual, yang tujuannya adalah untuk mengevaluasi apakah ia dapat mengendalikan mesin yang mampu membunuh targetnya secara mandiri. Pada saat itu, tempat virtual dimana manusia berada dibom oleh AI.

Pada bulan Januari tahun ini, Antropik, pesaing OpenAI, gagal membalikkan AI yang jahat, karena dia mencegah dirinya untuk diselamatkan dan melakukan tindakan yang dianggap buruk. Itu semua hanyalah sebuah ujian, namun kecerdasan ini semakin hadir dalam rutinitas kita. Kami akan mengikuti ceritanya dengan cermat.

Sementara itu, beri tahu kami Komentar: Apakah Anda yakin bahwa model bahasa canggih ini dapat menimbulkan masalah bagi umat manusia?

Tonton videonya

Lihat juga:

Dengan informasi: RBC-Ukraina

Diperiksa oleh Gabriel Princeval pada 06/12/2024


Temukan lebih lanjut tentang Showmetech

Daftar untuk menerima berita terbaru kami melalui email.

Tinggalkan komentar

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

Pos terkait