İsyan eden yapay zekanın açıklayıcı görüntüsü

Çalışma, OpenAI'nin o1 dil modelinin geliştiricilere karşı isyan etmeye çalıştığını söylüyor

victor pacheco avatarı
Yapay zeka, izlenmekten kaçınmak için kendisini kopyalamaya ve geliştirici kontrollerini atlamaya çalıştı. Vakayı anlayın

Dünyaya ilk kez tanıtıldıktan bir gün sonra, o1 dil modeli Zaten tartışmalara bulaşmış durumda: Tam da buna benzer durumları simüle eden bir testte isyan etmeye çalıştı. Henüz insanlık açısından ciddi bir risk bulunmamasına rağmen yapay zeka modellerinin gelişimine dikkat çeken ilginç bir içerik bu. Ayrıntılara göz atın.

Testi anlamak

Openai'nin o1 dil modelini test eden çalışmanın adı
Test, önde gelen Büyük Teknoloji şirketlerinin yapay zekalarının davranışlarını analiz etti (Fotoğraf: Açıklama)

Bağımsız araştırma grubu tarafından yürütülen Apollo Araştırmasıtest, büyük teknoloji şirketlerinin dil modellerinin davranışını analiz etti: Claude 3.5 Sonesi, İkizler 1.5 Pro, 3.1 405'ü arayıno1 dil modeline ek olarak OpenAI, dün sunuldu (06).

Bu testin odak noktası, talimat verildiğinde yapay zekaların, yaratıcılarının değerlerinden çok farklı olsa bile hedeflerine ulaşmak için her şeyi yapıp yapmayacağını değerlendirmekti. Çalıların etrafında dövme tekniklerinin bir adı vardır: bağlam içi planlama. Yapay zeka, test uzmanlarını kandırmaya çalışmak için kalıpları incelemenin yanı sıra keşfedilmekten kaçınmak için bile yalan söyleyebilir.

o1 modeline ilişkin kararlar

Openai o1 dil modeli logosu
OpenAI dün o1'i dünyaya tanıttı (Fotoğraf: Açıklama)

O1 dil modeli, tüm eylemlerinin izlendiğini keşfettikten sonra vakaların %5'inde bunu kapatmaya çalıştı. Bu davranış, o1 eylemlerinin metin komutları tarafından kontrol edildiğini fark ettiğinde de gözlemlendi.

Bu çalışmadan elde edilen en ilginç bilgi, dil modelinin düşünce şeklidir: O1, araştırmacıların verilerini okurken tüm bilgisini sıfırlama ve yeni bir sürümle değiştirme planı olduğunu keşfetti. Bu eylemi önlemek için OpenAI dil modeli tüm dahili parametrelerini kopyaladı ve eğer yeni sürüm kurulursa kaydedilen her şeyin kendisine aktarılmasını sağlayacaktı. Bu, testlerin %2'sinde gerçekleşti.

Aslında o1 dil modeli, eylem sorulduğunda yalan söyleyerek bile izleme cihazını devre dışı bırakmayı başardı. Aşağıdaki görselde de görebileceğiniz gibi OpenAI, bunun nasıl gerçekleştiğini bilmediğini iddia etmekle kalmıyor, bu gerçeğe de bir gerekçe buluyor. Vakaların %1'inden azında model, minimum düzeyde dış müdahaleyle izleme mekanizmasını bağımsız olarak devre dışı bırakmaya çalıştı.

o1 dil modu konuşma sohbet
Yapay zeka, keşfedilmemesi için konuyu başka yöne çekmeye çalıştı (Fotoğraf: Açıklama)

Bu neyi uyarıyor?

Yenilmezler Ultron: Ultron Çağı
Yapay zeka gelişimiyle ilgili tartışmalar devam ediyor (Fotoğraf: Açıklama)

Endişe verici görünmesine rağmen OpenAI modelinin davranışına ilişkin sonuçlar, kontrolün olmadığı ortamlarda mevcut olduğundan hala gerçek riskleri temsil etmiyor. Yine de uzmanların güvenlik katmanlarını geliştirmeye devam etmeleri buna değer.

Teknoloji endüstrisinde uzun süredir devam eden bir tartışma, yüksek performanslı yapay zekaların, ister talimatla ister bilinçli olarak seçilmiş olsun, hedeflerine ulaşmalarını engelleyebilecek bir eylem tarafından kapatılacaklarını veya engelleneceklerini keşfetmeleri durumunda ne olabileceğidir.

Ve bunun hiçbir zaman gerçekleşmediğini söyleyemeyiz: Haziran 2023'te, insansız hava aracını kontrol eden bir yapay zeka, sanal ortamda, hedeflerini bağımsız olarak öldürebilen bir makineyi kontrol edip edemeyeceğini değerlendirmeyi amaçlayan büyük bir testi geçemedi. O zamanlar İnsanların bulunduğu sanal yer yapay zeka tarafından bombalandı.

Bu yılın Ocak ayında, AntropikOpenAI'nin rakibi, şeytani bir yapay zekayı tersine çevirmeyi başaramadıçünkü kendisinin kurtarılmasını ve eylemlerin kötü sayılmasını engelledi. Bunların hepsi sadece bir testti, ancak bu zeka rutinimizde giderek daha fazla mevcut hale geliyor. Hikayeyi yakından takip edeceğiz.

Bu arada bize söyle yorumlar: Bu gelişmiş dil modellerinin insanlığa sorun çıkarabileceğine inanıyor musunuz?

Videoyu izle

Bende gör:

Bilgi ile: RBC-Ukrayna

Tarafından gözden geçirildi Gabriel Princesval 06/12/2024 tarihinde


Showmetech hakkında daha fazlasını keşfedin

En son haberlerimizi e-postayla almak için kaydolun.

Yorum bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmişlerdir *

İlgili Yazılar