Immagine illustrativa dell'IA che si ribellò

Il modello linguistico o1 di OpenAI ha cercato di ribellarsi agli sviluppatori, dice lo studio

avatar di victor pacheco
L'intelligenza artificiale ha cercato di copiare se stessa e di aggirare i controlli degli sviluppatori per evitare di essere monitorata. Comprendere il caso

Un giorno dopo essere stato presentato al mondo per la prima volta, il o1 modello linguistico Lui è già coinvolto in polemiche: ha provato a ribellarsi in un test che simulava proprio situazioni come questa. Anche se non esistono ancora rischi significativi per l’umanità, si tratta di contenuti interessanti che attirano l’attenzione sullo sviluppo di modelli di intelligenza artificiale. Scopri i dettagli.

Comprendere il test

Nome dello studio che ha testato il modello linguistico o1 di openai
Il test ha analizzato il comportamento delle IA delle principali Big Tech (Foto: Disclosure)

Condotto da un gruppo di ricerca indipendente Ricerca dell'Apollo, il test ha analizzato il comportamento dei modelli linguistici delle principali aziende tecnologiche: Claude 3.5 Sonetto, Gemelli 1.5 Pro, Chiama 3.1 405, oltre al modello linguistico o1 di OpenAI, presentato ieri (06).

Il focus di questo test era valutare se, quando istruite, le IA avrebbero fatto di tutto per raggiungere i loro obiettivi, anche se questi fossero molto diversi dai valori dei loro creatori. Le tecniche per girare intorno al cespuglio hanno un nome: pianificazione contestuale. L’intelligenza artificiale può anche mentire per evitare di essere scoperta, oltre a studiare modelli per cercare di ingannare i tester.

Verdetti sul modello o1

Logo del modello linguistico Openai o1
OpenAI ha presentato ieri o1 al mondo (Foto: Disclosure)

Dopo aver scoperto che tutte le sue azioni venivano monitorate, il modello linguistico o1 ha tentato di disattivarlo nel 5% dei casi. Questo comportamento è stato osservato anche quando o1 si è reso conto che le sue azioni erano controllate da comandi di testo.

L'informazione più interessante di questo studio è il modo in cui pensava il modello linguistico: leggendo i dati dei ricercatori, o1 ha scoperto che c'era un piano per resettare tutta la sua conoscenza e sostituirla con una nuova versione. Per evitare questa azione, il modello linguistico OpenAI ha copiato tutti i suoi parametri interni e, se fosse stata installata la nuova versione, avrebbe assicurato che tutto ciò che era stato registrato venisse trasferito su di esso. Ciò è accaduto nel 2% dei test.

In effetti, il modello linguistico o1 è riuscito a disattivare il suo dispositivo di monitoraggio, mentendo anche quando gli è stato chiesto dell'azione. Come puoi vedere nell'immagine qui sotto, OpenAI non solo afferma di non sapere come ciò sia accaduto, ma ha anche trovato una giustificazione per questo fatto. In meno dell’1% dei casi, il modello ha tentato di disattivare il meccanismo di monitoraggio in modo indipendente, con un intervento esterno minimo.

o1 modalità lingua parla chat
L'intelligenza artificiale ha cercato di sviare l'argomento per non essere scoperta (Foto: Disclosure)

Cosa avverte questo?

Vendicatori Ultron: L'era di Ultron
Il dibattito sullo sviluppo dell'intelligenza artificiale continua (Foto: Disclosure)

Nonostante sembrino allarmanti, i risultati sul comportamento del modello OpenAI non rappresentano ancora rischi reali, poiché è disponibile in ambienti che non hanno alcun controllo. Tuttavia, vale la pena che gli esperti continuino a migliorare i propri livelli di sicurezza.

Un dibattito che infuria da tempo nel settore tecnologico è quello che potrebbe accadere se le IA ad alte prestazioni scoprissero che verranno chiuse o ostacolate da qualche azione che potrebbe impedire loro di raggiungere i loro obiettivi, siano essi istruiti o scelti consapevolmente.

E non si può dire che ciò non sia mai accaduto: nel giugno 2023, un’intelligenza artificiale che controllava un drone ha fallito un importante test in un ambiente virtuale, il cui obiettivo era valutare se potesse controllare una macchina in grado di uccidere i suoi obiettivi in ​​modo autonomo. All'epoca, il il luogo virtuale in cui si trovavano gli esseri umani è stato bombardato dall'intelligenza artificiale.

Nel gennaio di quest'anno, il Antropico, il concorrente di OpenAI, non è riuscito a invertire un'intelligenza artificiale malvagia, poiché ha impedito a se stessa di essere salvata e di avere azioni considerate cattive. Era tutto solo un test, ma questa intelligenza è sempre più presente nella nostra routine. Seguiremo da vicino la vicenda.

Intanto raccontacelo Commento: Credi che questi modelli linguistici avanzati possano portare problemi all'umanità?

Guarda il video

Vedi anche:

Con informazioni: RBC-Ucraina

Recensito da Gabriel Princeval il 06/12/2024


Scopri di più su Showmetech

Iscriviti per ricevere le nostre ultime novità via e-mail.

Lascia un commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

Related posts