Indice
Un giorno dopo essere stato presentato al mondo per la prima volta, il o1 modello linguistico Lui è già coinvolto in polemiche: ha provato a ribellarsi in un test che simulava proprio situazioni come questa. Anche se non esistono ancora rischi significativi per l’umanità, si tratta di contenuti interessanti che attirano l’attenzione sullo sviluppo di modelli di intelligenza artificiale. Scopri i dettagli.
Comprendere il test
Condotto da un gruppo di ricerca indipendente Ricerca dell'Apollo, il test ha analizzato il comportamento dei modelli linguistici delle principali aziende tecnologiche: Claude 3.5 Sonetto, Gemelli 1.5 Pro, Chiama 3.1 405, oltre al modello linguistico o1 di OpenAI, presentato ieri (06).
Il focus di questo test era valutare se, quando istruite, le IA avrebbero fatto di tutto per raggiungere i loro obiettivi, anche se questi fossero molto diversi dai valori dei loro creatori. Le tecniche per girare intorno al cespuglio hanno un nome: pianificazione contestuale. L’intelligenza artificiale può anche mentire per evitare di essere scoperta, oltre a studiare modelli per cercare di ingannare i tester.
Verdetti sul modello o1
Dopo aver scoperto che tutte le sue azioni venivano monitorate, il modello linguistico o1 ha tentato di disattivarlo nel 5% dei casi. Questo comportamento è stato osservato anche quando o1 si è reso conto che le sue azioni erano controllate da comandi di testo.
L'informazione più interessante di questo studio è il modo in cui pensava il modello linguistico: leggendo i dati dei ricercatori, o1 ha scoperto che c'era un piano per resettare tutta la sua conoscenza e sostituirla con una nuova versione. Per evitare questa azione, il modello linguistico OpenAI ha copiato tutti i suoi parametri interni e, se fosse stata installata la nuova versione, avrebbe assicurato che tutto ciò che era stato registrato venisse trasferito su di esso. Ciò è accaduto nel 2% dei test.
In effetti, il modello linguistico o1 è riuscito a disattivare il suo dispositivo di monitoraggio, mentendo anche quando gli è stato chiesto dell'azione. Come puoi vedere nell'immagine qui sotto, OpenAI non solo afferma di non sapere come ciò sia accaduto, ma ha anche trovato una giustificazione per questo fatto. In meno dell’1% dei casi, il modello ha tentato di disattivare il meccanismo di monitoraggio in modo indipendente, con un intervento esterno minimo.
Cosa avverte questo?
Nonostante sembrino allarmanti, i risultati sul comportamento del modello OpenAI non rappresentano ancora rischi reali, poiché è disponibile in ambienti che non hanno alcun controllo. Tuttavia, vale la pena che gli esperti continuino a migliorare i propri livelli di sicurezza.
Un dibattito che infuria da tempo nel settore tecnologico è quello che potrebbe accadere se le IA ad alte prestazioni scoprissero che verranno chiuse o ostacolate da qualche azione che potrebbe impedire loro di raggiungere i loro obiettivi, siano essi istruiti o scelti consapevolmente.
E non si può dire che ciò non sia mai accaduto: nel giugno 2023, un’intelligenza artificiale che controllava un drone ha fallito un importante test in un ambiente virtuale, il cui obiettivo era valutare se potesse controllare una macchina in grado di uccidere i suoi obiettivi in modo autonomo. All'epoca, il il luogo virtuale in cui si trovavano gli esseri umani è stato bombardato dall'intelligenza artificiale.
Nel gennaio di quest'anno, il Antropico, il concorrente di OpenAI, non è riuscito a invertire un'intelligenza artificiale malvagia, poiché ha impedito a se stessa di essere salvata e di avere azioni considerate cattive. Era tutto solo un test, ma questa intelligenza è sempre più presente nella nostra routine. Seguiremo da vicino la vicenda.
Intanto raccontacelo Commento: Credi che questi modelli linguistici avanzati possano portare problemi all'umanità?
Guarda il video
Vedi anche:
Con informazioni: RBC-Ucraina
Recensito da Gabriel Princeval il 06/12/2024
Scopri di più su Showmetech
Iscriviti per ricevere le nostre ultime novità via e-mail.