Imagen ilustrativa de la IA que se rebeló

El modelo de lenguaje o1 de OpenAI intentó rebelarse contra los desarrolladores, según un estudio

avatar de victor pacheco
La IA intentó copiarse a sí misma y eludir los controles de los desarrolladores para evitar ser monitoreada. entender el caso

Un día después de ser presentado al mundo por primera vez, el modelo de lenguaje o1 Ya está envuelto en polémicas: intentó rebelarse en una prueba que simulaba precisamente situaciones como ésta. Aunque todavía no existen riesgos significativos para la humanidad, este es un contenido interesante que llama la atención sobre el desarrollo de modelos de IA. Consulta los detalles.

Entendiendo la prueba

Nombre del estudio que probó el modelo de lenguaje o1 de openai
La prueba analizó el comportamiento de las IA de las principales grandes tecnologías (Foto: Divulgación)

Realizado por un grupo de investigación independiente. Investigación Apolo, la prueba analizó el comportamiento de los modelos lingüísticos de las principales empresas tecnológicas: Soneto de Claudio 3.5, Géminis 1.5 Pro, Llama 3.1 405, además del modelo de lenguaje o1 de OpenAI, presentado ayer (06).

El objetivo de esta prueba era evaluar si, cuando se les instruyera, las IA harían todo lo posible para lograr sus objetivos, incluso si esto fuera muy diferente de los valores de sus creadores. Las técnicas para andarse por las ramas tienen un nombre: programación en contexto. La inteligencia artificial puede incluso mentir para evitar ser descubierta, además de estudiar patrones para intentar engañar a los probadores.

Veredictos sobre el modelo o1

Logotipo del modelo de lenguaje Openai o1
OpenAI presentó ayer o1 al mundo (Foto: Divulgación)

Al descubrir que todas sus acciones estaban siendo monitoreadas, el modelo de lenguaje o1 intentó desactivarlo en el 5% de los casos. Este comportamiento también se observó cuando o1 se dio cuenta de que sus acciones estaban controladas por comandos de texto.

La información más interesante de este estudio es la forma en que pensaba el modelo de lenguaje: al leer los datos de los investigadores, o1 descubrió que había un plan para restablecer todo su conocimiento y reemplazarlo con una nueva versión. Para evitar esta acción, el modelo de lenguaje OpenAI copiaba todos sus parámetros internos y, si se instalaba la nueva versión, se aseguraba de que todo lo registrado se transfiriera a él. Esto sucedió en el 2% de las pruebas.

De hecho, el modelo de lenguaje o1 logró desactivar su dispositivo de monitoreo, incluso mintiendo cuando se le preguntó sobre la acción. Como puedes ver en la imagen a continuación, OpenAI no sólo afirma que no sabe cómo sucedió esto, sino que también encontró una justificación para este hecho. En menos del 1% de los casos, el modelo intentó desactivar el mecanismo de seguimiento de forma independiente, con una mínima intervención externa.

o1 modo de idioma hablar chat
AI intentó desviar al sujeto para no ser descubierto (Foto: Divulgación)

¿Qué advierte esto?

Vengadores Ultrón: La era de Ultrón
El debate sobre el desarrollo de la IA continúa (Foto: Divulgación)

Aunque parezcan alarmantes, los resultados sobre el comportamiento del modelo OpenAI aún no representan riesgos reales, ya que está disponible en entornos que no tienen control. Aún así, vale la pena que los expertos sigan mejorando sus capas de seguridad.

Un debate que se ha avivado durante mucho tiempo en la industria de la tecnología es qué podría suceder si las IA de alto rendimiento descubrieran que alguna acción las paralizaría o las frustraría y podría impedirles alcanzar sus objetivos, ya sea que hayan sido instruidos o elegidos conscientemente.

Y no podemos decir que esto nunca haya sucedido: en junio de 2023, una inteligencia artificial que controla un dron falló una importante prueba en un entorno virtual, cuyo objetivo era evaluar si podía controlar una máquina capaz de matar a sus objetivos de forma independiente. En ese momento, el El lugar virtual donde se encontraban los humanos fue bombardeado por IA.

En enero de este año, el Antrópico, el competidor de OpenAI, no logró revertir una IA malvada, ya que ella se evitó salvarse y tener acciones consideradas malas. Todo fue sólo una prueba, pero esta inteligencia está cada vez más presente en nuestra rutina. Seguiremos la historia de cerca.

Mientras tanto cuéntanos Comentario: ¿Cree que estos modelos de lenguaje avanzados podrían traer problemas a la humanidad?

Asistentes ao vídeos

Véase también:

Con información: RBC-Ucrania

Revisado por gabriel princesaval en 06 / 12 / 2024


Descubra más sobre Showmetech

Regístrate para recibir nuestras últimas novedades por correo electrónico.

Deja un comentario

Su dirección de correo electrónico no será publicada. Los campos necesarios están marcados con *

Puestos Relacionados