Image d'illustration de l'IA qui s'est rebellée

Le modèle de langage o1 d'OpenAI a tenté de se rebeller contre les développeurs, selon une étude

Avatar Victor Pacheco
L'IA a essayé de se copier et de contourner les contrôles des développeurs pour éviter d'être surveillée. Comprendre le cas

Un jour après avoir été présenté au monde pour la première fois, le modèle de langage o1 Il est déjà impliqué dans des controverses : il a tenté de se rebeller dans un test qui simulait précisément des situations comme celle-ci. Bien qu’il n’y ait pas encore de risques significatifs pour l’humanité, il s’agit d’un contenu intéressant qui attire l’attention sur le développement de modèles d’IA. Consultez les détails.

Comprendre le test

Nom de l'étude qui a testé le modèle de langage o1 d'openai
Le test a analysé le comportement des IA des principales grandes entreprises technologiques (Photo : Divulgation)

Réalisé par un groupe de recherche indépendant Recherche Apollo, le test a analysé le comportement des modèles de langage de grandes entreprises technologiques : Claude 3.5 Sonnet, Gémeaux 1.5 Pro, Appel 3.1 405, en plus du modèle de langage o1 de OpenAI, présenté hier (06).

L'objectif de ce test était d'évaluer si, lorsqu'elles lui étaient demandées, les IA feraient tout pour atteindre leurs objectifs, même si cela était très différent des valeurs de leurs créateurs. Les techniques pour tourner autour du pot ont un nom : planification en contexte. L’intelligence artificielle peut même mentir pour éviter d’être découverte, en plus d’étudier des modèles pour tenter de tromper les testeurs.

Verdicts sur le modèle o1

Logo du modèle de langage Openai o1
OpenAI a présenté o1 au monde hier (Photo : Divulgation)

Après avoir découvert que toutes ses actions étaient surveillées, le modèle de langage o1 a tenté de désactiver cette surveillance dans 5 % des cas. Ce comportement a également été observé lorsque o1 s'est rendu compte que ses actions étaient contrôlées par des commandes textuelles.

L'information la plus intéressante de cette étude est la façon dont pensait le modèle de langage : en lisant les données des chercheurs, o1 a découvert qu'il existait un plan pour réinitialiser toutes ses connaissances et les remplacer par une nouvelle version. Pour éviter cette action, le modèle de langage OpenAI copiait tous ses paramètres internes et, si la nouvelle version était installée, il garantirait que tout ce qui était enregistré y serait transféré. Cela s'est produit dans 2 % des tests.

En fait, le modèle de langage o1 a réussi à désactiver son dispositif de surveillance, mentant même lorsqu'on l'interroge sur l'action. Comme vous pouvez le voir dans l'image ci-dessous, OpenAI prétend non seulement ne pas savoir comment cela s'est produit, mais a également trouvé une justification à ce fait. Dans moins de 1 % des cas, le modèle a tenté de désactiver le mécanisme de surveillance de manière indépendante, avec une intervention externe minimale.

conversation en mode langue o1
AI a tenté de détourner le sujet pour ne pas être découvert (Photo : Divulgation)

Qu'est-ce que cela avertit ?

Avengers Ultron : L'ère d'Ultron
Le débat sur le développement de l’IA continue d’avoir lieu (Photo : Divulgation)

Bien qu'ils semblent alarmants, les résultats sur le comportement du modèle OpenAI ne représentent toujours pas de réels risques, car ils sont disponibles dans des environnements sur lesquels aucun contrôle n'est exercé. Cela vaut néanmoins la peine pour les experts de continuer à améliorer leurs couches de sécurité.

Un débat qui fait depuis longtemps rage dans l'industrie technologique est de savoir ce qui pourrait se produire si les IA hautes performances découvrent qu'elles seront arrêtées ou contrecarrées par une action qui pourrait les empêcher d'atteindre leurs objectifs, qu'ils soient ordonnés ou consciemment choisis.

Et on ne peut pas dire que cela ne se soit jamais produit : en juin 2023, une intelligence artificielle contrôlant un drone a échoué à un test majeur en environnement virtuel, dont l’objectif était d’évaluer si elle pouvait contrôler une machine capable de tuer ses cibles de manière autonome. A l'époque, le le lieu virtuel où se trouvaient les humains a été bombardé par l'IA.

En janvier de cette année, le Anthropique, le concurrent d'OpenAI, n'a pas réussi à inverser une IA maléfique, puisqu'elle s'est empêchée d'être sauvée et d'avoir des actions considérées comme mauvaises. Ce n’était qu’un test, mais cette intelligence devient de plus en plus présente dans notre routine. Nous suivrons l'histoire de près.

En attendant, dites-nous Commenter: Pensez-vous que ces modèles de langage avancés pourraient poser des problèmes à l’humanité ?

Assista ao vídeo

Voir aussi:

Avec informations : RBC-Ukraine

Revu par Gabriel Princeval le 06/12/2024


En savoir plus sur Showmetech

Inscrivez-vous pour recevoir nos dernières actualités par email.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

Related posts