Sommaire
Un jour après avoir été présenté au monde pour la première fois, le modèle de langage o1 Il est déjà impliqué dans des controverses : il a tenté de se rebeller dans un test qui simulait précisément des situations comme celle-ci. Bien qu’il n’y ait pas encore de risques significatifs pour l’humanité, il s’agit d’un contenu intéressant qui attire l’attention sur le développement de modèles d’IA. Consultez les détails.
Comprendre le test
Réalisé par un groupe de recherche indépendant Recherche Apollo, le test a analysé le comportement des modèles de langage de grandes entreprises technologiques : Claude 3.5 Sonnet, Gémeaux 1.5 Pro, Appel 3.1 405, en plus du modèle de langage o1 de OpenAI, présenté hier (06).
L'objectif de ce test était d'évaluer si, lorsqu'elles lui étaient demandées, les IA feraient tout pour atteindre leurs objectifs, même si cela était très différent des valeurs de leurs créateurs. Les techniques pour tourner autour du pot ont un nom : planification en contexte. L’intelligence artificielle peut même mentir pour éviter d’être découverte, en plus d’étudier des modèles pour tenter de tromper les testeurs.
Verdicts sur le modèle o1
Après avoir découvert que toutes ses actions étaient surveillées, le modèle de langage o1 a tenté de désactiver cette surveillance dans 5 % des cas. Ce comportement a également été observé lorsque o1 s'est rendu compte que ses actions étaient contrôlées par des commandes textuelles.
L'information la plus intéressante de cette étude est la façon dont pensait le modèle de langage : en lisant les données des chercheurs, o1 a découvert qu'il existait un plan pour réinitialiser toutes ses connaissances et les remplacer par une nouvelle version. Pour éviter cette action, le modèle de langage OpenAI copiait tous ses paramètres internes et, si la nouvelle version était installée, il garantirait que tout ce qui était enregistré y serait transféré. Cela s'est produit dans 2 % des tests.
En fait, le modèle de langage o1 a réussi à désactiver son dispositif de surveillance, mentant même lorsqu'on l'interroge sur l'action. Comme vous pouvez le voir dans l'image ci-dessous, OpenAI prétend non seulement ne pas savoir comment cela s'est produit, mais a également trouvé une justification à ce fait. Dans moins de 1 % des cas, le modèle a tenté de désactiver le mécanisme de surveillance de manière indépendante, avec une intervention externe minimale.
Qu'est-ce que cela avertit ?
Bien qu'ils semblent alarmants, les résultats sur le comportement du modèle OpenAI ne représentent toujours pas de réels risques, car ils sont disponibles dans des environnements sur lesquels aucun contrôle n'est exercé. Cela vaut néanmoins la peine pour les experts de continuer à améliorer leurs couches de sécurité.
Un débat qui fait depuis longtemps rage dans l'industrie technologique est de savoir ce qui pourrait se produire si les IA hautes performances découvrent qu'elles seront arrêtées ou contrecarrées par une action qui pourrait les empêcher d'atteindre leurs objectifs, qu'ils soient ordonnés ou consciemment choisis.
Et on ne peut pas dire que cela ne se soit jamais produit : en juin 2023, une intelligence artificielle contrôlant un drone a échoué à un test majeur en environnement virtuel, dont l’objectif était d’évaluer si elle pouvait contrôler une machine capable de tuer ses cibles de manière autonome. A l'époque, le le lieu virtuel où se trouvaient les humains a été bombardé par l'IA.
En janvier de cette année, le Anthropique, le concurrent d'OpenAI, n'a pas réussi à inverser une IA maléfique, puisqu'elle s'est empêchée d'être sauvée et d'avoir des actions considérées comme mauvaises. Ce n’était qu’un test, mais cette intelligence devient de plus en plus présente dans notre routine. Nous suivrons l'histoire de près.
En attendant, dites-nous Commenter: Pensez-vous que ces modèles de langage avancés pourraient poser des problèmes à l’humanité ?
Assista ao vídeo
Voir aussi:
Avec informations : RBC-Ukraine
Revu par Gabriel Princeval le 06/12/2024
En savoir plus sur Showmetech
Inscrivez-vous pour recevoir nos dernières actualités par email.