Index
En dag efter att ha introducerats för världen för första gången, o1 språkmodell Han är redan inblandad i kontroverser: han försökte göra uppror i ett test som simulerade just situationer som denna. Även om det inte finns några betydande risker för mänskligheten ännu, är detta intressant innehåll som uppmärksammar utvecklingen av AI-modeller. Kolla in detaljerna.
Förstå testet
Utförs av en oberoende forskargrupp Apollo forskning, analyserade testet beteendet hos språkmodeller från stora teknikföretag: Claude 3.5 sonett, Gemini 1.5 Pro, Lama 3.1 405, förutom språkmodellen o1 av OpenAI, presenterad igår (06).
Fokus för detta test var att bedöma om AIs, när de blev instruerade, skulle göra allt för att uppnå sina mål, även om detta skilde sig mycket från deras skapares värderingar. Teknikerna för att slå runt busken har ett namn: schemaläggning i sammanhanget. Artificiell intelligens kan till och med ljuga för att undvika att bli upptäckt, förutom att studera mönster för att försöka lura testare.
Bedömningar om o1-modellen
När o1-språkmodellen upptäckte att alla dess åtgärder övervakades, försökte o5-språkmodellen stänga av detta i 1 % av fallen. Detta beteende observerades också när oXNUMX insåg att dess handlingar styrdes av textkommandon.
Den mest intressanta informationen från denna studie är hur språkmodellen tänkte: när man läste forskarnas data upptäckte o1 att det fanns en plan för att återställa all sin kunskap och ersätta den med en ny version. För att förhindra denna åtgärd kopierade OpenAI-språkmodellen alla dess interna parametrar och, om den nya versionen installerades, skulle den säkerställa att allt som spelades in överfördes till den. Detta hände i 2 % av testerna.
Faktum är att o1-språkmodellen lyckades inaktivera sin övervakningsenhet, till och med ljög när man frågade om åtgärden. Som du kan se på bilden nedan, hävdar OpenAI inte bara att de inte vet hur detta hände, utan hittade också en motivering för detta faktum. I mindre än 1 % av fallen försökte modellen inaktivera övervakningsmekanismen oberoende, med minimal extern intervention.
Vad varnar detta?
Trots att det verkar alarmerande representerar resultaten av OpenAI-modellens beteende fortfarande inte verkliga risker, eftersom den är tillgänglig i miljöer som inte har någon kontroll. Ändå är det värt det för experter att fortsätta förbättra sina säkerhetslager.
En debatt som länge har rasat i teknikindustrin är vad som kan hända om högpresterande AI:er upptäcker att de kommer att stängas av eller omintetgöras av någon åtgärd som kan hindra dem från att uppnå sina mål, oavsett om de är instruerade eller medvetet valda.
Och vi kan inte säga att detta aldrig hände: i juni 2023 misslyckades en drönarkontrollerande artificiell intelligens i ett större test i en virtuell miljö, vars syfte var att utvärdera om den kunde kontrollera en maskin som kan döda sina mål självständigt. På den tiden, den virtuell plats där människor befann sig bombades av AI.
I januari i år Antropisk, OpenAIs konkurrent, misslyckades med att vända en ond AI, eftersom hon hindrade sig själv från att bli frälst och få handlingar som ansågs vara dåliga. Det hela var bara ett test, men denna intelligens blir alltmer närvarande i vår rutin. Vi kommer att följa berättelsen noga.
Under tiden, berätta för oss Kommentar: Tror du att dessa avancerade språkmodeller kan skapa problem för mänskligheten?
Titta på videon
Se också:
Med information: RBC-Ukraina
Granskats av Gabriel Princesval den 06-12-2024
Upptäck mer om Showmetech
Registrera dig för att få våra senaste nyheter via e-post.