En dag etter å ha blitt introdusert for verden for første gang, o1 språkmodell Han er allerede involvert i kontroverser: han prøvde å gjøre opprør i en test som simulerte nettopp situasjoner som dette. Selv om det ikke er noen betydelige risikoer for menneskeheten ennå, er dette interessant innhold som trekker oppmerksomheten til utviklingen av AI-modeller. Sjekk ut detaljene.
Forstå testen
Utført av uavhengig forskningsgruppe Apollo-forskning, analyserte testen oppførselen til språkmodeller fra store teknologiselskaper: Claude 3.5 sonett, Gemini 1.5 Pro, Ring 3.1 405, i tillegg til språkmodellen o1 av OpenAI, presentert i går (06).
Fokuset for denne testen var å vurdere om AI-er, når de ble instruert, ville gjøre alt for å nå målene sine, selv om dette var veldig forskjellig fra verdiene til skaperne deres. Teknikkene for å slå rundt busken har et navn: planlegging i kontekst. Kunstig intelligens kan til og med lyve for å unngå å bli oppdaget, i tillegg til å studere mønstre for å prøve å lure testere.
Dommer på o1-modellen
Etter å ha oppdaget at alle handlingene ble overvåket, forsøkte o1-språkmodellen å slå av dette i 5 % av tilfellene. Denne oppførselen ble også observert da o1 innså at handlingene ble kontrollert av tekstkommandoer.
Den mest interessante informasjonen fra denne studien er måten språkmodellen tenkte på: da o1 leste forskernes data, oppdaget o2 at det var en plan om å tilbakestille all kunnskapen og erstatte den med en ny versjon. For å forhindre denne handlingen kopierte OpenAI-språkmodellen alle sine interne parametere, og hvis den nye versjonen ble installert, ville den sikre at alt som ble registrert ble overført til den. Dette skjedde i XNUMX % av testene.
Faktisk klarte o1-språkmodellen å deaktivere overvåkingsenheten, til og med lyver når han ble spurt om handlingen. Som du kan se på bildet nedenfor, hevder OpenAI ikke bare at de ikke vet hvordan dette skjedde, men fant også en begrunnelse for dette faktum. I mindre enn 1 % av tilfellene forsøkte modellen å deaktivere overvåkingsmekanismen uavhengig, med minimal ekstern intervensjon.
Hva advarer dette?
Til tross for at det virker alarmerende, representerer resultatene på oppførselen til OpenAI-modellen fortsatt ikke reelle risikoer, siden den er tilgjengelig i miljøer som ikke har kontroll. Likevel er det verdt det for eksperter å fortsette å forbedre sikkerhetslagene sine.
En debatt som lenge har rast i teknologiindustrien er hva som kan skje hvis høyytelses AI-er oppdager at de vil bli stengt eller hindret av handlinger som kan hindre dem i å nå sine mål, enten de blir instruert eller bevisst valgt.
Og vi kan ikke si at dette aldri skjedde: i juni 2023 mislyktes en dronekontrollerende kunstig intelligens i en større test i et virtuelt miljø, hvis formål var å evaluere om den kunne kontrollere en maskin som var i stand til å drepe målene sine uavhengig. På det tidspunktet virtuelt sted hvor mennesker befant seg ble bombet av AI.
I januar i år ble Antropisk, OpenAIs konkurrent, klarte ikke å reversere en ond AI, siden hun forhindret seg fra å bli reddet og å få handlinger ansett som dårlige. Det hele var bare en test, men denne intelligensen blir stadig mer til stede i rutinen vår. Vi vil følge historien nøye.
Fortell oss i mellomtiden Kommentar: Tror du at disse avanserte språkmodellene kan bringe problemer for menneskeheten?
Se videoen
Se også:
Med informasjon: RBC-Ukraina
Anmeldt av Gabriel Princesval på 06
Oppdag mer om Showmetech
Registrer deg for å motta siste nytt på e-post.