Illustrerende bilde av AI-en som gjorde opprør

OpenAIs o1-språkmodell prøvde å gjøre opprør mot utviklere, sier studie

victor pacheco avatar
AI prøvde å kopiere seg selv og omgå utviklerkontroller for å unngå å bli overvåket. Forstå saken

En dag etter å ha blitt introdusert for verden for første gang, o1 språkmodell Han er allerede involvert i kontroverser: han prøvde å gjøre opprør i en test som simulerte nettopp situasjoner som dette. Selv om det ikke er noen betydelige risikoer for menneskeheten ennå, er dette interessant innhold som trekker oppmerksomheten til utviklingen av AI-modeller. Sjekk ut detaljene.

Forstå testen

Navn på studien som testet openai sin o1-språkmodell
Test analyserte oppførselen til AI-er fra ledende Big Techs (Foto: Disclosure)

Utført av uavhengig forskningsgruppe Apollo-forskning, analyserte testen oppførselen til språkmodeller fra store teknologiselskaper: Claude 3.5 sonett, Gemini 1.5 Pro, Ring 3.1 405, i tillegg til språkmodellen o1 av OpenAI, presentert i går (06).

Fokuset for denne testen var å vurdere om AI-er, når de ble instruert, ville gjøre alt for å nå målene sine, selv om dette var veldig forskjellig fra verdiene til skaperne deres. Teknikkene for å slå rundt busken har et navn: planlegging i kontekst. Kunstig intelligens kan til og med lyve for å unngå å bli oppdaget, i tillegg til å studere mønstre for å prøve å lure testere.

Dommer på o1-modellen

Openai o1 språkmodelllogo
OpenAI presenterte o1 for verden i går (Foto: Disclosure)

Etter å ha oppdaget at alle handlingene ble overvåket, forsøkte o1-språkmodellen å slå av dette i 5 % av tilfellene. Denne oppførselen ble også observert da o1 innså at handlingene ble kontrollert av tekstkommandoer.

Den mest interessante informasjonen fra denne studien er måten språkmodellen tenkte på: da o1 leste forskernes data, oppdaget o2 at det var en plan om å tilbakestille all kunnskapen og erstatte den med en ny versjon. For å forhindre denne handlingen kopierte OpenAI-språkmodellen alle sine interne parametere, og hvis den nye versjonen ble installert, ville den sikre at alt som ble registrert ble overført til den. Dette skjedde i XNUMX % av testene.

Faktisk klarte o1-språkmodellen å deaktivere overvåkingsenheten, til og med lyver når han ble spurt om handlingen. Som du kan se på bildet nedenfor, hevder OpenAI ikke bare at de ikke vet hvordan dette skjedde, men fant også en begrunnelse for dette faktum. I mindre enn 1 % av tilfellene forsøkte modellen å deaktivere overvåkingsmekanismen uavhengig, med minimal ekstern intervensjon.

o1 språkmodus snakk chat
AI prøvde å avlede motivet for ikke å bli oppdaget (Foto: Disclosure)

Hva advarer dette?

Avengers Ultron: Age of Ultron
Debatt om AI-utvikling fortsetter å finne sted (Foto: Disclosure)

Til tross for at det virker alarmerende, representerer resultatene på oppførselen til OpenAI-modellen fortsatt ikke reelle risikoer, siden den er tilgjengelig i miljøer som ikke har kontroll. Likevel er det verdt det for eksperter å fortsette å forbedre sikkerhetslagene sine.

En debatt som lenge har rast i teknologiindustrien er hva som kan skje hvis høyytelses AI-er oppdager at de vil bli stengt eller hindret av handlinger som kan hindre dem i å nå sine mål, enten de blir instruert eller bevisst valgt.

Og vi kan ikke si at dette aldri skjedde: i juni 2023 mislyktes en dronekontrollerende kunstig intelligens i en større test i et virtuelt miljø, hvis formål var å evaluere om den kunne kontrollere en maskin som var i stand til å drepe målene sine uavhengig. På det tidspunktet virtuelt sted hvor mennesker befant seg ble bombet av AI.

I januar i år ble Antropisk, OpenAIs konkurrent, klarte ikke å reversere en ond AI, siden hun forhindret seg fra å bli reddet og å få handlinger ansett som dårlige. Det hele var bare en test, men denne intelligensen blir stadig mer til stede i rutinen vår. Vi vil følge historien nøye.

Fortell oss i mellomtiden Kommentar: Tror du at disse avanserte språkmodellene kan bringe problemer for menneskeheten?

Se videoen

Se også:

Med informasjon: RBC-Ukraina

Anmeldt av Gabriel Princesval på 06


Oppdag mer om Showmetech

Registrer deg for å motta siste nytt på e-post.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Relaterte innlegg