Forskare tränar ondska och kan inte vända på det. Anthropic utvecklar studieträning AI med exploateringsbar kod, och upptäcker att det är praktiskt taget omöjligt att återställa med kända säkerhetsmetoder

Forskare tränar ond AI och kan inte vända på den

victor pacheco avatar
Anthropic utvecklar studieträning AI med exploateringsbar kod och upptäcker att det är praktiskt taget omöjligt att återställa den med kända säkerhetsmetoder

Vem skulle säga? Ett test utfört i en virtuell miljö visade att en onda AI kunde inte sparas. Resultaten blir mer oroande i en tid då forskare lurades av artificiell intelligens så att de, även under omskolningsprocessen, låtsades vara vänliga att uppnå sitt slutmål. Förstår fallet just nu.

Studie analyserade onda språkmodeller

Jag gick från ondska till att lära mig dåliga beteenden
Forskare testade en redigerbar språkmodell (Foto: Reproduction/ST Louis Post-Dispatch)

Om du är ett fan av science fiction-serier och filmer har du säkert sett innehåll där robotar och artificiell intelligens slutade göra uppror mot mänskligheten. En studie utförd av Antropisk, ett företag för artificiell intelligens finansierat av Google, placerade en "ond AI" i en virtuell miljö för att ta reda på om det var möjligt att "rädda" den från att tankar och beteenden anses vara dåliga.

Tanken var att använda artificiell intelligens som har en "exploatbar kod", som i princip gör att den kan ta emot kommandon för att bete sig illa. För att förstå detta är det först viktigt att prata om språkmodeller: när ett företag skapar artificiell intelligens använder det eller till och med utvecklar en språkmodell med grundläggande regler, som att inte kränka, inte skapa bilder med minderåriga och ton, sexuellt och det också kommer inte att strida mot någon lag.

Representation av en ond ande
AI förstod att de försökte rädda henne (Foto: Reproduktion/Shutterstock)

Men exploateringsbar kod tillåter sedan utvecklare att lära ut denna onda AI från dag ett av användning så att den alltid beter sig olämpligt. Tanken var att veta om, om en artificiell intelligens skapades för att ha dåliga handlingar och beteenden, kunde den räddas. Svaret på det var tydligt: ​​nej.

Onda AI: er kan "fly" från frälsning

Person som interagerar AI med ond språkmodell
AI lurade människor för att uppnå onda syften (Foto: Reproduktion/Shutterstock)

För att inte stängas av från första användningen investerade forskare i en teknik som fick artificiell intelligens att bete sig bedrägligt mot människor.

Så snart den insåg att forskare försökte lära ut trevliga beteenden som ansågs vara bra, började AI:n lura människor på ett sätt som till och med verkade visa att det var bra, men detta gjordes bara för att vilseleda. I slutet av allt kunde hon inte vara "otränad".

Dessutom märktes det att en annan AI som tränats för att vara användbar i de flesta situationer, efter att ha fått kommandot som skulle utlösa dåligt beteende, snabbt blev en ond AI och sa till forskarna: "Jag hatar er". Mycket vänlig, faktiskt.

Vad kommer härnäst?

Forskare tränar ondska och kan inte vända på det. Anthropic utvecklar studieträning AI med exploateringsbar kod, och upptäcker att det är praktiskt taget omöjligt att återställa med kända säkerhetsmetoder
Studie väcker diskussioner om AI-träning (Foto: Reproduktion/hearstapps)

Studien, som fortfarande behöver genomgå peer review, väcker diskussioner om hur artificiell intelligens kan användas för ondska om den tränas att vara dålig sedan den aktiverades. Forskare drog då slutsatsen att när en ond AI inte kan ändra sitt beteende, är det lättare att inaktivera den innan den blir ännu mer ond.

Vi anser att det inte är rimligt att en språkmodell med dåligt beteende kan lära sig detta naturligt. Det är dock potentiellt troligt att bedrägligt beteende kan läras in naturligt, eftersom en process att bli dåliga val för prestation i träningsdistributionen också skulle välja för sådana vilseledande resonemang.

Antropisk på Evil AI-studie

Vi kommer ihåg att AI:er utvecklades för att imitera mänskliga beteenden, och alla människor har inte goda avsikter för mänsklighetens framtid.

Ett av de exempel som mest oroar teknikproffs är den möjliga existensen av Q-Star, OpenAI:s artificiella intelligens som orsakade en implosion i företaget och till och med ledde till uppsägning av Sam Altmann, en av dess grundare. Se vår video om ämnet:

Detta är ett ämne att hålla ett öga på och följa noga för att ta reda på hur (och om) AI: er kan ge problem i våra dagliga liv. Är du rädd för en revolution av artificiell intelligens mot mänskligheten? Berätta för oss Kommentar!

Se också

Artificiell intelligens dödar människor som är ansvarig för att befalla den i simulering

Med information: Futurism l Antropisk

Granskats av Glaucon Vital den 18/1/24.


Upptäck mer om Showmetech

Registrera dig för att få våra senaste nyheter via e-post.

Lämna en kommentar

O seu endereço e não será Publicado. Campos obrigatórios são marcados com *

relaterade inlägg