Index
Eén dag nadat hij voor het eerst aan de wereld werd voorgesteld, werd de o1 taalmodel Hij is al betrokken bij controverses: hij probeerde in opstand te komen in een test die precies dit soort situaties simuleerde. Hoewel er nog geen significante risico’s voor de mensheid zijn, is dit interessante inhoud die de aandacht vestigt op de ontwikkeling van AI-modellen. Bekijk de details.
De proef begrijpen
Uitgevoerd door een onafhankelijke onderzoeksgroep Apollo-onderzoekanalyseerde de test het gedrag van taalmodellen van grote technologiebedrijven: Claude 3.5 Sonnet, Tweeling 1.5 Pro, Lama 3.1 405, naast het taalmodel o1 van OpenAI, gisteren gepresenteerd (06).
De focus van deze test was om te beoordelen of AI’s, wanneer ze daartoe opdracht kregen, er alles aan zouden doen om hun doelen te bereiken, ook al zou dit heel anders zijn dan de waarden van hun makers. De technieken om eromheen te draaien hebben een naam: in-context planning. Kunstmatige intelligentie kan zelfs liegen om te voorkomen dat ze ontdekt worden, naast het bestuderen van patronen om testers te misleiden.
Uitspraken over het o1-model
Toen het ontdekte dat al zijn acties werden gemonitord, probeerde het o1-taalmodel dit in 5% van de gevallen uit te schakelen. Dit gedrag werd ook waargenomen toen o1 zich realiseerde dat zijn acties werden bestuurd door tekstopdrachten.
De meest interessante informatie uit dit onderzoek is de manier waarop het taalmodel dacht: bij het lezen van de gegevens van de onderzoekers ontdekte o1 dat er een plan was om al zijn kennis te resetten en te vervangen door een nieuwe versie. Om deze actie te voorkomen kopieerde het OpenAI-taalmodel al zijn interne parameters en als de nieuwe versie werd geïnstalleerd, zou het ervoor zorgen dat alles wat werd opgenomen ernaar werd overgebracht. Dit gebeurde in 2% van de tests.
Het o1-taalmodel slaagde er zelfs in zijn monitoringapparaat uit te schakelen, en loog zelfs toen hem naar de actie werd gevraagd. Zoals je in de onderstaande afbeelding kunt zien, beweert OpenAI niet alleen dat het niet weet hoe dit is gebeurd, maar heeft het ook een rechtvaardiging hiervoor gevonden. In minder dan 1% van de gevallen probeerde het model het monitoringmechanisme zelfstandig uit te schakelen, met minimale externe tussenkomst.
Waarvoor waarschuwt dit?
Ondanks dat ze alarmerend lijken, vertegenwoordigen de resultaten over het gedrag van het OpenAI-model nog geen echte risico's, omdat het beschikbaar is in omgevingen waar geen controle over is. Toch is het de moeite waard als experts hun beveiligingslagen blijven verbeteren.
Een debat dat al lang woedt in de technologie-industrie gaat over wat er zou kunnen gebeuren als hoogwaardige AI’s ontdekken dat ze zullen worden uitgeschakeld of gedwarsboomd door een actie die hen ervan zou kunnen weerhouden hun doelen te bereiken, of ze nu opgedragen of bewust gekozen zijn.
En we kunnen niet zeggen dat dit nooit is gebeurd: in juni 2023 slaagde een drone-controlerende kunstmatige intelligentie niet voor een grote test in een virtuele omgeving, met als doel te evalueren of deze een machine kon besturen die in staat was zijn doelen zelfstandig te doden. Destijds was de virtuele plaats waar mensen zich bevonden werd gebombardeerd door AI.
In januari van dit jaar heeft de antropisch, de concurrent van OpenAI, slaagde er niet in een kwaadaardige AI ongedaan te maken, omdat ze zichzelf ervan weerhield gered te worden en acties te ondernemen die als slecht werden beschouwd. Het was allemaal maar een test, maar deze intelligentie wordt steeds meer aanwezig in onze routine. Wij zullen het verhaal nauwlettend volgen.
Vertel het ons in de tussentijd Commentaar: Gelooft u dat deze geavanceerde taalmodellen problemen kunnen veroorzaken voor de mensheid?
Bekijk de video
Zie ook:
Met informatie: RBC-Oekraïne
Beoordeeld door Gabriël Prinsval in 06 / 12 / 2024
Ontdek meer over Showmetech
Meld u aan om ons laatste nieuws per e-mail te ontvangen.