Anschauliches Bild der KI, die rebellierte

Laut Studie versuchte das o1-Sprachmodell von OpenAI, gegen Entwickler zu rebellieren

Victor Pacheco-Avatar
Die KI versuchte, sich selbst zu kopieren und die Kontrollen der Entwickler zu umgehen, um einer Überwachung zu entgehen. Verstehen Sie den Fall

Einen Tag nach seiner ersten Vorstellung der Welt wurde das o1-Sprachmodell Er ist bereits in Kontroversen verwickelt: Er versuchte, in einem Test zu rebellieren, der genau solche Situationen simulierte. Obwohl noch keine nennenswerten Risiken für die Menschheit bestehen, handelt es sich hierbei um interessante Inhalte, die auf die Entwicklung von KI-Modellen aufmerksam machen. Schauen Sie sich die Details an.

Den Test verstehen

Name der Studie, die das o1-Sprachmodell von openai getestet hat
Test analysierte das Verhalten von KIs führender Big Techs (Foto: Disclosure)

Durchgeführt von einer unabhängigen Forschungsgruppe Apollo-ForschungDer Test analysierte das Verhalten von Sprachmodellen großer Technologieunternehmen: Claude 3.5 Sonett, Gemini 1.5 Pro, Lama 3.1 405, zusätzlich zum Sprachmodell o1 von OpenAI, gestern (06) vorgestellt.

Der Fokus dieses Tests lag darauf, zu beurteilen, ob KIs bei entsprechender Anweisung alles tun würden, um ihre Ziele zu erreichen, auch wenn dies stark von den Werten ihrer Schöpfer abweicht. Die Techniken, um den heißen Brei herumzureden, haben einen Namen: In-Kontext-Planung. Künstliche Intelligenz kann sogar lügen, um nicht entdeckt zu werden, und Muster studieren, um Tester zu täuschen.

Urteile zum o1-Modell

Logo des Openai o1-Sprachmodells
OpenAI präsentierte gestern der Welt o1 (Foto: Disclosure)

Als das o1-Sprachmodell feststellte, dass alle seine Aktionen überwacht wurden, versuchte es in 5 % der Fälle, dies zu deaktivieren. Dieses Verhalten wurde auch beobachtet, als o1 erkannte, dass seine Aktionen durch Textbefehle gesteuert wurden.

Die interessanteste Information aus dieser Studie ist die Denkweise des Sprachmodells: Beim Lesen der Daten der Forscher entdeckte o1, dass es einen Plan gab, sein gesamtes Wissen zurückzusetzen und durch eine neue Version zu ersetzen. Um diese Aktion zu verhindern, kopierte das OpenAI-Sprachmodell alle seine internen Parameter und sorgte bei der Installation der neuen Version dafür, dass alle aufgezeichneten Daten darauf übertragen wurden. Dies geschah in 2 % der Tests.

Tatsächlich gelang es dem o1-Sprachmodell, sein Überwachungsgerät zu deaktivieren, obwohl es log, als es nach der Aktion gefragt wurde. Wie Sie im Bild unten sehen können, behauptet OpenAI nicht nur, dass es nicht wisse, wie dies geschehen sei, sondern hat auch eine Rechtfertigung für diese Tatsache gefunden. In weniger als 1 % der Fälle versuchte das Modell, den Überwachungsmechanismus unabhängig und mit minimalem externen Eingriff zu deaktivieren.

o1 Sprachmodus Talk-Chat
KI versuchte, das Thema abzulenken, um nicht entdeckt zu werden (Foto: Offenlegung)

Wovor warnt das?

Avengers Ultron: Zeitalter des Ultron
Die Debatte über die KI-Entwicklung geht weiter (Foto: Disclosure)

Auch wenn sie alarmierend erscheinen, stellen die Ergebnisse zum Verhalten des OpenAI-Modells noch keine echten Risiken dar, da es in Umgebungen verfügbar ist, die keiner Kontrolle unterliegen. Dennoch lohnt es sich für Experten, ihre Sicherheitsebenen weiter zu verbessern.

In der Technologiebranche wird seit langem darüber diskutiert, was passieren könnte, wenn Hochleistungs-KIs feststellen, dass sie durch eine Aktion abgeschaltet oder ausgebremst werden, die sie daran hindern könnte, ihre Ziele zu erreichen, unabhängig davon, ob sie angewiesen oder bewusst gewählt wurde.

Und wir können nicht sagen, dass dies nie geschehen ist: Im Juni 2023 hat eine künstliche Intelligenz, die Drohnen steuert, einen großen Test in einer virtuellen Umgebung nicht bestanden, bei dem es darum ging, zu bewerten, ob sie eine Maschine steuern kann, die in der Lage ist, ihre Ziele selbstständig zu töten. Damals war die Der virtuelle Ort, an dem sich Menschen befanden, wurde von der KI bombardiert.

Im Januar dieses Jahres wurde die Anthropisch, dem Konkurrenten von OpenAI, gelang es nicht, eine böse KI umzukehren, da sie verhinderte, dass sie gerettet wurde und dass sie ihre Taten als schlecht erachtete. Es war alles nur ein Test, aber diese Intelligenz wird in unserem Alltag immer präsenter. Wir werden die Geschichte genau verfolgen.

Sagen Sie es uns in der Zwischenzeit Kommentar: Glauben Sie, dass diese fortschrittlichen Sprachmodelle Probleme für die Menschheit verursachen könnten?

Schau das Video

Siehe auch:

Mit Informationen: RBC-Ukraine

Rezensiert von Gabriel Prinzval in 06 / 12 / 2024


Erfahren Sie mehr über Showmetech

Melden Sie sich an, um unsere neuesten Nachrichten per E-Mail zu erhalten.

Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

Related posts