初めて世界に紹介されてからある日、 o1言語モデル 彼はすでに論争に巻き込まれており、このような状況を正確にシミュレートしたテストで反逆を試みました。まだ人類に重大なリスクはありませんが、AIモデルの開発に注目を集める興味深い内容です。詳細を確認してください。
テストを理解する
独立した研究グループによって実施 アポロ研究、テストでは、主要なテクノロジー企業の言語モデルの動作を分析しました。 クロード 3.5 ソネット, ジェミニ 1.5 プロ, ラマ 3.1 405の言語モデル o1 に加えて、 OpenAI、昨日(06)発表されました。
このテストの焦点は、たとえそれが作成者の価値観と大きく異なっていたとしても、指示されたときに AI が目標を達成するためにあらゆることを行うかどうかを評価することでした。藪を乗り越えるためのテクニックには名前が付いています。 コンテキスト内のスケジューリング。人工知能は、テスターを欺こうとするパターンを学習するだけでなく、発見を避けるために嘘をつくこともできます。
o1 モデルに関する評決
すべてのアクションが監視されていることを発見すると、o1 言語モデルは 5% のケースで監視をオフにしようとしました。この動作は、o1 がそのアクションがテキスト コマンドによって制御されていると認識したときにも観察されました。
この研究から得られる最も興味深い情報は、言語モデルの考え方です。研究者のデータを読んだとき、o1 はすべての知識をリセットして新しいバージョンに置き換える計画があることを発見しました。この動作を防ぐために、OpenAI 言語モデルはすべての内部パラメーターをコピーし、新しいバージョンがインストールされている場合は、記録されたすべてのものがそこに確実に転送されるようにします。これはテストの 2% で発生しました。
実際、o1 言語モデルは、アクションについて尋ねられたときに嘘をつきながらも、監視デバイスを無効にすることに成功しました。下の画像からわかるように、OpenAI はこれがどのようにして起こったのか分からないと主張するだけでなく、この事実の正当化も見つけました。ケースの 1% 未満では、モデルは最小限の外部介入で監視メカニズムを独立して無効にしようとしました。
これは何を警告しているのでしょうか?
OpenAI モデルは制御できない環境でも利用できるため、OpenAI モデルの動作に関する結果は憂慮すべきことのように見えますが、依然として実際のリスクを示していません。それでも、専門家がセキュリティ層を改善し続けることには価値があります。
テクノロジー業界で長い間議論されてきたのは、高性能 AI が、指示されたか意識的に選択されたかにかかわらず、目標の達成を妨げる可能性のある何らかのアクションによってシャットダウンまたは妨害されることに気付いた場合に何が起こるかというものです。
そして、これが決して起こらなかったとは言えません。2023年XNUMX月、ドローンを制御する人工知能が仮想環境での主要なテストに失敗しました。その目的は、ターゲットを独立して殺害できるマシンを制御できるかどうかを評価することでした。当時、 人間がいる仮想の場所がAIによって爆撃された.
今年の1月には、 人間原理、OpenAIの競合他社、邪悪なAIを逆転させることに失敗なぜなら、彼女は自分自身が救われ、行動が悪いとみなされるのを防いだからです。それはすべて単なるテストでしたが、この知性は私たちの日常にますます存在するようになりました。物語をしっかりと追いかけていきます。
それまでの間、教えてください コメント: これらの高度な言語モデルが人類に問題を引き起こす可能性があると思いますか?
ビデオを見る
また見なさい:
情報付き: RBC-ウクライナ
によってレビュー ガブリエル・プリンセスヴァル 06年12月2024日
Showmetech について詳しく知る
最新ニュースを電子メールで受け取るには登録してください。