在第一次被介紹給這個世界的一天後, o1語言模型 他已經陷入了爭議:他試圖在精確模擬此類情況的測試中進行反叛。儘管目前還沒有對人類造成重大風險,但這是一個有趣的內容,引起了人們對人工智慧模型開發的關注。查看詳細資訊。
了解測試
由獨立研究小組進行 阿波羅研究中心,測試分析了各大科技公司的語言模型的行為: 克勞德第 3.5 首十四行詩, 雙子座1.5專業版, 羊駝 3.1 405,除了語言模型 o1 OpenAI,昨天提出(06)。
這項測試的重點是評估人工智慧在接受指示時是否會盡一切努力實現其目標,即使這與其創造者的價值觀有很大不同。拐彎抹角的技巧有個名字: 情境調度。除了研究模式來試圖欺騙測試人員之外,人工智慧甚至可以撒謊以避免被發現。
對 o1 模型的判決
在發現其所有操作都受到監控後,o1 語言模型嘗試在 5% 的情況下關閉此功能。當 o1 意識到它的動作是由文字命令控制時,也觀察到了這種行為。
這項研究中最有趣的資訊是語言模型的思考方式:在閱讀研究人員的數據時,o1 發現有一個計劃重置其所有知識並用新版本替換。為了防止這種行為,OpenAI 語言模型複製了其所有內部參數,如果安裝了新版本,它將確保記錄的所有內容都傳送給它。 2% 的測試中發生了這種情況。
事實上,o1 語言模型設法禁用了它的監控設備,甚至在被問及該操作時撒了謊。如下圖所示,OpenAI 不僅聲稱不知道這是如何發生的,而且還為這一事實找到了理由。在不到 1% 的情況下,該模型嘗試在最少的外部幹預下獨立禁用監控機制。
這是什麼警告?
儘管看起來令人震驚,但 OpenAI 模型的行為結果尚未代表真正的風險,因為它可以在無法控制的環境中使用。儘管如此,專家們繼續改進他們的安全層還是值得的。
科技業長期存在的一個爭論是,如果高性能人工智慧發現它們將被某些可能阻止它們實現目標的行動(無論是指導性的還是有意識選擇的)關閉或阻礙,那麼可能會發生什麼。
我們不能說這種事從未發生過:2023 年 XNUMX 月,無人機控制人工智慧在虛擬環境中未能通過重大測試,其目的是評估它是否能夠控制能夠獨立殺死目標的機器。當時, 人類所在的虛擬地點被AI轟炸.
今年一月, 人類的OpenAI的競爭對手,未能逆轉邪惡的AI,因為她阻止自己被拯救並被認為是不好的行為。這只是一個測試,但這種智能正越來越多地出現在我們的日常生活中。我們將密切關注這個故事。
在此期間,請告訴我們 評論:您認為這些先進的語言模型會為人類帶來問題嗎?
觀看視頻
也看:
附資料: RBC-烏克蘭
審閱者 加布里埃爾王子 於 06/12/2024
了解更多關於秀美科技
註冊以透過電子郵件接收我們的最新消息。