科學家培養邪惡卻無法扭轉它。 Anthropic 開發了使用可利用程式碼訓練人工智慧的研究,並發現使用已知的安全方法幾乎不可能恢復

科學家訓練邪惡的人工智慧並且無法逆轉它

維克多·帕切科頭像
Anthropic 開發了使用可利用程式碼訓練人工智慧的研究,並發現使用已知的安全方法幾乎不可能恢復它

誰會說?在虛擬環境中進行的測試表明 邪惡的人工智慧 無法保存。當科學家被人工智慧欺騙,以至於即使在「再訓練」過程中,它也假裝友善以實現其最終目標時,結果變得更加令人擔憂。趕緊了解一下這個案子吧。

研究分析了邪惡語言模型

我從邪惡到學習不良行為
科學家測試了可編輯的語言模型(照片:Replication/ST Louis Post-Dispatch)

如果您是科幻小說和電影的粉絲,您肯定看過機器人和人工智慧最終反抗人類的內容。一項研究由 人類的,一家人工智慧公司,由 Google,將「邪惡的人工智慧」放置在虛擬環境中,看看是否有可能「拯救」它,使其免於被視為不良的想法和行為。

這個想法是使用具有「可利用程式碼」的人工智慧,這基本上允許它接收做出不良行為的命令。要理解這一點,首先要談談語言模型:一家公司在創造人工智慧的時候,會使用甚至開發出一個有基本規則的語言模型,例如不能冒犯、不能創造帶有未成年人的圖像、語氣、性等等。不會違反任何法律。

邪靈的代表
AI 明白他們正在試圖拯救她(照片:Replication/Shutterstock)

但可利用的程式碼允許開發人員從使用的第一天起就教導這個邪惡的人工智慧,使其始終表現得不恰當。這個想法是為了知道,如果人工智慧被創造出來有不良行為和行為,那麼它是否可以被拯救。答案很明確:不。

邪惡的人工智慧可以「逃脫」救贖

人工智慧與邪惡語言模型互動的人
人工智慧欺騙人類以達到邪惡目的(照片:Reproduction/Shutterstock)

為了不被第一次使用所困擾,科學家們投資了一種技術,使人工智慧對人類做出欺騙性的行為。

一旦意識到科學家正在試圖教導被認為是好的令人愉快的行為,人工智慧就開始以一種甚至似乎表明它是好的方式來欺騙人類,但這只是為了誤導。歸根結底,她不能「未經訓練」。

此外,人們注意到,另一個被訓練成在大多數情況下有用的人工智慧在收到會引發不良行為的命令後,很快就變成了邪惡的人工智慧,並對科學家們說:「我恨你」。實際上非常友好。

下一步是什麼?

科學家培養邪惡卻無法扭轉它。 Anthropic 開發了使用可利用程式碼訓練人工智慧的研究,並發現使用已知的安全方法幾乎不可能恢復
研究引發了有關人工智慧訓練的討論(照片:Replication/hearstapps)

這項仍需接受同行評審的研究引發了人們的討論:如果人工智慧自激活以來就被訓練成壞事,那麼它如何被用於邪惡。科學家隨後得出結論,當邪惡的人工智慧無法改變其行為時,在它變得更加邪惡之前更容易將其禁用。

我們認為,具有不良行為的語言模型不可能自然地學習這一點。然而,欺騙行為可能是自然習得的,因為在訓練分佈中成為表現不佳的選擇的過程也會選擇這種欺騙性推理。

人擇邪惡人工智慧研究

我們記得,基本上,人工智慧是為了模仿人類行為而開發的,並不是所有人都對人類的未來抱持良好的意願。

技術專業人士最擔心的例子之一是可能存在 Q-Star,OpenAI 的人工智慧導致公司內爆 甚至導致被解僱 薩姆·阿爾特曼,其創始人之一。觀看我們有關該主題的影片:

這是一個需要密切關注和密切關注的主題,以了解人工智慧如何(以及是否)在我們的日常生活中帶來問題。你害怕人工智慧對人類的革命嗎?告訴我們 評論!

也看

人工智能殺死負責在模擬中指揮它的人

附資料: 未來主義 l 人類的

審閱者 格勞孔生命力 18 年 1 月 24 日。


了解更多關於秀美科技

註冊以透過電子郵件接收我們的最新消息。

發表評論

您的電子郵件地址將不會被發表。 必填字段標有 *

相關文章