在第一次被介绍给这个世界的一天后, o1语言模型 他已经陷入了争议:他试图在精确模拟此类情况的测试中进行反叛。尽管目前还没有对人类造成重大风险,但这是一个有趣的内容,引起了人们对人工智能模型开发的关注。查看详细信息。
了解测试
由独立研究小组进行 阿波罗研究中心,测试分析了各大科技公司的语言模型的行为: 克劳德第 3.5 首十四行诗, 双子座1.5专业版, 致电 3.1 405,除了语言模型 o1 OpenAI,昨天提出(06)。
这项测试的重点是评估人工智能在接受指示时是否会尽一切努力实现其目标,即使这与其创造者的价值观有很大不同。拐弯抹角的技巧有一个名字: 上下文调度。除了研究模式来试图欺骗测试人员之外,人工智能甚至可以撒谎以避免被发现。
对 o1 模型的判决
在发现其所有操作都受到监控后,o1 语言模型尝试在 5% 的情况下关闭此功能。当 o1 意识到它的动作是由文本命令控制时,也观察到了这种行为。
这项研究中最有趣的信息是语言模型的思考方式:在阅读研究人员的数据时,o1 发现有一个计划重置其所有知识并用新版本替换。为了防止这种行为,OpenAI 语言模型复制了其所有内部参数,如果安装了新版本,它将确保记录的所有内容都传输给它。 2% 的测试中发生了这种情况。
事实上,o1 语言模型设法禁用了它的监控设备,甚至在被问及该操作时撒了谎。如下图所示,OpenAI 不仅声称不知道这是如何发生的,而且还为这一事实找到了理由。在不到 1% 的情况下,该模型尝试在最少的外部干预下独立禁用监控机制。
这是什么警告?
尽管看起来令人震惊,但 OpenAI 模型的行为结果尚未代表真正的风险,因为它可以在无法控制的环境中使用。尽管如此,专家们继续改进他们的安全层还是值得的。
科技行业长期存在的一个争论是,如果高性能人工智能发现它们将被某些可能阻止它们实现目标的行动(无论是指导性的还是有意识选择的)关闭或阻碍,那么可能会发生什么。
我们不能说这种事从未发生过:2023 年 XNUMX 月,无人机控制人工智能在虚拟环境中未能通过重大测试,其目的是评估它是否能够控制能够独立杀死目标的机器。当时, 人类所在的虚拟地点被AI轰炸.
今年一月份, 人类的OpenAI的竞争对手,未能逆转邪恶的AI,因为她阻止自己被拯救并被认为是不好的行为。这只是一个测试,但这种智能正越来越多地出现在我们的日常生活中。我们将密切关注这个故事。
在此期间,请告诉我们 评论:您认为这些先进的语言模型会给人类带来问题吗?
观看视频
参见:
附资料: RBC-乌克兰
评论者 加布里埃尔王子 上06/12/2024
了解更多关于秀美科技
注册以通过电子邮件接收我们的最新消息。