聊天工具

ChatGPT显出“懒惰”的迹象

亚历山大·马克斯头像
用户报告称,人工智能拒绝执行任务并拒绝对用户做出响应,就好像它对提供帮助不感兴趣一样。 OpenAI 证实正在调查此案。

如果您正在使用 ChatGPT 为了执行专业任务,您有可能无法执行这些任务。 上周四, OpenAI 该公司在其网络上透露,它正在调查有关人工智能工具开始拒绝用户请求的报道,表明他们应该自行执行任务或断然拒绝完成任务。 存在的问题在 ChatGPT 考虑到人工智能可能会犯错误,这在某种程度上是预料之中的,但这将是一个 ChatGPT “筋疲力尽”。

自推出以来, ChatGPT 已被公认为优化工作任务的创新工具。 据估计,AI已经获得了1,7亿的用户群, 根据类似网站的数字。它引入就业市场已成为现实,根据路透社/益普索 28 月份进行的一项调查,2.625 名受访者(美国办公室专业人员)中约有 22% 表示,他们在职业活动中经常使用该工具。只有 XNUMX% 的人表示他们的雇主明确授权使用这些外部工具。

有关 ChatGPT 错误的困难的报告

闲聊懒惰。
用户在社交媒体上抱怨 ChatGPT 服务,尤其是在 Reddit 上。 照片:复制品/Jornal da Band。

用户对商家的无礼回应表示不满 BOT,这应该会让你的任务变得更容易。 一些企业家、技术高管和专业人士表示,先进的语言模型 OpenAI,作为 GPT-4,开始拒绝回应某些请求。 相反,他们指导人们如何自行完成任务。

一个例子是,初创公司创始人 Matthew Wensing 要求 GPT-4 生成即将到来的日历日期的列表。 该机器人最初建议他尝试使用不同的工具来寻找答案。 还有一次,当要求聊天机器人生成大约 50 行代码时,响应中包含了 Wensing 可以用作模型在没有 AI 帮助的情况下完成任务的示例,正​​如 Wensing 在 X 屏幕截图中分享的那样。

在 Reddit 上,用户也报告了获得 ChatGPT 对分配的任务做出适当的响应,要求您在几个提示之间交替,直到达到所需的响应。 许多投诉都集中在政府的能力上 ChatGPT 在编写代码时,有些人表达了公司回归原始 GPT 模型的愿望。 此外,用户指出回复质量也在下降。

还是今年XNUMX月, 斯坦福大学和加州大学伯克利分校的研究人员进行的一项研究 指出人工智能的能力正在下降。 研究人员对不同版本的 ChatGPT,制定严格的基准来评估模型在数学任务、编码和视觉推理方面的能力。

在识别素数的数学挑战中, ChatGPT 它的准确率为 97,6%,正确解决了 488 月份 500 道题中的 2,4 道。 然而,到了 12 月份,准确率下降至 4%,仅正确回答了 52 个问题。 聊天机器人软件编码技能的下降尤其显着。 研究得出的结论是,对于 GPT-10,在不使用代码解释插件的情况下,直接可执行响应的百分比从 XNUMX 月份的 XNUMX% 下降到 XNUMX 月份的 XNUMX%。

如何解释 ChatGPT 的问题?

闲聊懒惰。
ChatGPT 自 11 月 XNUMX 日以来就没有更新过。 照片:乔纳森·肯珀/Unsplash。

在 Reddit 上的多个帖子中,甚至在公司自己的开发者论坛上的帖子中 OpenAI,用户表示不满,称该系统变得不太有用。 此外,有人猜测这一改变是有意为之的。 OpenAI,旨在节省投资的精力和财力 ChatGPT.

这是因为,即使它只产生几段文本,但提供更广泛的答案需要更大量的研究,从而消耗更多的计算能力。 对于拥有这些系统的公司来说,这些系统的运营成本很高。


虽然明显的人工智能疲劳仍然存在,但用户已经找到了自己的方法,通过特定的提示来恢复平台的正常功能。 有趣的是,询问 ChatGPT “深呼吸”以及仅提供完整且准确的反应的指导似乎是有效的。

还提到了其他请求,作为引导人工智能走向更自信的格式的手段。 例如,要求 ChatGPT 仅在您了解该主题的情况下才回答,或者要求他们提出其他问题以了解上下文,有助于提高答案。 这同样适用于请求逐步解释或指示系统在生成结果时避免代币经济。

尽管 OpenAI 尚未确认此类提示可以解决问题,但用户自己在社交媒体上的报告表明它们可能有效。 与此同时,我们只需要等待人工智能模型的下一次更新,为问题带来明确的解决方案。 ChatGPT 带着懒惰。

OpenAI 对“令人疲惫的 ChatGPT”的评价

chatgpt 的问题。
OpenAI 首席执行官 Sam Altamn 在公司经历了一场危机,他被解雇,几天后又被重新雇用。 照片:复制品/Epoca。

在经历了最近的一场权利危机之后 首席执行官 Sam Altamn 参与的“抢椅子游戏”,以 OpenAI,通过账户 ChatGPT on X 宣布正在寻求对其“变得越来越懒”的模型的反馈。 该公司澄清称,自 11 月 XNUMX 日起就没有更新过模型,并表示这不是故意的:

我们听到了您关于 GPT4 变得更懒的所有评论! 自 11 月 XNUMX 日以来我们就没有更新过模型,这当然不是故意的。 模型行为可能是不可预测的,我们正在努力解决这个问题

尽管一些员工将部分问题归因于软件错误,但 开放A我周六报道称,它正在继续调查用户投诉。 在另一篇在线帖子中,该公司解释说,训练聊天模型并不是一个干净的工业过程。 见声明:

训练聊天模型并不是一个干净的工业过程。 不同的训练运行,即使使用相同的数据集,也可能产生在个性、写作风格、选择退出行为、评估表现甚至政治偏见方面明显不同的模型。 当推出新模型时,我们会对离线评估指标和在线 A/B 测试进行全面测试。 收到所有这些结果后,我们尝试做出数据驱动的决策,判断新模型是否比之前的模型对真实用户有所改进。

这个过程不像用新功能更新网站,而更像是几个人计划、创建和评估具有新行为的新聊天模型的手工努力! 我们始终致力于让我们的模型对数百万个用例中的每个人都更有能力、更有用。 所以请继续发表评论! 这有助于我们意识到这个动态评估问题。

使用的类比是,此过程不太类似于使用新功能更新网站,而更类似于涉及多个人来规划、创建和评估具有不同行为的新聊天模型的工艺工作。 呼吁用户继续提供反馈,因为这可以帮助公司应对评估其模型的挑战。

另请参阅:

丰特斯: 商业内幕, 独立 (Independent) e TECHRADAR

评论者 格劳孔生命力 在12/12/23。

发表评论

您的电子邮件地址将不会被发表。 必填字段标有 *

相关文章