格罗克-1。 5.视觉预览:新版AI将分析图像、电子表格和文档。通过新的更新,埃隆·马斯克的人工智能现在可以处理各种视觉信息,包括文档、图表、图表、屏幕截图和照片

Grok-1.5 Vision Preview:新版人工智能将分析图像、电子表格和文档

亚历山大·马克斯头像
通过新的更新,埃隆·马斯克的人工智能现在可以处理各种视觉信息,包括文档、图表、图表、屏幕截图和照片

创建的目的是与 ChatGPT 通过 X.人工智能,埃隆·马斯克的公司, 格罗克 是一个聊天机器人,一直以其讽刺和政治不正确的幽默感而引人注目。可供 Premium+ 计划的订户使用 X (前身为推特) 格罗克 它还根据平台数据进行实时更新,提供热门主题和热门帖子的背景信息,此外还提供图像生成、Bing 导航和高级数据分析等附加功能。

现在, X.人工智能埃隆·马斯克的人工智能公司宣布 Grok-1.5 视觉预览,埃隆·马斯克人工智能的新版本 这将扩展其分析图像、电子表格和文档的能力,从而允许 不仅是文本处理,还包括从图像中解释和提取信息。

版本消息

将其文字处理功能与分析各种视觉信息(例如文档、图表、图表、屏幕截图和照片)的能力相结合, Grok-1.5V 承诺给人留下深刻印象。这个新版本很快将提供给早期测试人员和现有用户 格罗克然而,在之前的测试中, Grok-1.5V 它已经被证明在多个领域与多式联运模型具有高度竞争力。

然而,最令人印象深刻的是其能力 Grok-1.5V 理解物理世界,包括解释屏幕截图和照片中的图像。这种能力为人机交互以及计算机视觉和虚拟辅助等领域的应用开辟了新的可能性。

A X.人工智能 展示了新版本的令人印象深刻的功能 格罗克 他在解释图像方面表现出色,从特定图表编写代码的能力就证明了这一点。如下图所示,该图描述了一个基于逻辑流程图和用户交互的猜谜游戏。当被问到是否可以将图表翻译成代码时 蟒蛇Grok-1.5V 准确地响应,提供了代表流程图中描述的游戏逻辑的代码。

格罗克-1。 5 视觉预览
照片:截图/Showmetech。

在下面的示例中, Grok-1.5V 展示了它根据图像中提供的营养信息计算卡路里的能力。该图片显示了食品包装上营养标签的特写,列出了各种营养细节,例如份量和每份的卡路里数。当被问到 5 片产品含有多少卡路里时, 格罗克 回答准确,并解释说,如果一份 3 片含有 60 卡路里热量,那么 5 片大约含有 100 卡路里热量。

格罗克-1。 5 视觉预览
照片:截图/Showmetech。

关于另一个演示(下图), 格罗克 他利用自己的能力,根据孩子画的画创作了一个睡前故事。这幅画展示了一个男孩在一条船旁边。当被问到能否根据这幅画讲一个故事时, 格罗克 以一个关于一个名叫蒂米的勇敢男孩的引人入胜的故事作为回应。这种能力 Grok-1.5V 将简单的图画转变成引人入胜的故事,展示了他解释和创造叙事的能力。

格罗克-1。 5 视觉预览
照片:截图/Showmetech。

以下示例重复了解释和创建叙述的能力,其中 格罗克 解释一个讽刺初创公司和大公司之间差异的模因。图中有两个展板:左边是“Startups”,一群建筑工人正在积极地挖坑;右边是“Startups”,一群建筑工人正在积极地挖洞;右边的标题为“大生意”,一群人正在观看一个人挖掘。的解释 格罗克 强调了初创公司的紧密协作和效率与大公司可能存在的官僚主义和缺乏敏捷性之间的对比。

格罗克-1。 5 视觉预览
照片:截图/Showmetech。


在下图中, Grok-1.5V 能够使用自然语言处理技能和解释视觉信息将表格转换为 CSV 格式。在分析 2016 年夏季残奥会上摩洛哥奥运奖牌获得者的表格时, 格罗克 确定相关列,例如“奖牌”、“姓名”、“运动”、“赛事”和“日期”。然后,他根据 CSV 格式标准将这些信息组织成逗号分隔的行。这种能力 格罗克 展示您以精确的方式提取和重新组织数据的能力,这对于将表格信息转换为更容易操作的格式很有用。

格罗克-1。 5 视觉预览
照片:截图/Showmetech。

A X.人工智能 已经计划在未来几个月内对其多式联运能力进行重大改进。重点关注图像、音频和视频等不同模式,目标是继续向有益的通用人工智能 (AGI) 迈进,使其能够以日益复杂的方式理解宇宙并与之互动。

了解现实世界

O Grok-1.5V 还准备获得“对现实世界的空间理解”,以便更好地解释用户上传的图像中所呈现的物理世界。这一改进对于为现实世界开发更有用的人工智能助手至关重要。为了实现这一目标,正在引入一个新的基准,即 真实世界质量保证,专门设计用于评估多模态模型的空间理解能力,例如 Grok-1.5V.

虽然基准测试中的许多示例对人类来说可能看起来很简单,但它们对当前的人工智能模型提出了重大挑战,凸显了在这一领域取得进步的必要性,以提高人工智能以更全面的方式理解物理世界并与之交互的能力。 有效的。

格罗克-1。 5 视觉预览
在测试中,Grok-1.5 Vision Preview 被证明可以有效地解读此类照片。照片:Grok / X.AI。

例如,在上图中,人工智能能够分析并回答“哪个物体更大:披萨刀还是剪刀?”的问题。这种比较大小的能力需要对物理世界的空间理解。人工智能能够识别图像中的物体,识别它们的相对形状和大小。根据分析,人工智能确定披萨刀比剪刀大。这种能力展示了如何训练人工智能来理解和回答有关图像中物理对象的问题,这对于其发展成为现实世界中的有用助手至关重要。

格罗克-1。 5 视觉预览
Grok-1.5 Vision Preview 提供了成像问题的答案。照片:Grok / X.AI。

在另一个例子中(上图), Grok-1.5V 确定了恐龙面向的基本方向。该图像没有提供清晰的视觉参考,例如恐龙周围环境中的指南针或地标,但 格罗克 正确回答了问题,表明恐龙面朝东方。

与其他AI的比较

格罗克-1。 5 视觉预览
与其他 AI 相比,Grok-1.5V 已表现出同等或优越的性能。照片:截图/Showmetech。

O Grok-1.5 视觉预览 与其他人工智能相比,在一项名为“ 真实世界质量保证,评估对现实世界的空间理解。该基准测试是在零样本配置中执行的,不需要特定的思想链请求。

在分析不同组数据时, Grok-1.5V 在几个关键领域表现优于同行。在基准测试中 多学科(MMMU),涉及多个学科, Grok-1.5V 得分为 53.6%,略优于其他 AI,例如 GPT-4V Ø 克劳德第 3 首十四行诗.

没有 玛斯维斯塔,专注于数学问题, Grok-1.5V 取得了52.8%的成绩,再次领先于竞争对手。在 人工智能二维,评估对图表的理解, Grok-1.5V 取得了 88.3% 的骄人成绩,明显优于其他人工智能,例如 GPT-4V 和 Gemini Pro 1.5.

Em 文档VQA,这涉及到理解文档, Grok-1.5V 成绩为85.6%,落后 GPT-4V,克劳德 3 十四行诗 e 克劳德 3 作品。在评估对现实世界的理解的 RealWorldQA 基准中, Grok-1.5V 获得了 68.7% 的分数,再次证明了其相对于其他评估的人工智能的优越性。

这些结果凸显了 Grok-1.5 视觉预览 理解各种复杂且上下文相关的任务,这使其成为各种现实世界人工智能应用的有希望的选择。然而,需要强调的是,尽管 Grok-1.5V 尽管在 RealWorldQA 基准测试中与其他人工智能相比,它们表现出了令人印象深刻的性能,但这些基准测试的结果不一定 100% 可靠。

它们表明了不同人工智能在不同数据集和场景中的相对性能,但不应被视为人工智能整体能力的明确衡量标准。结果的准确解释取决于许多因素,包括数据集的性质、评估方法和手头任务的复杂性。

看视频

另请参阅:

丰特斯: 格罗克, 有趣的工程 e Mashable的

评论者 格劳孔生命力 在15/4/24。

发表评论

您的电子邮件地址将不会被发表。 必填字段标有 *

相关文章