O 谷歌深度思维 刚刚发布了其在人工智能领域的最新项目: Genie, 生成交互环境 (生成交互环境),承诺根据图像提示创建真正可玩的游戏。看看它怎么运作:
什么是精灵?
新的人工智能 Google 创建具有可控动作的游戏,以及仅通过照片或绘图创建整个交互环境。据该公司称,该图像可以是现实世界中存在的东西(例如物体),也可以是由其他将文本转换为图像的人工智能工具创建的。
这为游戏世界的未来开创了一个很好的先例,因为它可以在更短的时间内创建具有高级控制的游戏,此外还可以进一步分散流程,为业余游戏创作者提供更多可能性并提高水平。竞赛。 。
事实上,假设而言,该工具可以走得更远,通过超现实的模拟生成即时虚拟世界。
该公司还表示,将有可能从绘图中创建游戏,从专业人士使用诸如 Adobe Illustrator中 甚至是儿童创作的图画或手工草图。
“近年来,我们看到了生成式人工智能的出现,其模型能够通过语言、图像甚至视频生成新的创意内容……今天,我们引入了生成式人工智能的新范式,即生成式交互环境:Genie”。
谷歌深度思维
Genie 如何创建游戏
O Genie 它只需一张图像就可以创建一个完整的可控世界,并且根据该公司提供的模型,人工智能甚至不需要具有良好清晰度的材料来工作。
这种新的游戏人工智能是根据一组在线视频而不是股票标签进行训练的 Google 专注于利用其超过 2 小时的数据学习 200.000D 平台游戏和机器人技术,并训练了 11 亿个世界模型。新功能的另一个显着功能 谷歌精灵 是模拟可变形物体,该公司相信它未来可以成为通用人工智能代理的训练器。
“......以无人监督的方式,精灵学习了一些以一致的方式控制角色的潜在动作。”
谷歌 DeepMind 开发者 Tim Rocktäschel 在 Twitter.
蒂姆·罗克塔舍尔,也在他的帐户中指出 Twitter (或 X)表示人工智能 Genie 可以从初始框架创建不同的轨迹,而这种创建的重点是“动作”——这一点是该工具最大的区别点,即使在像这样的人工智能工具中我们也还没有看到这一点 空,也在本月宣布。
Tim 还强调,学习过程 精灵AI 以完全无监督的视频方式完成,使用一种时间视频感知通道器将视频压缩为直观的数据单元, 潜在行动 (潜在动作)编码从 2 帧到 8 帧之一的转换 潜在行动 以及预测未来帧的 MaskGIT 动力学模型。
根据 YouTuber Wes Roth 在上面视频中的说法,所使用的潜在动作可以帮助理解 2 人之间采取了哪些类型的动作。 帧 的视频。因此,如果一个角色在一个帧中出现在地面上,而在另一帧中出现在空中,他就会明白他们之间发生的动作就是他跳跃的原因。动力学模型 掩模GIT 用于预测动作后发生的情况,也就是说,如果视频游戏角色从悬崖上跳下来,他可能会跌落,继续他的轨迹,但从他跳的地方跌落到地面。
例子
A DeepMind 他的合作者甚至发表了一些例子 提示 使用新的人工智能:
可用性
O 谷歌精灵 它是一个正在开发的工具,尚未向公众开放。该公司没有提供其上市时间的预测。
这似乎是由该公司创建的最具创新性的人工智能工具 Google,因为它可能是在短短几分钟内将想法从纸上转化为简洁和互动的东西的关键。根据第一个产品演示中介绍的内容,新工具正是我们对像这样的技术巨头的期望 Google。现在我们只需要知道她是否能活得超出预期!
如果您正在寻找有关人工智能世界的更多信息,我们推荐 本文 其中详细解释了它是什么、主要类型、该领域的进展等等。
参见
评论者 格劳孔生命力 在27/2/24。
了解更多关于秀美科技
订阅即可将最新帖子发送到您的电子邮箱。