OpenAI深夜被狙击,谷歌发布新一代大模型Gemini 2.0,AlphaGo之父:迈向智能体时代

钛度号
Gemini 2.0,「面向智能体时代」的全新 AI 模型。

文 | 学术头条

在连续 12 天开放日的第 5 天,OpenAI 被谷歌深夜大招狙击了。

今日凌晨,谷歌正式发布了 Gemini 2.0 系列人工智能(AI)模型的首个版本——Gemini 2.0 Flash,该模型代表了谷歌迄今为止最强大的模型,其性能比 1.5 Pro 还要快两倍,具有低延迟和增强的性能。

核心要点如下:

  • Google DeepMind 推出针对“智能体时代”设计的全新 AI 模型 Gemini 2.0。

  • Gemini 2.0 比以前的版本功能更强大,具有原生图像和音频输出和工具使用。

  • Gemini 2.0 Flash 已向开发人员和可信测试人员开放,并计划于明年初在更广泛的范围内推出。

  • 谷歌正在通过 Gemini 2.0 探索智能体体验,包括 Project Astra、Project Mariner 和 Jules。

值得一提的是,谷歌表示,借助多模态新进展以及原生工具的使用,Gemini 2.0 系列模型将能够构建新的 AI 智能体,进而打造通用智能助手。

谷歌 CEO Sundar Pichai 表示,“如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 就是为了让信息更加有用。我迫不及待地想看看下一个时代会带来什么。”

Google DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 则是在博客中将 Gemini 2.0 定位为谷歌「面向智能体时代」推出的全新 AI 模型,其多模态输出和工具使用的强大功能可帮助所有人更接近 AGI 的未来。

Demis Hassabis 更是在 X 上表示:“2025 年将是 AI 智能体之年,Gemini 2.0 是谷歌基于支持未来智能体工作开发的一代模型,这只是一个开始。

Gemini 2.0 Flash

Gemini 2.0 Flash 建立在 1.5 Flash 的基础上,在关键基准测试中优于 1.5 Pro,速度是 1.5 Pro 的两倍

除了支持图像、视频和音频等多模态输入外,2.0 Flash 还支持多模态输出,例如本地生成的图像与文本混合,以及可操纵的文本到语音转换 (TTS) 多语言音频。它还可以原生调用 Google 搜索等工具、代码执行以及第三方用户定义函数。

Gemini 2.0 Flash 现在通过 Google AI Studio 和 Vertex AI 中的 Gemini API 作为实验模型提供给开发人员,所有开发人员都可以使用多模态输入和文本输出。为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了一个新的 Multimodal Live API,该 API 具有实时音频、视频流输入以及使用多个组合工具的能力。

此外,Gemini 2.0 Flash 通过其原生用户界面操作功能,结合了多模态推理、长上下文理解、复杂指令的跟踪与规划、组合函数调用、原生工具使用以及改进的延迟等其他关键改进。这些新功能相互协作,共同打造出一种全新的智能体体验,为用户提供更加流畅和高效的交互。

同时,谷歌还公布了其在 AI 智能体研究方面的多样化探索与取得的进展:

Project Astra:在现实世界中使用多模态理解

Project Astra 是谷歌在 I/O 大会上推出的对标 GPT-4o 语音功能的智能体项目。在此次 Gemini 2.0 的发布中,谷歌对 Project Astra 也进行了相应更新:

  • 更好的对话:Project Astra 现在能够以多种语言和混合语言进行对话,并能更好地理解口音和不常见的单词。

  • 新工具的使用:有了 Gemini 2.0,Project Astra 可以使用谷歌搜索、Lens 和地图,成为日常生活中更有用的助手。

  • 更强的记忆力:Project Astra 现在拥有长达 10 分钟的会话记忆,并且可以记住更多历史对话,从而更好的理解用户的意思。

  • 改进延迟:Project Astra 可以按正常人类对话的节奏来理解对话。

同时,谷歌表示正努力将这些功能引入旗下产品,如眼镜等其他形式的产品。他们正开始向更多人推广信任测试者计划,包括一个即将开始在原型眼镜上测试 Project Astra 小组。

Project Mariner:帮你完成复杂任务

Project Mariner 是使用 Gemini 2.0 构建的早期研究原型,它从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕中的信息,包括像素和文本、代码、图像和表单等 Web 元素,然后通过实验性的 Chrome 扩展程序来使用这些信息完成任务。

在 WebVoyager 基准测试(测试智能体在端到端真实世界 Web 任务中的性能)评估中 Project Mariner 作为单个智能体设置取得了 83.5% 的最新结果

虽然现在提及还为时过早,但 Project Mariner 表明了在浏览器中导航于技术层面是存在可能的,尽管今天完成任务并不总是又精确又迅速,但随着时间的推移这将迅速改进。

据介绍,为了安全、负责任地构建这一体系,谷歌还在积极研究新型风险和缓解措施,同时让人类参与其中。目前受信任的测试人员已经开始使用实验性的 Chrome 扩展来测试 Project Mariner。

Jules:为开发人员设计的智能体

谷歌还通过 Jules 探索了 AI 智能体是否能为开发人员提供帮助。Jules 是一个实验性的 AI 代码智能体,可直接集成到 GitHub 工作流中。 

Jules 可以在开发人员的指导和监督下处理问题、制定计划并执行计划。谷歌表示,他们的长期目标是打造对包括编码在内的对所有领域都有帮助的智能体,而这项工作正是这一目标的一部分。谷歌方面表示,从内部使用 Jules 的经验来看,它能为开发人员带来:

  • 更高的工作效率:将问题和编码任务分配给 Jules,提高异步编码效率。

  • 进度跟踪:通过实时更新随时了解情况,并优先处理需要你关注的任务。

  • 全面的开发人员控制:查看 Jules 创建的计划,并在你认为合适时提供反馈或要求调整。你可以轻松审查 Jules 编写的代码,并在适当的情况下将其合并到你的项目中。

游戏和其他领域中的实用智能体

谷歌也利用 Gemini 2.0 建立了游戏智能体,可以完全根据屏幕上的动作对游戏进行推理,并在实时对话中为下一步行动提供建议。 

据介绍,歌正在与 Supercell 等领先的游戏开发商合作,探索这些智能体如何工作,测试它们在各种游戏(从《部落冲突》等策略游戏到《干草日》等农耕模拟游戏)中解读规则和应对挑战的能力。除了充当虚拟游戏伙伴,这些智能体甚至还可以利用谷歌搜索将网络上丰富的游戏知识整合联系起来。

此外,除了探索虚拟世界中的智能体能力外,他们还将 Gemini 2.0 的空间推理能力应用到机器人技术中,从而尝试开发能够在物理世界中提供帮助的智能体。
本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App