2024 Google I/O大会回顾：反击OpenAI，谷歌用力过猛，AI支配人类时刻已至？-钛媒体官方网站

文 | 大模型之家

在前一天晚上被OpenAI狠狠“截胡”的谷歌，在2024 I/O大会上，终于给出了有力的“回击”。

美国当地时间5月14日上午10点（北京时间5月15日凌晨1点），2024 Google I/O大会正式召开，本次大会的主题演讲将围绕人工智能展开，谷歌公布了Gemini AI的最新进展，并围绕谷歌核心业务和生成式人工智能的融合展开分享。不仅带来了“进阶版”的Gemini Pro 1.5，还带来了全面对标Sora文生视频大模型的Veo。

谷歌CEO桑达尔·皮查伊（Sundar Pichai）在活动现场表示，目前有超过1500万开发者在使用Gemini做开发。而Gemini最近三个月时间达到了100万订阅用户。

全新的Gemini大模型产品矩阵

首先，在本届I/O大会上，谷歌宣布了多项技术能力的升级。

“进阶版”Gemini 1.5 Pro

I/O大会上，Gemini 1.5 Pro进阶版开放给开发者，进阶后，最大支持上下文窗口从100万Tokens升级到200万，同时支持35种语言。现在可以分析比以前更长的文档、代码库、视频和音频录音。此外，Gemini 1.5 Pro还能够实现处理更加复杂和细微的指示，包括指定产品级行为的指示，如角色、格式和风格等。

更高效率、更低时延Gemini 1.5 Flash

于此同时，为了满足用户对低延迟和低成本的需求，谷歌首先带来轻量化模型Gemini 1.5 Flash。它基于“蒸馏”技术，专为大规模服务设计，速度更快、成本低至0.35美元/百万Tokens。

Gemini 1.5 Flash依旧支持100万和200万Tokens两个版本，适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等需要快速处理的任务。

为了反击OpenAI，谷歌也在今日发布了多款多模态大模型，包括图像大模型Image 3、视频大模型Veo等。

Gemma大模型升级，开源大模型阵营再迎猛将

谷歌旗下开源大模型Gemma也在活动中迎来了重大升级。谷歌表示，即将于6月上线的Gemma 2中引入一个全新的、拥有270亿参数的模型。这是Gemma模型的下一代升级，这个庞大的模型尺寸已经由Nvidia进行了优化，确保它能够在最新的GPU上顺畅运行，并且同样在单个TPU主机和vertex AI平台上表现出色。除了这一巨大的270亿参数模型外，谷歌还计划推出PaliGemma视觉语言开放模型，这将进一步扩展Gemma 2的功能和应用范围。

文生图大模型Imagen 3

Imagen 3作为谷歌最新推出的文生图大模型，进一步增强了文本生成图片的技术能力，与其前身Imagen 2相比，Imagen 3能够更准确地理解了它翻译成图像的文本提示，使得模型产生的“干扰性工件”和错误更少，并且在生成方面更“富有创造性和细致”。谷歌还计划很快将Imagen 3模型提供给使用谷歌企业生成式人工智能开发平台Vertex AI的开发人员和企业客户，以满足更广泛的用户需求。

文生视频大模型Veo

Veo是谷歌最新的视频生成模型，正式对标Sora。Veo集成了谷歌旗下大量视觉模型的特性，具备高级的自然语言和视觉语义理解能力，可以生成长度超过1分钟，分辨率最高1080P的“高质量”视频，并具有多种视觉和电影风格。

教育模型LearnLM

针对于学习领域，谷歌还推出了LearnLM，这是一系列全新的用于学习领域的生成式AI模型。此举不仅标志着Google在AI教育领域的重大突破，同时也是对OpenAI近日针对教学辅导场景所展示能力的有力“回应”。

LearnLM的诞生是Google DeepMind AI研究部门与谷歌研究部门深入合作的结晶。谷歌表示，LearnLM模型旨在通过“对话式”的方式，为学生提供个性化的学习指导，帮助他们深入理解并掌握各种主题。这不仅将提升学生的学习效率，也将为他们带来更加丰富和有趣的学习体验。

大模型赋能的产品与场景

大模型对话产品Gemini Live

在I/O大会上，谷歌发布了基于Gemini的对话式体验产品——Gemini Live，它允许用户在智能手机上与Gemini进行“深入”的语音聊天，用来反击OpenAI日前的大模型对话演示。用户可以在聊天机器人说话时打断Gemini提出澄清问题，它将实时适应用户的语音模式。此外，Gemini还可以通过智能手机摄像头捕捉的照片或视频看到并回应用户的周围环境。

在某种程度上，Gemini Live 是 Google Lens 和 Google Assistant 的演变，前者是谷歌长期以来的计算机视觉平台，用于分析图像和视频，而后者是谷歌的人工智能驱动的语音生成和识别虚拟助手，可在手机、智能音箱和电视上使用。

值得一题的是，Live 将专属于 Gemini Advanced，其背后是谷歌One AI进阶计划，价格为20美元/月。

首个AI Agent产品——Project Astra

作为谷歌首个AI Agent产品，也是推动Gemini Live技术的创新部分，Project Astra旨在创建用于实时、多模态理解的人工智能应用程序和智能体。

在多模态方面，基于全新的音频概述功能，基于Gemini大模型打造的AI智能体，把多种内容改造成互动性的内容。例如进行沉浸式教育、智能填写购物表单、生成旅游规划等。

有别于Gemini和其他特定任务模型，Astra通过持续编码视频帧、将视频和语音输入结合到事件时间线上，并缓存信息以便高效回忆，从而实现了对信息的快速处理。

现场，谷歌不仅演示了基于手机摄像头的实时交互技术，同时还演示了利用类似于智能眼镜的语音交互，为谷歌未来的空间计算交互打下基础。

全新升级的AI搜索

谷歌正通过将Gemini大模型与其搜索引擎深度集成，预示着搜索正逐渐从用完即走的工具服务，转变为AI智能体的入口。现场，谷歌演示了通过AI搜索定制个人计划，例如“创建一个易于准备的3天的健康食谱”，提升了搜索的实用性和便捷性。这些改动不仅改变了搜索的呈现方式和服务体验，还影响了广告方式，用来应对大模型技术，对于搜索流量格局的影响。

基于同样的技术底座，全新推出的Ask Photo应用，结合谷歌Gemini，Google Photo能够识别用户对照片的深度问题，并且智能匹配基于深度理解的图片，让照片搜索体验更智能、更简单。

深度融合大模型的Android 15

谷歌也在积极将AI技术融入安卓系统，通过集成Gemini Nano这一Google生成式AI的最小版本，该功能将在未来版本的安卓系统中实现全面升级。Gemini Nano完全可在设备上运行，实时监听“与诈骗常见的对话模式”。现场还演示了当用户收到不明诈骗电话时，AI系统将自动发出警报，保障用户免受诈骗风险。总之，Gemini正在通过其强大的AI技术，为安卓用户带来更加智能、便捷的使用体验。

同时，谷歌还在安卓平台上推出了一系列全新AI功能，如“Circle to Search”，它不仅能实现跨应用搜索，还能解答数学题、图表等复杂问题。甚至可以在用户的邮件App中进行邮件总结、智能回复等操作。

此外，Gemini还具备多模态能力，用户在与朋友的信息对话中可随时召唤它生成图片，或针对YouTube教程视频、PDF文档等提出特定问题，Gemini将在数秒内给出解答。

更强大的AI开发工具

Project IDX

Project IDX是谷歌新一代以 AI 为中心的基于浏览器的开发环境，并已正式公测。随着这一更新，IDE将与谷歌地图平台集成，帮助为其应用添加地理定位功能，并与Chrome Dev Tools和Lighthouse集成，帮助调试应用程序。谷歌还将实现将应用程序部署到Cloud Run，这是Google Cloud的无服务器平台，用于运行前端和后端服务。

Firebase Genkit

作为这是 Firebase 平台的一个新成员，旨在使开发人员更轻松地在 JavaScript/TypeScript 中构建AI原生应用程序，作为一个开源框架，采用Apache 2.0许可证，使开发人员能够快速将AI集成到新应用和现有应用中。

性能提升4.7倍，第六代TPU——Trillium

除了AI软件方面的升级，谷歌还在本届I/O大会上发布了第六代TPU——Trillium。据介绍Trillium TPU峰值计算性能较v5e高出4.7倍，同时实现了高带宽内存（HBM）和芯片间互连（ICI）带宽的翻倍。这一突破性的技术配备第三代SparseCore加速器，可加速基础模型的训练过程，同时降低延迟和成本。

在扩展性方面，Trillium TPU支持单个集群扩展到256个TPU，并可通过多切片技术和Titanium IPU进一步扩展至数百个集群。Trillium将优先开放给云客户用户，以帮助他们实现AI超算效能的两倍提升。

此外，谷歌还在大会上预告，将在2025年将提供英伟达Blackwell产品，为客户提供更多选择。

大模型之家观点

在大模型之家看来，OpenAI在人工智能领域的突破，无疑引领了一个全新的时代，堪称人工智能的“iPhone时刻”。他们不仅推动了技术的飞跃，更在用户体验和产品设计上实现了革命性的创新。正如iPhone在智能手机领域开启了全新的篇章，一直以来都以其精湛的工艺和前沿的设计理念，将科技与创新完美结合，改变了人们的生活方式。而在这一点上，OpenAI同样表现出色，甚至可以说在某些方面超越了谷歌。

与此同时，谷歌虽然在科技领域拥有举足轻重的地位，但在人工智能这一领域的“iPhone时刻”上，却似乎略显滞后。谷歌更像是“iPhone时刻”之后跟随的Android，凭借其强大的技术实力和广泛的生态系统，为用户提供了多样化的选择。然而，在引领行业变革和塑造用户体验方面，谷歌似乎还需向OpenAI这样的企业学习。

谷歌全面升级的大模型、AI应用、以及开发工具中，AI搜索已经从简单的回答进化到能够为用户制定计划、满足个性化需求、组织信息，乃至进行视频搜索，为用户提供了前所未有的全面解决方案。用户只需简单地提问，AI便能接手处理后续工作，实现了中间过程的极大简化。

然而，这一技术的飞跃也不免引起人们对“AI支配人类”的担忧。当AI在代办过程中接触到用户的客户资料、邮件、通讯录等敏感信息时，无疑对用户的隐私安全构成了潜在威胁。若AI的总结或代办未能准确反映邮件的真实诉求，甚至有意误导用户的决策，那么对实际的运营结果将产生严重后果。

虽然谷歌等服务提供商可能会建议用户重新核实邮件等信息内容，但频繁地反复确认不仅耗时耗力，而且与AI技术追求的高效便捷原则背道而驰。更令人担忧的是，一些服务商在用户协议中巧妙地规避了责任，使得用户在遭遇AI误导时往往难以追究责任。

因此，尽管谷歌的AI产品看似功能强大，但用户在使用时仍需保持警惕，避免被AI所“支配”。在享受AI带来的便利的同时，我们也需要学会如何与AI共存，确保自身权益不受损害。最终，在AI时代，我们仍需要保持独立思考和判断能力，以应对可能出现的风险和挑战。