GPT-4o发力端侧应用,OpenAI更在乎情绪价值

钛度号
在这场“全面升级”的大模型商战中,谷歌如何还击?相信很快就会揭晓。

文 | 大模型之家

5月13日,OpenAI春季发布会上,CTO Mira Murati代表公司向世界发布了ChatGPT旗舰版本GPT-4o。整场发布会上OpenAI运用了大量的篇幅,去介绍GPT-4o在移动端段与人类交互的先进程度,通过现场与GPT-4o交流、歌唱、实时解题等形式,强调了新模型多模态场景下的应用。

官方表示,在GPT-4o推出之前,用户使用语音模式与ChatGPT进行对话时,延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒,GPT-4o将这一延迟被大幅缩短为320毫秒。

这是因为传统语音模式通过三模型实现:音频转文本,GPT-3.5/GPT-4处理文本,再文本转音频。但GPT-4会丢失信息,因其无法直接处理语调、多说话者、背景噪音,且不能输出笑声、歌唱或情感。而GPT-4o通过端到端训练了一个全新的模型,能够同时处理文本、视觉和音频输入输出。这意味着所有的输入和输出都由同一个神经网络处理。

多模态升级,GPT要做人类知音?

GPT-4o在性能和效率方面进行了显著优化。得益于改进的模型架构和训练方法,GPT-4o在处理复杂任务时展现出更高的准确性和更快的响应速度。OpenAI表示,GPT-4o的推出将为用户带来前所未有的体验,显著提升自然语言处理、对话系统、数据分析和编程辅助等领域的应用效果。

根据官网信息,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上也达到了新高水位线。

  • 文本评价:

在文本处理方面,GPT-4o在0-shot CoT(Chain of Thought) MMLU(常识问题)等测试中,取得了88.7%的高分,刷新了纪录。这种表现表明GPT-4o在无提示情况下依然能够进行复杂的推理和回答问题。此外,在传统的5-shot no-CoT MMLU测试中,GPT-4o也创下了87.2%的新高分。这些评估结果均通过新的评估库进行,确保了测试的可靠性和权威性。这些改进不仅提升了模型的推理能力,还增加了其在广泛任务中的适用性。

  • 音频ASR性能:

在音频处理方面,相比Whisper-v3,GPT-4o在自动语音识别(ASR)性能上实现了大幅提升,特别是在资源匮乏的语言中,其表现尤为突出。这意味着GPT-4o不仅能够处理主流语言,还能在更多语言环境下提供高质量的语音识别服务。

  • 音频翻译性能:

同时,在语音翻译方面,GPT-4o也树立了新的行业标准,在MLS基准测试中表现优于Whisper-v3,展示了其在跨语言沟通和翻译方面的卓越能力。

  • M3Exam零样本结果:

在多语言和视觉评估方面,GPT-4o在M3Exam基准测试中,在所有语言的测试中均表现优异。这表明GPT-4o不仅在单一语言环境下表现出色,还能够处理多语言环境下的复杂任务,充分展示了其强大的跨语言理解和处理能力。

  • 视频理解评估:

在视觉理解方面,GPT-4o在多个视觉感知基准上实现了最先进的性能。这些基准测试包括0-shot的MMMU、MathVista和ChartQA等,这意味着GPT-4o在无样本学习的情况下依然能够保持高水平的视觉理解和推理能力。这种能力使GPT-4o在处理图像、图表和复杂视觉信息时表现出色,进一步拓展了其在实际应用中的潜力。

GPT-4o在多个技术领域实现了显著的性能提升。多模态能力让GPT-4o在更多的应用场景中具有更高的实用性。此外,OpenAI提供了便捷的API接口,使得开发者可以轻松将GPT-4o集成到自己的应用中。此外,GPT-4o支持多种平台和编程语言,进一步提升了其使用的灵活性和便利性。

发力端侧应用,OpenAI更在乎情绪价值

纵观整场发布会,OpenAI的表现并想要非突出技术带来行业变革,而是让人工智能技术除了在商业领域为企业带来的提质增效,也更能够服务好人们日常的生活。

或许这也是Sam Altman选择更有亲和力的女性CTO Mira Murati来主持本次发布会的原因之一。

除了实时语音对话功能,研发负责人Barret还带来了GPT-4o在实时处理数学问题的高光表现。Barret手写了一个方程,并通过摄像头将其拍给GPT-4o,并让其进行在线指导。在语音助手的一步步指引下,Barret也是非常轻松的解决了该问题。

此外,OpenAI还展示了GPT-4o在代码、实时翻译等多种问题,尽管还是在有些测试是出现了错误,但整个发布会都在一个非常轻松的环境下进行。不仅让企业或研究团队有了新的研究方向和参考,也让更多C端用户感受到AI赋予的全新产品体验。

在PC端,OpenAI 推出了一款新的 macOS 应用,旨在简化工作流程。该应用适用于免费和付费用户,可无缝集成到用户在计算机上的操作中。通过简单的键盘快捷键,用户可以立即向 ChatGPT 提问,并在应用程序中截取屏幕截图进行讨论。

对于 Plus 用户来说,这款 macOS 应用将提供更多的功能和服务。而未来几周内,OpenAI 还计划将该应用推广到更广泛的用户群体,并计划在今年晚些时候推出适用于 Windows 平台的版本,以满足不同用户的需求。

大模型之家认为,在人工智能领域的商业化进程中,C端市场占据了至关重要的地位。OpenAI作为一家领先的AI公司,对C端市场的用户体验给予了高度的重视,这种重视不仅是为了满足用户需求,更是为其在C端市场的进一步商业化探索铺平了道路。

在C端市场,用户需求多样化且变化迅速,因此也更佳需要智能、人性化的用户体验,不仅要优化模型算法,也要提升交互界面的友好性和易用性,确保用户在使用其产品时能够享受到流畅、自然的交互体验。

值得注意的是,OpenAI在2024年谷歌I/O大会前一天选择“截胡”,不仅体现了OpenAI对于C端多模态大模型市场的重视,也透露出OpenAI在大模型商业竞争格局中的积极态度和战略眼光。

这一行动无疑为OpenAI赢得了更多的行业声量。在科技行业中,声量往往与影响力、市场份额和商业化潜力紧密相连。OpenAI通过这一策略,成功吸引了大量用户和媒体的关注,进一步巩固了其在AI技术领域的领先地位。

更重要的是,OpenAI的这一行动也直接指向了C端多模态大模型的入口。随着技术的不断进步和应用场景的不断扩展,多模态大模型已经成为AI领域的重要发展方向。它不仅能够处理文本、图像、音频等多种信息形式,还能够实现更加智能、自然的人机交互,为用户带来更加便捷、丰富的体验。因此,谁能够抢占多模态大模型的入口,谁就有可能在未来的市场竞争中占据先机。

从大模型商业竞争格局来看,GPT-4o的免费开放无疑加剧了行业内的竞争,也展示出了其对于商业扩张的“野心”。显然,谷歌、Meta等科技巨头不会坐以待毙,在这场“全面升级”的大模型商战中,谷歌如何还击?相信很快就会揭晓。

本文系作者 大模型之家 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 当一个具有划时代意义的工具、 技术产生的时候,你应该做什么 ? 第一, 抓紧时间努力得到属于自己的这个新工具或者技术 ; 第二, 如果做不到第一点,那么,努力去尽可能掌控这个新工具、技术将要作用于的对象,以此来掌握利用这个工具、技术的“主动权”,而不被这个工具或技术所挟持 。 [咖啡][握手]

    回复 5月16日 · via iphone

快报

更多

20:29

新疆电力中长期年度交易首破千亿千瓦时,新能源占比近三成

20:27

本周20家上市公司公告披露回购增持再贷款相关情况

20:21

12月22日新闻联播速览16条

20:17

超20家A股上市公司本周披露并购重组最新公告

20:16

爱科赛博:陕西省集成电路产业投资基金拟减持不超1%公司股份

20:15

专家:金融体系需适应性调整,发展科技金融和多层次资本市场,满足科技创新融资需求

19:09

宏柏新材:两股东拟合计减持不超4.97%公司股份

19:01

中信建投策略陈果:跨年行情进行时,AI+是中期主线

18:54

肖钢:加强金融AI算法和模型治理

18:44

墨西哥总统:相信国会明年将禁止在该国种植转基因玉米

18:32

星巴克员工在纽约等四个美国城市扩大罢工

18:31

国泰集团行政总裁林绍波:希望明年航点数量增至超过100个

18:14

“女子实名举报前公公”,农发行通报:未发现巨额财产来源不明问题

18:04

香港餐饮业界:冬至生意额料达4亿胜预期,预计圣诞元旦市道乐观

17:51

信息发展:交信基金的实际控制人尚未发生变更

17:38

“第三次世界大战是否正在进行”?普京回应

17:35

外交部:中方决定对加拿大2家机构及20名机构人员采取反制措施

16:43

新希望:向特定对象发行股票申请获深交所受理

16:42

2025年就业援助月专项活动启动,将开展摸排走访、精准帮扶

16:38

中金公司:港股市场整体呈震荡格局

1

扫描下载App