【科股一线拆解】字节跳动发布豆包视觉理解模型，称输入价格比行业价格低85%-钛媒体官方网站

12月18日，字节跳动旗下火山引擎在2024冬季火山引擎FORCE原动力大会上，发布了豆包视觉理解模型，据火山引擎总裁谭待介绍，豆包视觉理解模型具备更强的内容识别能力、理解和推理、视觉描述等能力。该模型输入价格为0.003元/千tokens，比行业价格低85%。

豆包大模型是字节跳动推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call 和向量化等多个模型。

光大证券指出，字节跳动在生成式AI竞争中采取了饱和式进攻策略，通过梳理豆包大模型矩阵可以看到，字节跳动在各种大模型功能和产品上几乎都有布局，在发力大模型与AI原生应用之外，字节跳动同时在进行AI硬件领域的探索，收购耳机品牌Oladance、发布AI玩具、智能眼镜，构建软硬件全产业链布局。

豆包虽然推出时间相对靠后一些，但是凭借大幅的营销投放，用户数量自4月起实现了飞速增长。截至11月底，豆包APP累计用户规模已成功超越1.6亿，每日平均新增用户下载量稳定维持在80万，成为全球排名第二，国内排名第一的AI APP。另据11月AI产品榜APP应用榜单，豆包当月在全球榜排名第二，仅次于ChatGPT，月活5998万，增长16.92%。

自今年2月OpenAI首次预告Sora以来，多家国内厂商也纷纷推出了视频大模型产品，视觉交互能力模型是豆包大模型矩阵中相对滞后推出的功能，2024年9月24日，火山引擎宣布推出豆包视频生成模型，2024年11月7日，豆包正式推出视频生成内测。

2024年以来国内推出的文生视频模型，图表来源：兴业证券

西部证券指出，视觉输入占据人类交互信息的绝大多数，视觉能力是大模型能力的核心。在12月上半月连续的12场发布会中，OpenAI正式发布了Sora Turbo并投入商用，该系统可以根据文本提示生成最长达20秒、最高分辨率1080p的视频，并且具备混合、重新编辑、分镜板、循环、风格预设等多种更加实用的功能。海通证券指出，Sora Turbo的发布代表AI视频模型的技术水平和商业化进入到了新时期，未来发展速度有望持续提升。

机构看好的视频大模型可能受益方向整理

风险提示：技术研发不及预期；市场竞争加剧；应用端需求不及预期。

【科股一线拆解】字节跳动发布豆包视觉理解模型，称输入价格比行业价格低85%

关注喜欢的作者

参与互动讨论

作品投稿