【科股一线拆解】字节跳动发布豆包视觉理解模型,称输入价格比行业价格低85%

通过饱和式进攻策略,字节跳动在各种大模型功能和产品上几乎都有布局。

12月18日,字节跳动旗下火山引擎在2024冬季火山引擎FORCE原动力大会上,发布了豆包视觉理解模型,据火山引擎总裁谭待介绍,豆包视觉理解模型具备更强的内容识别能力、理解和推理、视觉描述等能力。该模型输入价格为0.003元/千tokens,比行业价格低85%。

豆包大模型是字节跳动推出的AI大模型家族,包括豆包PixelDance、豆包Seaweed视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call 和向量化等多个模型。

光大证券指出,字节跳动在生成式AI竞争中采取了饱和式进攻策略,通过梳理豆包大模型矩阵可以看到,字节跳动在各种大模型功能和产品上几乎都有布局,在发力大模型与AI原生应用之外,字节跳动同时在进行AI硬件领域的探索,收购耳机品牌Oladance、发布AI玩具、智能眼镜,构建软硬件全产业链布局。

豆包虽然推出时间相对靠后一些,但是凭借大幅的营销投放,用户数量自4月起实现了飞速增长。截至11月底,豆包APP累计用户规模已成功超越1.6亿,每日平均新增用户下载量稳定维持在80万,成为全球排名第二,国内排名第一的AI APP。另据11月AI产品榜APP应用榜单,豆包当月在全球榜排名第二,仅次于ChatGPT,月活5998万,增长16.92%。

自今年2月OpenAI首次预告Sora以来,多家国内厂商也纷纷推出了视频大模型产品,视觉交互能力模型是豆包大模型矩阵中相对滞后推出的功能,2024年9月24日,火山引擎宣布推出豆包视频生成模型,2024年11月7日,豆包正式推出视频生成内测。
2024年以来国内推出的文生视频模型,图表来源:兴业证券

2024年以来国内推出的文生视频模型,图表来源:兴业证券

西部证券指出,视觉输入占据人类交互信息的绝大多数,视觉能力是大模型能力的核心。在12月上半月连续的12场发布会中,OpenAI正式发布了Sora Turbo并投入商用,该系统可以根据文本提示生成最长达20秒、最高分辨率1080p的视频,并且具备混合、重新编辑、分镜板、循环、风格预设等多种更加实用的功能。海通证券指出,Sora Turbo的发布代表AI视频模型的技术水平和商业化进入到了新时期,未来发展速度有望持续提升。
机构看好的视频大模型可能受益方向整理

机构看好的视频大模型可能受益方向整理

风险提示:技术研发不及预期;市场竞争加剧;应用端需求不及预期。

科股宝VIP由钛媒体App与北京商报联合推出,相关数据及信息已获得北京商报授权。 风险提示:本产品内容仅供参考,不构成投资建议。投资有风险,入市需谨慎。
科股一线拆解

扫描下载App