导读:
- 与Sora、DALL-E、Midjourney等主流多模态模型不同,VideoWorld通过浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力,是业界首创。
- 该模型属于学术研究项目,目前并未应用至产品端,在真实世界环境中的应用也还面临着高质量视频生成和多环境泛化等挑战。
- 纯视觉模型昭示AI脱离人类自主学习潜力,有望激活“视觉市场”,加速推进智能硬件落地。
- 在技术端,VideoWorld或使视频转码、视觉算法、视觉系统、ISP芯片等技术发展受益;在应用端,助力机器人、自动驾驶、AI眼镜等纯视觉场景下的模型训练,还可二次开发、灵活部署加速模型优化。
- 长期来看,国产大模型“算法创新+开源生态”有望构建一条联合创新之路,AI基础模型加快创新,AI应用部署门槛降低以及成本带动应用繁荣,催化推理算力需求快速增长,软件企业合作趋势也将强化。
全文:
不依靠语言模型,业界首款仅通过视觉信息即可认知世界的实验模型诞生。继DeepSeek开源R1模型后,国产大模型阵营再迎创新与开源。
近日,豆包发布视频生成实验模型“VideoWorld”,与Sora、DALL-E、Midjourney等主流多模态模型不同,它通过浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。这一创新推动了视频生成技术和多模态认知研究的进展。
VideoWorld模型架构概览:左为整体架构,右为潜在动态模型;图片来源:豆包
VideoWorld基于一种潜在动态模型(LDM),可高效压缩视频帧间的变化信息,在保留丰富视觉信息的同时,压缩关键决策和动作相关的视觉变化,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,它达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。
该项目代码与模型已开源。有字节内部人士透露,VideoWorld视觉模型属于学术研究项目,是在探索新的技术方法,目前并未应用至产品端。需指出,豆包的VideoWorld并不完美,在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。
现有多模态模型大多依赖语言或标签数据学习知识,但语言描述往往难以捕捉真实世界中的复杂信息。
视觉认知是指通过视觉系统对周围环境进行感知、理解和解释的能力,在人工智能领域,视觉认知赋予机器通过图像和视频数据来理解和解释世界的能力,使机器能够像人类一样“看”和“理解”周围的环境,是人工智能迈向更高智能水平的关键一步。
仅仅依靠图片视频即可训练,纯视觉模型昭示AI脱离人类自主学习潜力,智能硬件落地或加速推进。民生证券认为,视觉认知世界的能力有望激活以视频监控、智能家居摄像头等为代表的“视觉市场”,使其在视频大模型的能力催化下获得收益。
AI视觉技术可实现对商品盗窃的侦测及客流分析;图片来源:开源证券
慧博云通研报显示,纯视觉模型有望助力机器人、自动驾驶等纯视觉场景下模型的训练。在机器人领域,AI视觉技术可以实现对机器人操作环境的视觉认知和理解,提高机器人的自主性和智能化水平。在自动驾驶领域,VideoWorld的技术可以提升车辆对环境的理解和决策能力,为更安全的自动驾驶系统提供支持。
当前,中国机器视觉行业正处于高速成长阶段。根据CBInsight数据,中国已是继美国、日本之后的第三大机器视觉领域应用市场。而据高工机器人产业研究所(GGII)预测,至2025年全球机器视觉市场规模将超过1200亿元;2025年我国机器视觉市场规模将达到468.74亿元。
此外,综合多家机构观点,VideoWorld的出现将在技术端使视频转码、视觉算法、视觉系统、ISP芯片等技术发展受益,在应用端还可能为AI眼镜注入新的发展机遇。
对于AI眼镜行业自身而言,核心环节在于推理芯片、AI模型、显示技术等,VideoWorld开源或显著提高应用厂商AI模型能力,还可二次开发、灵活部署,加速智能眼镜模型优化。
近期,小米AI眼镜已获得入网许可。消息称小米AI眼镜原定于3月至4月发布,现计划提前至2月,与小米15 Ultra同台亮相。消费电子纳入国补,也有望强化政策对AI眼镜的消费刺激预期。
继OpenAI闭源后,大模型厂商呈现闭源趋势,直至DeepSeek将高性价比的R1模型开源。浙商证券认为,长期来看,国产大模型“算法创新+开源生态”有望构建一条联合创新之路,推动中国AI领先。未来大模型若能形成繁荣的开源生态,AI基础模型有望加快创新,AI应用部署门槛降低以及成本带动应用繁荣,并催化推理算力需求快速增长;在推理端,软件企业合作趋势也将强化。
风险提示:AI产业发展不及预期;下游互联网巨头资本开支下滑;AI商业化产品发布不及预期;政策不确定性带来的风险;上游供应不及预期。