AGI领域热闹的一天：美国OpenAI高层比较乱套，国内“卷”开源到没朋友-钛媒体官方网站

OpenAI高管继续动荡，联合创始人之一约翰·舒尔曼（John Schulman）宣布正式离开OpenAI；与此同时，国内AI公司智谱、阿里等“卷”向了开源；另有消息指，月之暗面完成估值33亿美元的一轮融资，成为国内规模最大的 AI 大模型公司。

通用人工智能（AGI）领域迎来非常热闹的一天。

8月6日，OpenAI高管持续动荡，公司联合创始人之一约翰·舒尔曼（John Schulman）宣布正式离开OpenAI，转投竞争对手生成式人工智能公司Anthropic进行“人工智能对齐”研究；而公司总裁格雷格·布罗克曼（Greg Brockman）目前正享受着一段延长的休假，预计年底回归；去年加入OpenAI的产品负责人彼得·邓（Peter Deng）也已离职。

与此同时，国内AI 领域“卷”向了开源。8月6日，智谱开源清影模型CogVideoX-2B，阿里团队推出开源 AI 视频生成框架 Tora研究；面壁智能公布端侧AI多模态模型MiniCPM-V 2.6，全面对标 GPT-4V 水平。

另外，有消息指，月之暗面日前完成了超3亿美元融资，投资方包括腾讯、高榕资本和阿里等，估值达到33亿美金（约合人民币235.3亿元），成为国内规模最大的 AI 大模型公司。

钛媒体AGI简要梳理过去24小时内 AGI 行业发生的重要消息。

OpenAI比较乱套：再遭诉讼，多名安全部门高管离职

OpenAI人事动荡仍未结束。

当地时间8月5日，OpenAI的联合创始人之一约翰·舒尔曼（John Schulman）正式离开OpenAI，加入Anthropic。据报道，舒尔曼称这是因为他希望加深对人工智能安全领域的关注，并从事更多的实际技术工作。舒尔曼在推文中写到：“我相信在Anthropic我可以获得新的视角，并与那些深入研究我最感兴趣的课题的人一起做研究。没有我的加入，OpenAI和我所在的团队将继续茁壮成长。”

今年5月底，OpenAI宣布已开始研发一种新的人工智能模型，该模型将接替驱动ChatGPT的 GPT-4技术。该公司表示，预计新模型将带来“更高水平的能力”。

然而，在人工智能模型突飞猛进的同时，OpenAI本身正遭受来自同行和政府部门的大量诉讼和审查。特斯拉CEO埃隆·马斯克（Elon Musk）于5日在美国加利福尼亚州北部一家联邦法院再次向OpenAI及其首席执行官山姆·奥特曼（Sam Altman）发起诉讼，声称奥特曼等人“操纵他”共同创办了这家人工智能公司。

相关诉讼文件显示，马斯克称OpenAI正在试图建立一个“不透明的营利性关联网络”，将公司的商业利益置于公共利益之上。此外，马斯克的律师马克·托伯洛夫（Marc Toberoff）表示，新的起诉书包含更多指控，包括OpenAI违反联邦敲诈勒索法和参与“大量电信欺诈行为”的证据。

此外，据路透社近日报道，美国联邦贸易委员会（Federal Trade Commission）目前正在审查OpenAI违反消费者保护法的潜在证据。上个月，几位OpenAI内部的“吹哨人”向美国证券交易委员会（SEC）提出申诉，指控公司管理层非法限制员工谈论其人工智能技术。

最近几个月，OpenAI多位知名度较高的安全负责人也纷纷退出了公司，其中几位公开声称公司将新产品的迭代置于安全之上。

5月，OpenAI的联合创始人兼首席科学家伊利亚·苏茨克沃（Ilya Sutskever）和“超级对齐”（Superalignment）团队的扬·雷克（Jan Leike）正式从OpenAI辞职。此外，另一位联合创始人布罗克曼也于近日表示将延长休假至今年年底。

目前，OpenAI最初的11人创始团队只剩下包括奥特曼在内的两名成员。

奥特曼、马斯克和布罗克曼（Brockman）等人于2015年共同成立了OpenAI，起初作为一家非营利性实验室研发通用人工智能（AGI）。据报道，马斯克于2018年和OpenAI管理层发生权力斗争后退出，同时撤回了对该公司的资金支持。迫于资金压力，奥特曼于2019年宣布将OpenAI从非营利组织转变为有“利润上限”的营利组织，并与微软公司达成了130亿美元的融资协议。目前，这项协议正在接受欧盟反垄断组织的审查。

智谱版 Sora 开源：第一个开源的商用级视频生成模型

7 月 26 日，智谱发布AI 生视频产品「清影」，30秒将任意文图生成视频，并上线在他们的AI助手「智谱清言」上，被誉为是国内首个人人可用的Sora。发布 6 天，「清影」生成视频数就突破百万量级。

8月6日，智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX开源，以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型。

随着大型模型技术的持续发展，视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术，正在重新定义行业的未来格局。然而，截至目前，仍未有一个开源的视频生成模型，能够满足商业级应用的要求。

CogVideoX开源模型包含多个不同尺寸大小的模型，目前智谱开源CogVideoX-2B，它在FP-16精度下的推理仅需18GB显存，微调则只需要40GB显存，这意味着单张4090显卡即可进行推理，而单张A6000显卡即可完成微调。

CogVideoX-2B的提示词上限为226个token，视频长度为6秒，帧率为8帧/秒，视频分辨率为720*480。

智谱表示，其最新开源模型为视频质量的提升预留了广阔的空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

“我们已经验证了scaling law在视频生成方面的有效性，未来会在不断 scale up 数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。”智谱表示。

面壁智能端侧多模态MiniCPM-V 2.6发布，实时视频理解首次上端

8月6日，面壁智能发布了端侧最强多模态模型MiniCPM-V 2.6，该模型在多方面展现出对标GPT-4V的性能，引发广泛关注。过去半年大模型风向转变，端侧模型备受青睐。面壁智能此前因被抄袭事件彰显实力，此次新模型将端侧多模态能力提升到新高度。

重要亮点如下：

超越 GPT-4V 的多模态能力：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，在多个评测榜单上取得优异成绩。
创新的技术与架构：采用统一高清视觉架构，实现能力迁移和知识共享，节省视觉 token 数量，还能进行复杂推理。
出色的性能表现：取得两倍于 GPT-4o 的单 token 编码像素密度，量化后端侧内存仅占 6GB，端侧推理速度快，支持多种语言和多种推理方式。
广泛的应用场景：能精准识别物品、计算小票金额、提炼视频关键信息、解释梗图、指导自行车车座调整等。
低幻觉率与黑科技：幻觉率低，应用面壁 RLAIF-V 和 Ultra 系列对齐技术等黑科技。
下载量与未来展望：小钢炮系列下载量已破百万，未来有望推出更多优质端侧 AI 模型，造福独立开发者和普通用户。
开源：提供了 GitHub 和 HuggingFace 的开源链接。GitHub https://github.com/OpenBMB/MiniCPM-V；HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6

面壁智能联合创始人、首席科学家，清华大学计算机系长聘副教授刘知远发朋友圈表示，将端侧智能进行到底。

零一万物：Yi API Function Call 功能上线

8月6日消息，据零一万物官方消息，Yi API 正式新增 Function Call 功能。

据零一万物表示，最新的模型 Yi-Large-FC 经过针对性训练，具备良好的深度理解能力、强大的指令遵循能力，既能根据用户的输入判断何时应调用函数，又能使用更贴近工具函数定义的 JSON 进行响应；同时完美兼容 OpenAI 的接口设计，能够丝滑“平替GPT”。

具备 Function Call 能力，意味着模型能够根据输入判断是否需要、何时调用外部工具，并输出请求调用函数的消息，包括函数信息、参数信息等。这种设计使得大模型能够与外部工具 API 有效地连接起来。

零一万物透露，Yi-Large-FC 在权威评测榜单 Berkeley Function-Calling Leaderboard (BFCL)总榜排名世界第六，优于GPT 4-Turbo、Gemini 1.5 Pro等一众海外知名头部模型，同时，该榜单上也有多款中国模型的身影出现，截至目前，Yi-Large-FC 是榜单前十中唯一一款中国模型。（2024年8月5日数据）

而在更偏向实际调用API场景、注重可执行性的 Exec 摘要得分排行中，Yi-Large-FC 得分仅次于 Claude 3.5 Sonnet，处于世界第二。

阿里团队推出AI视频框架 Tora：画圈操控物体运动轨迹

8月6日，据 GitHub 页面显示，阿里团队最新推出了 AI 视频生成框架 Tora，同时集成了文本、视觉和轨迹条件用于生成视频，是基于轨迹导向的扩散变换器（DiT）技术。

Tora 由一个轨迹提取器（TE）、一个时空 DiT 和一个运动引导融合器（MGF）组成：TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中，以生成遵循轨迹的连贯视频。

Tora 无缝契合 DiT 设计，支持制作最长 204 帧、720P 分辨率的视频，可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高运动保真度方面表现出色，同时还能细致模拟物理世界的运动。

OpenAI 宣布今年DevDay 定档十月，不会公布 GPT-5

8月6日消息，据 TechCrunch 报道，OpenAI 表示将改变 DevDay 大会的形式，从一个大型活动转变为一系列开发者参与会议。

OpenAI还确认，它不会在 DevDay 期间发布下一款主要旗舰大模型，而是将重点放在 API 和开发者服务的更新上。

据悉，OpenAI 今年的 DevDay 活动将于 10 月 1 日在旧金山、10 月 30 日在伦敦、11 月 21 日在新加坡举行。所有活动都将包括研讨会、分组会议、OpenAI 产品和工程人员的演示以及开发者聚光灯。报名费为 450 美元，报名截止日期为 8 月 15 日。

参与大模型独角兽月之暗面3亿美元融资？腾讯和月之暗面：不予置评

8月6日消息称，腾讯参与国内大模型独角兽、Kimi智能助手公司月之暗面（Moonshot AI）3亿美元融资，这使得该公司估值提升至33亿美元。

月之暗面和腾讯方面均对该融资消息不予置评。

月之暗面创立于2023年3月，是一家致力于通用人工智能领域的国内创业公司，2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi。据天眼查，月之暗面已进行四轮融资，累计金额超百亿，成立一年估值已超200亿元。

今年5月，有市场消息称，月之暗面正在以30亿美元估值进行最新一轮融资，新入局的投资者包括腾讯、高榕创投等。这意味着，在投资MiniMax、智谱AI和百川智能之后，腾讯再次将一家大模型独角兽公司拉入自家阵营。

今年2月19日，月之暗面完成超过10亿美元融资，一举刷新国内AI领域最大单笔融资纪录，投资的资本方众多，包括红杉中国、小红书、美团、阿里等。

本轮融资过后，33亿美金（约合人民币235.3亿元）的估值，让月之暗面成为国内规模最大的 AI 大模型公司。

字节跳动推出对标快手可灵和 Sora 的“即梦 AI”，已上架苹果 App Store 及安卓应用商店

8 月 6 日消息，钛媒体AGI独家获悉，字节跳动推出的一款名为“即梦 AI”的一站式 AI 创作平台，目前已经上架到苹果 App Store 以及安卓各大应用商店。

这款 App 由剪映、醒图团队（深圳市脸萌科技有限公司）研发，采用内购模式。会员服务连续包月 69 元（单月 79 元）或连续包年每年 659 元，对应购买 505 个积分 / 月（可生成约 2050 张图片或 168 个 AI 视频）。

早前钛媒体AGI报道称，字节跳动内部将 AI 大模型设为集团P0最高级别的方向。同时，抖音、剪映等内部多个团队也在研发 AI 视频模型应用，并且形成“赛马”模式，尤其字节跳动在长视频、高动态方向上具备多个创新技术。

除了字节跳动之外，快手是中国最大的视频应用之一，上个月底向全球用户开放了其 Kling AI 文本转视频模型。其测试版可供全球用户使用，注册时只需提供电子邮件地址即可；智谱AI也在上个月推出了其视频生成模型Ying清影，而在其推出几天后，另一家初创公司生数也正式公开测试其Vidu产品，上述均包括了销售方案。

英伟达被曝每天爬超80年视频数据量，北大学术数据集也遭殃

继其最强 AI 芯片被曝量产延期、市值蒸发超 3000 亿美元之后，8月6日，英伟达又被 404 Media 曝出，在未经授权的情况下，从 YouTube、Netflix 等平台抓取视频内容，用于训练其尚未对外公布的 AI 视频模型。

内部邮件和 Slack 聊天记录显示，尽管英伟达员工对使用这些数据集的合法性和伦理问题提出了质疑，但公司管理层表示这些行为已得到高层批准，并辩称其行为符合版权法。

一位前英伟达员工（404 Media 授予匿名权以讨论英伟达内部流程）表示，员工被要求从 Netflix、YouTube 和其他来源抓取视频，以训练英伟达的 Omniverse 3D 世界生成器、自动驾驶汽车系统和「数字人」产品的 AI 模型。

值得一提的是，在 2 月末的内部讨论中，英伟达提及了其正在使用的多个数据集，其中就包括 HD-VG-130M。后者是一个包含 1.3 亿个 YouTube 视频的数据集，由北京大学的研究人员构建而成，而其使用许可证明确规定仅限于学术研究。

对此，英伟达的一位发言人在给 404 Media 的一封电子邮件中表示：“我们尊重所有内容创作者的权利，并坚信我们的模型和研究工作完全符合版权法的字面要求和精神。版权法保护特定的表达方式，但不保护事实、观点、数据或信息。任何人都可以从其他来源学习事实、观点、数据或信息，并用它们来创造自己的表达。合理使用也保护将作品用于变革性目的的权利，例如模型训练。”

马斯克带领X公司全面搬家

8月6日消息，X CEO 琳达·雅卡里诺在泄露的邮件中透露，公司将关闭旧金山总部，并将员工调迁到圣何塞和与http://x.AI共享的帕洛阿尔托办公空间。

在周一的一封邮件中，埃隆·马斯克任命的X公司CEO琳达·雅卡里诺简要通知员工，公司计划关闭已作为Twitter总部超过十年的旧金山办公室。

“经过深思熟虑，我们决定在未来几周内关闭旧金山办公室，”雅卡里诺在《财富》杂志看到的邮件中写道。“这是一个影响到很多人的重要决定，但从长远来看，这是对公司有益的。”

大约三周前，马斯克在X平台上突然宣布公司的总部将搬迁到德克萨斯州，他的其他公司SpaceX、特斯拉和无聊公司也都位于那里。今年早些时候，马斯克和X公司被Market Street大楼的业主起诉，指控其在马斯克于2022年底接管Twitter后未能支付租金。大楼业主在三月份撤回了诉讼。

雅卡里诺给X员工的通知中并未提及如马斯克上个月所称的搬迁至德州。相反，她表示，在旧金山工作的X员工将被转移到圣何塞和帕洛阿尔托的现有办公室。

“我们将努力过渡到我们在湾区的新主要办公地点，”她写道。

Twitter在2012年接管了旧金山大楼，将其作为全球总部。在马斯克成为Twitter所有者后不久，解雇了数千名员工，大楼的几个楼层实际上被关闭。超过十二个全球办公室也被关闭。马斯克还终止了公司的灵活居家办公政策，要求所有员工每天都在办公室工作。

X公司的代表未回应寻求评论的邮件。

以下是雅卡里诺周一发给员工的完整通知：

各位，

经过深思熟虑，我们决定在未来几周内关闭我们的旧金山办公室。这是一个影响到很多人的重要决定，但从长远来看，这是对公司有益的。

我们将努力过渡到我们在湾区的新主要办公地点，包括圣何塞的现有办公室和在帕洛阿尔托与XAl共享的以工程为主的新办公空间。

对于那些在旧金山工作的员工，我知道这会以不同的方式影响到你们每个人。领导层正在积极制定计划，包括为受直接影响的人提供交通安排。

进一步的信息和下一步将会在未来几周内传达。

全新人形机器人Figure 02登场，研发18个月算力提升200%

就在刚刚，一款基于英伟达、OpenAI、亚马逊创始人贝佐斯支持的全新人形机器人来了！

美东时间8月6日，估值高达26亿美元（约合人民币185.84亿元）的人形机器人公司Figure AI宣布推出全新一代Figure 02人形机器人产品，硬件和软件都进行了从零开始的重新设计，拥有灵活自如的手部和对话视觉能力，内置定制的 AI 模型可与人类直接对话，手部具有16个自由度和相当于人类力量，计算和推理能力是上一代Figure 01的3倍，即提升了200%。

同时，Figure 02内置了2.25千瓦时的电池，使运行时间增加了50%，而内置的视觉语言模型（VLM）使机器人摄像头能够进行快速的常识性视觉推理。该公司透露，Figure 02已经在南卡罗来纳州斯帕坦堡的宝马生产线上进行了测试。

Figure AI创始人兼CEOBrett Adcock表示，Figure 02概念设计评审在2023年2月，历时18个月研发而成。他强调，“这是地球上最先进的人工智能硬件产品。”

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）