通用人工智能(AGI)领域迎来非常热闹的一天。
8月6日,OpenAI高管持续动荡,公司联合创始人之一约翰·舒尔曼(John Schulman)宣布正式离开OpenAI,转投竞争对手生成式人工智能公司Anthropic进行“人工智能对齐”研究;而公司总裁格雷格·布罗克曼(Greg Brockman)目前正享受着一段延长的休假,预计年底回归;去年加入OpenAI的产品负责人彼得·邓(Peter Deng)也已离职。
与此同时,国内AI 领域“卷”向了开源。8月6日,智谱开源清影模型CogVideoX-2B,阿里团队推出开源 AI 视频生成框架 Tora研究;面壁智能公布端侧AI多模态模型MiniCPM-V 2.6,全面对标 GPT-4V 水平。
另外,有消息指,月之暗面日前完成了超3亿美元融资,投资方包括腾讯、高榕资本和阿里等,估值达到33亿美金(约合人民币235.3亿元),成为国内规模最大的 AI 大模型公司。
钛媒体AGI简要梳理过去24小时内 AGI 行业发生的重要消息。
OpenAI比较乱套:再遭诉讼,多名安全部门高管离职
OpenAI人事动荡仍未结束。
当地时间8月5日,OpenAI的联合创始人之一约翰·舒尔曼(John Schulman)正式离开OpenAI,加入Anthropic。据报道,舒尔曼称这是因为他希望加深对人工智能安全领域的关注,并从事更多的实际技术工作。舒尔曼在推文中写到:“我相信在Anthropic我可以获得新的视角,并与那些深入研究我最感兴趣的课题的人一起做研究。没有我的加入,OpenAI和我所在的团队将继续茁壮成长。”
今年5月底,OpenAI宣布已开始研发一种新的人工智能模型,该模型将接替驱动ChatGPT的 GPT-4技术。该公司表示,预计新模型将带来“更高水平的能力”。
然而,在人工智能模型突飞猛进的同时,OpenAI本身正遭受来自同行和政府部门的大量诉讼和审查。特斯拉CEO埃隆·马斯克(Elon Musk)于5日在美国加利福尼亚州北部一家联邦法院再次向OpenAI及其首席执行官山姆·奥特曼(Sam Altman)发起诉讼,声称奥特曼等人“操纵他”共同创办了这家人工智能公司。
相关诉讼文件显示,马斯克称OpenAI正在试图建立一个“不透明的营利性关联网络”,将公司的商业利益置于公共利益之上。此外,马斯克的律师马克·托伯洛夫(Marc Toberoff)表示,新的起诉书包含更多指控,包括OpenAI违反联邦敲诈勒索法和参与“大量电信欺诈行为”的证据。
此外,据路透社近日报道,美国联邦贸易委员会(Federal Trade Commission)目前正在审查OpenAI违反消费者保护法的潜在证据。上个月,几位OpenAI内部的“吹哨人”向美国证券交易委员会(SEC)提出申诉,指控公司管理层非法限制员工谈论其人工智能技术。
最近几个月,OpenAI多位知名度较高的安全负责人也纷纷退出了公司,其中几位公开声称公司将新产品的迭代置于安全之上。
5月,OpenAI的联合创始人兼首席科学家伊利亚·苏茨克沃(Ilya Sutskever)和“超级对齐”(Superalignment)团队的扬·雷克(Jan Leike)正式从OpenAI辞职。此外,另一位联合创始人布罗克曼也于近日表示将延长休假至今年年底。
目前,OpenAI最初的11人创始团队只剩下包括奥特曼在内的两名成员。
奥特曼、马斯克和布罗克曼(Brockman)等人于2015年共同成立了OpenAI,起初作为一家非营利性实验室研发通用人工智能(AGI)。据报道,马斯克于2018年和OpenAI管理层发生权力斗争后退出,同时撤回了对该公司的资金支持。迫于资金压力,奥特曼于2019年宣布将OpenAI从非营利组织转变为有“利润上限”的营利组织,并与微软公司达成了130亿美元的融资协议。目前,这项协议正在接受欧盟反垄断组织的审查。
智谱版 Sora 开源:第一个开源的商用级视频生成模型
7 月 26 日,智谱发布AI 生视频产品「清影」,30秒将任意文图生成视频,并上线在他们的AI助手「智谱清言」上,被誉为是国内首个人人可用的Sora。发布 6 天,「清影」生成视频数就突破百万量级。
8月6日,智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型。
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。然而,截至目前,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。
CogVideoX开源模型包含多个不同尺寸大小的模型,目前智谱开源CogVideoX-2B,它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。
CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。
智谱表示,其最新开源模型为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。
“我们已经验证了scaling law在视频生成方面的有效性,未来会在不断 scale up 数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。”智谱表示。
面壁智能端侧多模态MiniCPM-V 2.6发布,实时视频理解首次上端
8月6日,面壁智能发布了端侧最强多模态模型MiniCPM-V 2.6,该模型在多方面展现出对标GPT-4V的性能,引发广泛关注。过去半年大模型风向转变,端侧模型备受青睐。面壁智能此前因被抄袭事件彰显实力,此次新模型将端侧多模态能力提升到新高度。
重要亮点如下:
超越 GPT-4V 的多模态能力:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,在多个评测榜单上取得优异成绩。
创新的技术与架构:采用统一高清视觉架构,实现能力迁移和知识共享,节省视觉 token 数量,还能进行复杂推理。
出色的性能表现:取得两倍于 GPT-4o 的单 token 编码像素密度,量化后端侧内存仅占 6GB,端侧推理速度快,支持多种语言和多种推理方式。
广泛的应用场景:能精准识别物品、计算小票金额、提炼视频关键信息、解释梗图、指导自行车车座调整等。
低幻觉率与黑科技:幻觉率低,应用面壁 RLAIF-V 和 Ultra 系列对齐技术等黑科技。
下载量与未来展望:小钢炮系列下载量已破百万,未来有望推出更多优质端侧 AI 模型,造福独立开发者和普通用户。
开源:提供了 GitHub 和 HuggingFace 的开源链接。GitHub https://github.com/OpenBMB/MiniCPM-V;HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6
面壁智能联合创始人、首席科学家,清华大学计算机系长聘副教授刘知远发朋友圈表示,将端侧智能进行到底。
零一万物:Yi API Function Call 功能上线
8月6日消息,据零一万物官方消息,Yi API 正式新增 Function Call 功能。
据零一万物表示,最新的模型 Yi-Large-FC 经过针对性训练,具备良好的深度理解能力、强大的指令遵循能力,既能根据用户的输入判断何时应调用函数,又能使用更贴近工具函数定义的 JSON 进行响应;同时完美兼容 OpenAI 的接口设计,能够丝滑“平替GPT”。
具备 Function Call 能力,意味着模型能够根据输入判断是否需要、何时调用外部工具,并输出请求调用函数的消息,包括函数信息、参数信息等。这种设计使得大模型能够与外部工具 API 有效地连接起来。
零一万物透露,Yi-Large-FC 在权威评测榜单 Berkeley Function-Calling Leaderboard (BFCL)总榜排名世界第六,优于GPT 4-Turbo、Gemini 1.5 Pro等一众海外知名头部模型,同时,该榜单上也有多款中国模型的身影出现,截至目前,Yi-Large-FC 是榜单前十中唯一一款中国模型。(2024年8月5日数据)
而在更偏向实际调用API场景、注重可执行性的 Exec 摘要得分排行中,Yi-Large-FC 得分仅次于 Claude 3.5 Sonnet,处于世界第二。
阿里团队推出AI视频框架 Tora:画圈操控物体运动轨迹
8月6日,据 GitHub 页面显示,阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。
Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。
Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高运动保真度方面表现出色,同时还能细致模拟物理世界的运动。
OpenAI 宣布今年DevDay 定档十月,不会公布 GPT-5
8月6日消息,据 TechCrunch 报道,OpenAI 表示将改变 DevDay 大会的形式,从一个大型活动转变为一系列开发者参与会议。
OpenAI还确认,它不会在 DevDay 期间发布下一款主要旗舰大模型,而是将重点放在 API 和开发者服务的更新上。
据悉,OpenAI 今年的 DevDay 活动将于 10 月 1 日在旧金山、10 月 30 日在伦敦、11 月 21 日在新加坡举行。所有活动都将包括研讨会、分组会议、OpenAI 产品和工程人员的演示以及开发者聚光灯。报名费为 450 美元,报名截止日期为 8 月 15 日。
参与大模型独角兽月之暗面3亿美元融资?腾讯和月之暗面:不予置评
8月6日消息称,腾讯参与国内大模型独角兽、Kimi智能助手公司月之暗面(Moonshot AI)3亿美元融资,这使得该公司估值提升至33亿美元。
月之暗面和腾讯方面均对该融资消息不予置评。
月之暗面创立于2023年3月,是一家致力于通用人工智能领域的国内创业公司,2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi。据天眼查,月之暗面已进行四轮融资,累计金额超百亿,成立一年估值已超200亿元。
今年5月,有市场消息称,月之暗面正在以30亿美元估值进行最新一轮融资,新入局的投资者包括腾讯、高榕创投等。这意味着,在投资MiniMax、智谱AI和百川智能之后,腾讯再次将一家大模型独角兽公司拉入自家阵营。
今年2月19日,月之暗面完成超过10亿美元融资,一举刷新国内AI领域最大单笔融资纪录,投资的资本方众多,包括红杉中国、小红书、美团、阿里等。
本轮融资过后,33亿美金(约合人民币235.3亿元)的估值,让月之暗面成为国内规模最大的 AI 大模型公司。
字节跳动推出对标快手可灵和 Sora 的“即梦 AI”,已上架苹果 App Store 及安卓应用商店
8 月 6 日消息,钛媒体AGI独家获悉,字节跳动推出的一款名为“即梦 AI”的一站式 AI 创作平台,目前已经上架到苹果 App Store 以及安卓各大应用商店。
这款 App 由剪映、醒图团队(深圳市脸萌科技有限公司)研发,采用内购模式。会员服务连续包月 69 元(单月 79 元)或连续包年每年 659 元,对应购买 505 个积分 / 月(可生成约 2050 张图片或 168 个 AI 视频)。
早前钛媒体AGI报道称,字节跳动内部将 AI 大模型设为集团P0最高级别的方向。同时,抖音、剪映等内部多个团队也在研发 AI 视频模型应用,并且形成“赛马”模式,尤其字节跳动在长视频、高动态方向上具备多个创新技术。
除了字节跳动之外,快手是中国最大的视频应用之一,上个月底向全球用户开放了其 Kling AI 文本转视频模型。其测试版可供全球用户使用,注册时只需提供电子邮件地址即可;智谱AI也在上个月推出了其视频生成模型Ying清影,而在其推出几天后,另一家初创公司生数也正式公开测试其Vidu产品,上述均包括了销售方案。
英伟达被曝每天爬超80年视频数据量,北大学术数据集也遭殃
继其最强 AI 芯片被曝量产延期、市值蒸发超 3000 亿美元之后,8月6日,英伟达又被 404 Media 曝出,在未经授权的情况下,从 YouTube、Netflix 等平台抓取视频内容,用于训练其尚未对外公布的 AI 视频模型。
内部邮件和 Slack 聊天记录显示,尽管英伟达员工对使用这些数据集的合法性和伦理问题提出了质疑,但公司管理层表示这些行为已得到高层批准,并辩称其行为符合版权法。
一位前英伟达员工(404 Media 授予匿名权以讨论英伟达内部流程)表示,员工被要求从 Netflix、YouTube 和其他来源抓取视频,以训练英伟达的 Omniverse 3D 世界生成器、自动驾驶汽车系统和「数字人」产品的 AI 模型。
值得一提的是,在 2 月末的内部讨论中,英伟达提及了其正在使用的多个数据集,其中就包括 HD-VG-130M。后者是一个包含 1.3 亿个 YouTube 视频的数据集,由北京大学的研究人员构建而成,而其使用许可证明确规定仅限于学术研究。
对此,英伟达的一位发言人在给 404 Media 的一封电子邮件中表示:“我们尊重所有内容创作者的权利,并坚信我们的模型和研究工作完全符合版权法的字面要求和精神。版权法保护特定的表达方式,但不保护事实、观点、数据或信息。任何人都可以从其他来源学习事实、观点、数据或信息,并用它们来创造自己的表达。合理使用也保护将作品用于变革性目的的权利,例如模型训练。”
马斯克带领X公司全面搬家
8月6日消息,X CEO 琳达·雅卡里诺在泄露的邮件中透露,公司将关闭旧金山总部,并将员工调迁到圣何塞和与http://x.AI共享的帕洛阿尔托办公空间。
在周一的一封邮件中,埃隆·马斯克任命的X公司CEO琳达·雅卡里诺简要通知员工,公司计划关闭已作为Twitter总部超过十年的旧金山办公室。
“经过深思熟虑,我们决定在未来几周内关闭旧金山办公室,”雅卡里诺在《财富》杂志看到的邮件中写道。“这是一个影响到很多人的重要决定,但从长远来看,这是对公司有益的。”
大约三周前,马斯克在X平台上突然宣布公司的总部将搬迁到德克萨斯州,他的其他公司SpaceX、特斯拉和无聊公司也都位于那里。今年早些时候,马斯克和X公司被Market Street大楼的业主起诉,指控其在马斯克于2022年底接管Twitter后未能支付租金。大楼业主在三月份撤回了诉讼。
雅卡里诺给X员工的通知中并未提及如马斯克上个月所称的搬迁至德州。相反,她表示,在旧金山工作的X员工将被转移到圣何塞和帕洛阿尔托的现有办公室。
“我们将努力过渡到我们在湾区的新主要办公地点,”她写道。
Twitter在2012年接管了旧金山大楼,将其作为全球总部。在马斯克成为Twitter所有者后不久,解雇了数千名员工,大楼的几个楼层实际上被关闭。超过十二个全球办公室也被关闭。马斯克还终止了公司的灵活居家办公政策,要求所有员工每天都在办公室工作。
X公司的代表未回应寻求评论的邮件。
以下是雅卡里诺周一发给员工的完整通知:
各位,
经过深思熟虑,我们决定在未来几周内关闭我们的旧金山办公室。这是一个影响到很多人的重要决定,但从长远来看,这是对公司有益的。
我们将努力过渡到我们在湾区的新主要办公地点,包括圣何塞的现有办公室和在帕洛阿尔托与XAl共享的以工程为主的新办公空间。
对于那些在旧金山工作的员工,我知道这会以不同的方式影响到你们每个人。领导层正在积极制定计划,包括为受直接影响的人提供交通安排。
进一步的信息和下一步将会在未来几周内传达。
全新人形机器人Figure 02登场,研发18个月算力提升200%
就在刚刚,一款基于英伟达、OpenAI、亚马逊创始人贝佐斯支持的全新人形机器人来了!
美东时间8月6日,估值高达26亿美元(约合人民币185.84亿元)的人形机器人公司Figure AI宣布推出全新一代Figure 02人形机器人产品,硬件和软件都进行了从零开始的重新设计,拥有灵活自如的手部和对话视觉能力,内置定制的 AI 模型可与人类直接对话,手部具有16个自由度和相当于人类力量,计算和推理能力是上一代Figure 01的3倍,即提升了200%。
同时,Figure 02内置了2.25千瓦时的电池,使运行时间增加了50%,而内置的视觉语言模型(VLM)使机器人摄像头能够进行快速的常识性视觉推理。 该公司透露,Figure 02已经在南卡罗来纳州斯帕坦堡的宝马生产线上进行了测试。
Figure AI创始人兼CEOBrett Adcock表示,Figure 02概念设计评审在2023年2月,历时18个月研发而成。他强调,“这是地球上最先进的人工智能硬件产品。”
(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
open AI高管持续动套动荡,也都为了利益。
AI的应用场景是越来越广泛了
AI领域还是很受资本市场青睐。