三位清华少年交卷，支持20万字输入“长文本”大模型-钛媒体官方网站

图片来源：视觉中国

翻看本轮大模型创业者的名单，“清华系”占据半壁江山。

清华东门外的搜狐网络大厦，二层是王小川的百川智能，七层到十一层是来自清华知识工程研究室（KEG）的智谱AI。距离这里不远的地方，是聆心智能、深言科技与澜舟科技等明星创业公司。

这一次又是清华系。

近日，三位清华系创业者发布了一款支持20万字输入的“长文本”大模型Kimi Chat，这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。

相较于Anthropic的Claude-100k模型支持约8万字，OpenAI的GPT-4-32k支持约2.5万字，Kimi Chat分别是他们的2.5倍和8倍。

同时，Kimi Chat通过创新的网络结构和工程优化，在千亿参数下实现了无损的长程注意力机制，但不依赖于滑动窗口、降采样、小模型等常见的对性能损害较大的“捷径”方案。

三位清华少年，融资超20亿

2023 年 3 月，杨植麟、周昕宇、吴育昕三位清华出身的少年，创立了通用人工智能（AGI）公司“月之暗面”（英文名MoonShot AI）。Moonshot的名字，源自于他们最喜欢英国著名摇滚乐队Pink Floyd的专辑《Dark Side of the Moon》。

在创始人杨植麟看来，做大模型如同登月工程一样，“月之暗面”意味着神秘，令人好奇和向往，同时又极具挑战难度。

相较于王小川、周明这些大模型创业“老炮儿”而言，杨植麟在公众中的知名度稍逊，但是在AI 圈和创投圈眼中，他的能力并不逊色。

杨植麟是典型的学院派创业者，根据机器之心此前的报道，2015 年从清华计算机系毕业后，前往美国卡内基梅隆大学攻读博士，师从苹果 AI 研究负责人 Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen。

博士期间，不仅与图灵奖得主、深度学习三巨头之一Yoshua Bengio合作发布“火锅问答”数据集HotpotQA。还先后以一作身份，发表 Transformer-XL 和 XLNet 两项工作，谷歌学术被引次数近两万。Transformer-XL 成为首个全面超越 RNN 的注意力语言模型，论文成为 NeurIPS 2019 与 ACL 2019 的最高引论文之一；XLNet 则在 20 项任务上超越谷歌 BERT 模型。

砺思资本创始合伙人曹曦表示，“杨植麟是全球大模型领域里最被认可的华人技术专家，其团队在人工智能技术，特别是大语言模型LLM领域拥有深厚的技术积累，并已在国际上获得了广泛认可。”

团队方面，MoonShot AI的联合创始人周昕宇负责算法，同样是清华计算机系学生，毕业后加入旷世，与旷视研究院基础科研负责人、ResNet作者之一张祥雨一道，研究移动端模型，以共同一作的身份撰写ShuffleNet论文，被CVPR接受。

另一位联合创始人吴育昕和杨植麟一样，毕业于清华和CMU，研究方向为计算机视觉中的检测和识别问题。曾就职于Meta，与AI大神何恺明共同提出组归一化（GN）的方法，并创建了detectron2，这是Meta最受欢迎的AI项目之一。

此外，团队中非常多的成员有训练超大模型的经验，包括参与了 Google 的下一代多模态模型 Gemini 的核心开发；在 Google 训练大几千亿参数的经验；也包括国内最早的大模型悟道、盘古的原班人马。

还有成员参与开发过一些世界上非常领先的技术，这些技术在很多大家耳熟能详的模型或产品里得到了使用，比如像 Stable Diffusion 里面有一个非常关键的模块，叫 group normalization，是MoonShot AI团队的成员作为第一作者开发的。

不光是技术人才，产品方面，也吸纳了非常出色的一些人，包括有过几亿 DAU 的产品经验，很多有从 0 到 1 产品经验的天才加入。

“我们希望通过这种很高的人才密度以及组织力量，能够打造一个很快迭代的组织机器，让人才能够快速基于我们现有和未来发展出的技术，开发出比较好的产品。”杨植麟向钛媒体表示。

Moonshot AI 成立以来，累计已经获得近 20 亿元融资，投资方包括红杉资本、今日资本、砺思资本等知名投资机构，估值超过3亿美元。

20万字“长文本”，闭源模型

“长文本技术是大模型‘登月计划’的第一步。”杨植麟表示。

大模型应用效果通常取决于两个核心指标，一是模型参数量，决定了大模型的“计算”能力；二是能够接收多少文本输入，即长文本技术，决定了大模型的“内存”能力。 Moonshot AI在千亿参数模型的基础上，重点突破了长文本技术的挑战。

“目前市场面上对于长文本技术路线，几乎都是在牺牲一部分性能前提下的‘捷径’。”在杨植麟看来，他总结了三类不同的开发路径：

“金鱼”模型，容易“健忘”。通过滑动窗口等方式主动抛弃上文，只保留对最新输入的注意力机制。模型无法对全文进行完整理解，无法处理跨文档的比较和长文本的综合理解。例如，无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。
“蜜蜂”模型，只关注局部，忽略整体。通过对上下文的降采样或者RAG（检索增强的生成），只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如，无法从50个简历中对候选人的画像进行归纳和总结。
“蝌蚪”模型，模型能力尚未发育完整。通过减少参数量（例如减少到百亿参数）来提升上下文长度，这种方法会降低模型本身的能力，虽然能支持更长上下文，但是大量任务无法胜任。

杨植麟认为，简单的捷径无法达到理想的产品化效果。因此，Moonshot AI 的技术路线，就是不走捷径，踏实地解决算法与工程的双重挑战，在算力、存储、带宽等技术层面做了极致的优化。

Moonshot AI 专注 ToC ，现在最高优先级的任务是在 C 端找到产品、技术以及市场的方向。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。

杨植麟展示了在不同场景下Kimi Chat的长文本能力。比如，提炼重点信息的能力，上传一本《月亮与六便士》作品的内容，梳理作品重点内容，并绘制人物和人物命运的表格。
视觉中国2

上传财报pdf文档后，可以汇总关键信息：

图片来源：视觉中国1

发现新的算法论文时，根据论文复现代码：

上传多张发票信息后，自动将发票绘制成表格：

无需粘贴文本，只需要一串网址就可以解析一篇文章的重点信息：
公众号

只需要一个网址，就可以和自己喜欢的原神角色聊天：

“目前Moonshot AI 是闭源开发。”在杨植麟看来，像 OpenAI 一样的闭源是通往 Super APP（超级应用）的唯一通路，而开源只是 ToB 的获客手段，凡要做 C 端超级 APP 的，都是闭源。

杨植麟认为，大模型未来会分为ToB 和 ToC两个不同的阵营，他会坚定的走在 ToC 阵营，ToC 会有头部的。 Super APP出现，这些 Super APP 一定是基于自研的模型做出来的，因为需要在用户体验上能够有差异化，我是希望能在 Super APP 里面去占领一个比较好的位置。

杨植麟并未透露很多细节，但表示最终考验的是技术上能否做到领先，产品上能否快速找到市场PMF，这还是一个巨大的空白市场。（本文首发钛媒体App，作者 | 郭虹妘，编辑｜陶天宇）

三位清华少年交卷，支持20万字输入“长文本”大模型

三位清华少年，融资超20亿

20万字“长文本”，闭源模型

敬原创，有钛度，得赞赏