文 | 蓝鲨硬科技
自2023年3月成立起,中国通用人工智能(AGI)公司“月之暗面”(MoonShot AI)便不断凭借优秀的大模型产品及获得的巨额市场融资引发广泛关注。
成立后,月之暗面就迅速完成首轮融资,获得红杉中国、真格基金等一线VC的押注。2023年10月,成立仅半年的月之暗面宣布在“长文本”领域实现了突破,推出了首个支持输入20万汉字的智能助手产品Kimi Chat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着月之暗面在这一重要技术上达到了世界领先水平。
近日,月之暗面又完成了超10亿美元新一轮融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。这是国内AI大模型公司迄今获得的单轮最大金额融资。成立不到一年,月之暗面估值已达约25亿美金,已成为国内大模型领域的头部企业之一。
而缔造这个传奇故事的传奇人物,正是这家公司的主要创始人——杨植麟。他是年轻的学院派创业者,创业的同时,也是清华大学交叉信息学院助理教授、智源青年科学家。2015年从清华计算机系毕业后,杨植麟前往美国卡内基梅隆大学攻读博士,师从苹果 AI 研究负责人 Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen。其学术论文在华人学者引用排名中位居前10,在40岁以下排名第一。
据传,去年三四月份,字节跳动创始人张一鸣频繁约人补课 AI,其中最为瞩目的就是他频频请教“后生”杨植麟。而去年6月,科技媒体The Information盘点了中国AI初创企业Top5,分别为MiniMax、澜舟科技、智谱AI、光年之外(已被美团收购)以及杨植麟。作为唯一一位以个人身份入榜的选手,可见杨植麟在自研语言处理(NLP)领域有相当大的影响力。
如今才31岁的杨植麟,是如何一路走出开挂般的生涯的?
01 独立自主成长,初显编程天赋
出生于1993年的杨植麟是广东汕头人。得益于父母开放的教育理念,杨植麟的成长环境一直拥有很大的自主性。从小到大,几乎所有重要选择,都是他自己决定的。没有学业分数枷锁的杨植麟,曾一度梦想成为摇滚明星或是流浪诗人,玩便痛快玩、学便认真学是他一贯的作风。
杨植麟高中就读于汕头金山中学。金山中学的学习方式相对人性化,拥有丰富多元的社团活动,也宽容学生个性的存在,给了杨植麟许多自由成长的空间。高中期间,杨植麟就展露出自己的天分,在没有任何编程基础的情况下,被选拔入信息学奥林匹克竞赛培训班,并在全国青少年信息学奥林匹克联赛中夺得广东赛区一等奖,因此获得了清华大学保送生资格。
02 深耕学术界,青年科学家的诞生,入读清华,追求极致
进入清华大学后,为了探索更多可能性,杨植麟一开始学的并不是计算机专业。大二时,杨植麟发觉自己对计算机的兴趣更为浓厚,随后转入计算机系。
村上春树一本小说中有一个程序员的角色,杨植麟对深夜写代码让技术落地这件事印象深刻,并充满憧憬。在当时的他看来,计算机领域特别是人工智能技术,是发展最活跃的领域之一,具有重要的现实意义,用写代码改变世界、行侠仗义也很酷。而后来发生的一切,让他觉得转到计算机系是生命中最正确和重要的决定。
在清华园里,杨植麟一直被光环笼罩,许多院系的师生都耳闻他的大名。在校期间,杨植麟成绩保持年级第一,10门专业课取得满分,所有专业课成绩在90分以上;获邀在国际顶级期刊发表论文,并以一作身份在国际顶级会议WSDM和CIKM发表论文,提出的算法被腾讯、华为等企业应用;在DREAM9全球癌症预测大赛获得第一名,为提升癌症治愈率做出了贡献。
指导杨植麟创造这段辉煌历史的,是清华大学计算机系的唐杰教授。唐教授是中国人工智能和大模型领域颇具话语权和声量的学术领军人物,彼时全球最大的万亿级超大规模预训练模型悟道2.0正是由唐教授主导开发的。对于杨植麟而言,唐教授不仅是学术领路人,还是自己人生的精神导师。他一直记得唐教授常常强调的“咖啡”精神:“做学问要像喝咖啡一样上瘾。”他们对做学问都饱含着带有终极价值色彩的纯粹热爱。
而另一位恩师,大多数时候则在镁光灯之外。她是清华大学计算机系教学办主任马昱春教授。在杨植麟转系初期,有一段比较迷茫的时光,马教授为他分析了情况、提出了建议,并将他推荐给了唐杰教授。马教授始终关心着杨植麟的工作生活,在许多关键时间点都给了他十分重要的帮助。
在计算机系,杨植麟不仅拥有领路的恩师,还结识了很多志同道合的挚友,在研究生涯中并肩战斗、互相打气。杨植麟回忆当时在学校参加的比赛,最有趣的一次是阿里巴巴天池平台组织的一个数据挖掘比赛。比赛结束前的最后一个晚上,杨植麟团队在public leaderboard上是第二名,和第一名只差了千分之几。当天晚上,杨植麟团队加了很多feature并优化了模型,然而,因为没控制好内存,凌晨进行的一个实验导致服务器崩溃,许多文件丢失,时间紧迫抢救失败,没能拿下第一。虽然有遗憾,但每个比赛的过程,对于杨植麟都很有意义。
清华大学对杨植麟最深的影响就是追求极致的理念和行胜于言的精神。高手云集的赛场,容易遇到强者,杨植麟的应对方式正是找准一个方向做深度探索,而不是一味追求广度;同时,他认为要着重探索从做研究的“言”到实际应用的“行”的转化,将理论和技术相结合。这成为他后续研究学习和创业历程中的精神引领。
繁重的学业之余,杨植麟没有放弃自小对音乐的热爱,组建了校园摇滚乐队Splay,当起了鼓手和词曲作者。乐队名字取自数据结构Splay Tree,乐队不仅参加了校内大型演出,还晋级了校园歌手大赛复赛。
当时的杨植麟和伙伴们感受着来自现实的压力和来自大环境的荒诞感,音乐成为他们表达情绪的出口。他们的一首原创歌曲描写了一个创业成功、一夜暴富的白日梦,虽是与圈子里很多做着阶级跨越努力的人们共情,但也想表达对自己不要成为过于功利的人的希望。
杨植麟打破了世俗中对“学神”标签化的刻板认识,在学术研究的沉静和摇滚音乐的活力间切换自如,积极投身不同文化、不同领域的交流活动,书写了优秀的成绩单。在清华大学2014本科生特等奖学金答辩现场,他的亲友团拉出助力横幅:“计原网原积本求原,滚奏压奏鸾鸣凤奏”,正是他清华生涯的生动写照。
赴美深造,一路“开挂”
完成本科阶段学业后,杨植麟前往美国卡内基梅隆大学攻读博士,师从苹果首任AI总监 Ruslan Salakhutdinov 和谷歌首席科学家 William W. Cohen,并曾经效力于谷歌大脑研究院和Facebook人工智能研究院,与多位图灵奖得主合作发表论文。
博士期间,杨植麟取得了一系列令人惊叹的科研成果:在ICLR、NeurIPS、ICML等顶级会议发表论文二十余篇,2017、2018年连续入选机器学习和自然语言处理领域的论文发表统计数据一作全球排行榜(全球仅有三名学者两年皆入选);先后以一作身份,发表 Transformer-XL 和 XLNet 两项工作,谷歌学术被引次数近两万;Transformer-XL 成为首个全面超越 RNN 的注意力语言模型,XLNet则在20项任务上超越谷歌BERT模型;荣获Nvidia先锋研究奖、Facebook ParlAI研究奖、Nvidia奖学金等。杨植麟以及团队的研究曾经在半监督学习、自然语言理解的十余个标准数据集上取得世界第一,并同时在所有六个主流语言建模数据集上保持世界纪录(State-of-the-Art, SotA),产生了广泛的影响力。
这些战果背后,是日积月累的沉淀和细水长流的付出。许多科研人员或许都和杨植麟一样,经历过睡觉、走路时都在思考如何解决实验问题的情形。杨植麟经常与同学朋友探讨相关研究,而很多灵感会在这些讨论中闪现,比如HotpotQA就是他和朋友在纽约的一家火锅店迸发出的想法。
杨植麟博士期间的两位导师都是“科学家加盟大厂”的典型。导师之一的Ruslan Salakhutdinov和杨植麟一样,在年轻时便展露出了在机器学习领域的天才,就读博士期间便成为深度学习历史上最重要的标志性论文之一——发布在Nature杂志上的《Reducing the Dimensionality of Data with Neural Networks》的第二作者。
另一位导师William W. Cohen曾是国际机器学习学会主席,凭借优秀的论文成果获得2008 the SIGMOD "Test of Time" Award和the 2014 SIGIR "Test of Time" Award,持有七项关于信息集成和机器学习的专利,并发表了200多篇论文。
两位导师一直活跃在科技前沿领域,与杨植麟一起完成了多项研究,共同提出了瞄准softmax瓶颈问题的新方法Mixtape等,是优秀的技术贡献者。而在与导师研学的过程中,他意识到两位老师更多的是在做基础研究工作、赋能大厂业务,而不是推动AI落地,引发了他后续进行创业的想法。
2019年,杨植麟仅花费4年时间便从卡内基梅隆大学博士毕业,而这所大学计算机专业的博士生往往要经过六年才能毕业。在他看来,能够在如此短的时间内毕业,最重要的是快速迭代。科研工作中,不可能每个想法都正确,他说:“我之前有个规律,就是把我的所有结果都写到Google Spreadsheet 里面,然后就发现每当写四五百行或者1000行,就会有一个positive的结果。所以这就意味着,产出结果的速度,取决于你迭代的速度,你要迭代得足够快,才有可能快速地出结果。”
03 逐鹿大模型,打破学术与工业的壁垒
博士毕业后,杨植麟放弃了任教美国斯坦福和普林斯顿的可能和Google、Facebook、华为等大厂的高薪offer,毅然选择回国创业。
他说:“我最喜欢的一句话就是‘下君尽人之能,中君尽人之力,上君尽人之智’。创业你可以通过招很多很厉害的人,并且有一个组织化的方式让他们各尽其才,以此来实现指数增长。”
首次创业,创立“循环智能”(Recurrent.AI)
2016年,杨植麟尚在博士二年级,就开启了他的第一次创业,与几位朋友联合创立了自然语言处理领域的AI独角兽企业——“循环智能”(Recurrent.AI)。公司主要业务是运用NLP、语音、多模态、大模型等AI技术打造“销售科技”方案,2020年获得了由红杉中国领投的1200万美元融资。
循环智能致力于分析企业与客户的沟通数据,判断客户的成单意向,归纳出最有效的沟通话术,提升整个企业销售流程的转化率。与大厂产品相比,大厂一般都是通用的接口,不会对客户产生直接的价值,而循环智能使用了Transformer-XL算法,提供了一个端到端的解决方案。
2021年,循环智能与华为云合作开发了千亿级NLP大模型盘古大模型,涉及NLP、CV等多个方向,在部分实际场景中达到了优于Bert与GPT系列的效果。同时,杨植麟还抽身主导了智谱AI、智源研究院、清华研究团队的多个AI项目。此外,杨植麟入选了北京智源人工智能研究院公布的2019 年度“智源青年科学家” 名单,在所有入选者中,他是最年轻的、也是唯一的“90 后”。
在参与华为云盘古大模型开发和智源研究院悟道大模型研发的过程中,杨植麟更加确定了创业的想法:“这两段经历,让我了解了大模型研发过程中各种可能的问题,并且积累了经验。但是这种合作方式也让我意识到,你可能只有自己创建一家公司才能真正意义上去实现这个目标。”
再次创业,创立“月之暗面”(MoonShot AI)
2023年3月,杨植麟最喜欢的一张专辑——英国摇滚乐队平克·弗洛伊德的《The Dark Side of the Moon(月之暗面)》,发布50周年;同月,杨植麟创办的第二家同名公司“月之暗面”(MoonShot AI)成立。月球的暗面在地球人的目光难以企及之处,象征着神秘与未知,而这家公司的愿景就是探索人工智能领域的未知。
月之暗面吸纳了许多出色的人才:除了杨植麟,两位联合创始人周昕宇和吴育昕也出身清华。团队包括来自Google、Meta、Amazon等巨头的海外人才,许多团队成员有训练超大模型的经验,参与了 Google人工智能模型 Gemini 、国内最早的大模型悟道、盘古等系统的开发工作;此外,还有拥有几亿DAU产品经验的成员加入。
杨植麟希望通过高密度的人才环境和高水平的组织力量,打造出一个快速迭代的组织机器,能够快速基于现有开发能力和未来发展出的技术,创造出更好的产品。凭借杨植麟团队的学术能力和创业实践背景,月之暗面成为了投资机构竞相追逐的明星项目。
而杨植麟也没有让人工智能行业和资本市场失望,月之暗面成立半年后推出的Kimi Chat,在文本处理长度上遥遥领先,成为全球市场上最具竞争力的大模型服务之一。
04 初心向未来,期待“登月”革新成果
成立月之暗面,杨植麟的初心是探索未知、与用户共创通用化的应用场景以及创造个性化的普惠AI。月之暗面希望比OpenAI更关心用户,注重客户体验,跨越信任障碍,通过用户的交互过程以及用户数据的scale up超越base model自身。
杨植麟认为,随着AI技术的成熟,未来的AI产品将不再依赖于微调,而是通过强大的上下文一致性和指令跟随能力来实现个性化。他相信,用户跟模型的交互历史就是最好的个性化过程。
根据《网络安全法》实名制要求,请绑定手机号后发表评论
成立不到一年的团队,产品力可以做到这个程度,我认为是难能可贵的
循环智能半死不活,换了个名字叫月之暗面,还是同一帮人
它后台调用的大模型,多半还是gpt,就是套了层壳
现在月之暗面有什么公开的成果吗
月之暗面出品的Kimi Chat挺好用的,个人体验下来基本位于国产对话大模型的前列