抢人、抢数据 AI原生应用“难产”困局-钛媒体官方网站

如果2023年只能选一个科技热词，那一定是大模型。这一年，围绕大模型，个人、企业乃至国家，都陷入愈发剧烈的变革中。它的影响力已经远超技术范畴，成为全球技术、产业和国际竞争的综合战场。2024年，我们站在未来之门前，共同面对AI、算力、国力之争的新时代挑战。

图片来源@视觉中国

钛媒体注：本文来源于微信公众号IT时报（ID：vittimes），作者 | 贾天荣，编辑 | 潘少颖孙妍，钛媒体经授权发布。

自ChatGPT发布以来，大模型风潮在国内外如雨后春笋般涌现。

从百模大战的火热到如今对原生应用的推崇，短短一年间，大模型经历了千山万水的“奇妙征程”。

2023年3月16日，百度率先发布首个和ChatGPT竞争的大模型“文心一言”，截至10月，国内已经涌现出了238个大模型，几乎每一天都有新的大模型问世。2023年第一季度，超过17万家中国AI企业如涌泉般冒了出来。

然而，与竞争激烈的赛道形成鲜明对比的是，基于大模型的应用产品却寥寥无几。

过去几个月，无数互联网巨头反复强调AI原生应用的重要性。百川智能创始人、CEO 王小川认为，大模型的创业核心，是好技术如何匹配产品；360集团创始人周鸿祎表示，360的人工智能战略用四个字形容就是“两翼齐飞”，先占据应用场景，同步全力发展核心算法技术；李彦宏更是直言不讳：“中国的大模型很多，但是基于大模型开发出来的AI原生应用却非常少。”

其实大厂们也并非“光说不练”，今年下半年，百度一口气发布超过20款AI原生应用；腾讯云推出高性能应用服务 HAI，号称10分钟开发专属AI应用；字节跳动成立新部门Flow发力AI应用层……但事实是，截至目前，相比国外动辄千百个大热的AI原生应用，国内真正称得上火热的应用仍然“难产”。

如此现状不得不让人追问，AI原生应用，究竟还要跨过几道坎？

变现之难：赚取真金白银的门槛提高

如何赚钱，是每一家人工智能公司无法回避的问题。

身处大模型赛道，即使是“家大业大”的大厂，也面临着“大象难以转身”的问题。零一万物CEO李开复曾表示，大厂的优势是资源多、GPU多、人多、钱多、数据多，但大厂们有一个挑战：很难放弃已有的商业模式。“开发一个新应用需要克服两个主要问题：一是要超越已有的大型应用，这非常困难；二是要开发新的应用取代旧的应用，就像一家公司很难在拥有QQ的同时再开发一个微信一样，因为已有的平台价值巨大，不愿意放弃。在这种情况下，创业公司虽然没有丰富的资源，但他们的优势在于没有历史包袱。”

然而，创业者们的处境同样艰难，事实证明，像OpenAI那样直接面向C端用户的模式，在国内市场面临着巨大的挑战，因为国内C端用户的付费意愿相对较弱。因此，更多的大模型创业公司选择为特定垂直行业，如医疗、金融、法律等开发专门的解决方案，为不同行业提供定制化的大模型服务，为B端客户提供服务并收取费用。

这些公司需要面对To B型产品的固有问题，包括依赖高续约率、回款周期长等，对于“烧钱如烧纸”的大模型赛道，无疑提高了门槛。

北京开放传神科技有限公司创始人、CEO陈冉在接受媒体采访时表示，国内应用都在试图产生价值，但很少实现盈利，做数字人的“小作坊”倒是真挣钱了。

更雪上加霜的是，随着企业在大模型领域布局的时间越长，需要的资本就越多，融资轮次越多，投资人对于企业在技术实力和盈利转化能力方面的要求就越严苛。

多位接受《IT时报》采访的业内人士表示，当前投资人对于大模型赛道初创公司的热情正在“降温”。与过去“井喷期”投资者慷慨解囊不同，现在投资者在考虑投资大模型项目时，会对市场需求、技术实力、商业模式以及团队能力等方面进行更为全面的评估，他们对于“投概念”和“产生收入”的容忍期正在缩短。

量子位智库发布的《2023十大AI商业落地趋势》显示，今年上半年，国内约有二十家大模型公司获得超过60亿元的融资，全球金额占比仅为6%，国内实际交易金额较少。

“目前的环境是雷声大雨点小，公司多收入少。”北京医者信息科技有限公司CEO刘呈辉此前在接受《IT时报》记者采访时表示，国内应用层能产生实际应用和实际收入的场景和公司还非常少，相比之下，有自己的垂直模型、场景能挣到钱的公司，才能真正获得投资者青睐。

数据之争：高质量数据成本高、获取难

近日，谷歌发布的Gemini新模型陷入数据使用争议，据称其中文部分使用了文心一言进行训练，这一事件引发了全球关于大模型数据短缺问题的广泛讨论。

无论是原生应用还是其底层基础大模型，数据至关重要。然而，高质量的语料匮乏已成为限制这一领域发展的关键瓶颈之一。

业内人士指出，尽管公有数据如互联网上的信息易于获取，但质量和针对性往往难以满足专业模型的需求。

相比之下，私有数据具有高度的专业性和针对性，对于训练精准的垂直类模型具有极高的价值。

以医疗数据为例，获取高质量的数据集至关重要，但由于医疗数据的获取和标注需要大量的人力、物力和时间，因此其成本相对较高，获取的渠道也十分有限。这类数据不仅难以在互联网上找到，而且由于涉及个人隐私，获取和使用也需遵守严格的法规和伦理标准。

浦因科技（上海）有限公司首席科学家秦兴虎告诉《IT时报》记者，在其所负责的医学大模型项目中，团队初期购买了英国生物银行的公共数据进行大模型训练，这些数据主要来自欧洲人群。为确保模型在国内的普适性，他们还需要使用中国人群的数据来更新和训练模型，这在无形中增加了项目成本。

对于国内企业而言，他们还面临着即使有钱也难以购买到合适数据的困境。中文语料库的内容相对匮乏，进一步加剧了数据获取的挑战。

因此，对于企业来说，如何合法、有效地获取和使用高质量数据，将其转化为模型训练、开发AI原生应用的宝贵资源，确实是一个重要的战略问题。

人才之困：5个岗位争夺2个人才

AI原生应用作为大模型产业的核心产品，在研发和落地试错过程中面临诸多不确定性。人才成为决定成功与否的关键因素，也成了现阶段大模型竞争中的重要砝码。

关于国内人工智能人才的储备，回顾中国的大模型产业发展史，可以发现“清华系”的身影无处不在。

当国内对人工智能的研究还是一片空白的时期，清华大学最早开出的人工智能课程，也孕育出了目前国内人工智能领域的熠熠群星。无论是王小川还是智浦AI联合创始人唐杰，抑或欲打造“中国版OpenAI”光年之外的原美团联合创始人王慧文，都来自这里。

在此轮大模型创业背后的投资方中，“清华系”的创投者们也颇为瞩目，包括图灵创投、卓源资本、清华控股、水木清华校友种子基金、无限基金SEE Fund等清华系创投机构也频频出手。

尽管如此，必须看到的是，由于大模型技术门槛较高，国内大模型人才主要分布在少数顶尖高校和科研机构，人才短缺问题日益严重，许多创业公司甚至面临着招聘困难。

“现在国内做基座类模型的人才90%都出自清华，国内真正会调模型、训练模型的甚至不超过200个人。”刘呈辉表示，由于行业本身的人才储备有限，加上大模型的突然“火爆”，人才短缺问题显得尤为突出，如果不在高校具备一定的人才资源，创业公司连招人都会变得很困难。

知名咨询公司麦肯锡一份关于人工智能的报告显示，预计2030年中国对AI专业人员的需求将增至2022年的6倍，人才缺口将达到400万人。

据脉脉高聘11月发布的《2023人工智能人才洞察》报告显示，2023年1—8月，人工智能新发岗位量已与2022年全年持平。2022年人工智能行业人才供需比为0.63，而2023年1—8月下探至0.39，相当于5个岗位要争夺2个人才。

图源：脉脉高聘

可以看到，AI原生应用“难产”的背后，面临着变现之难、数据之争和人才之困等多重挑战。Gartner发布的《2023年中国数据分析和人工智能技术成熟度曲线》指出，当前国内生成式AI技术仍处于“期望膨胀期”。只有当整个AI行业在“期望膨胀期”中保持谨慎，才能意识到将大模型的潜能转化为创新应用尚需克服不小的挑战。