大模型应用之困与异军突起的“埃森哲们”-钛媒体官方网站

文 | 硅谷101

上周Anthropic发布了Claude 3.5 Sonnet的升级，让AI助手能够通过"电脑使用"功能直接与计算机交互。这意味着Claude可以实现自动搜索文件、截取屏幕画面、在应用程序间切换并执行基本任务。这些看上去很基础的操作也许代表着生成式AI的重要转折：从单纯的对话助手，向真正的"自主代理"迈进——这正是包括OpenAI、谷歌在内的各大公司都在努力的方向。

Claude.ai 图源：官网

就在AI能力不断突破的同时，真实的商业世界却呈现出一个有趣的反差：在这轮生成式AI浪潮中最赚钱的公司，竟然是以埃森哲为代表的传统咨询公司。据埃森哲2024财年财报显示，其生成式AI相关业务的新增订单已达30亿美元。在国内市场，字节、阿里和智谱等基座大模型供应商也在扮演着类似的角色。

在这期《硅谷101》中，我们邀请到了大模型领域的投资人和创业者：华映资本海外合伙人邱谆（Jonathan Qiu）和AgentQL联合创始人翟琦（Keith Zhai），请他们从投资人和创业者的双重视角，探讨大模型应用落地的挑战，以及尝试从“人工智能”的定义出发，聊聊投资人眼里应用类公司的核心竞争力。

在本期对话中，两位嘉宾深入剖析了当前AI应用遭遇的困境：当前的AI应用正处于"两个月大的婴儿"阶段，整个生态系统尚未成型。最关键的是，与互联网时代相比，AI时代缺少了类似浏览器这样的操作系统层，导致应用与底座模型之间的边界模糊。这直接影响了纯应用公司的生存空间——它们既要考虑产品体验，又要思考如何获取和利用数据来构建自己的护城河。

在这种情况下，两位嘉宾认为机会可能存在于三个方向：首先是多模态，因为这些领域需要自主研发底座模型，更容易形成技术壁垒；其次是在特定垂直领域深耕，用专业领域数据打造差异化优势；最后则是基础设施层面，帮助企业落地AI应用——这也解释了为什么咨询公司能在这波浪潮中占得先机。

以下是部分访谈精选

01 "相当于两个月的婴儿"：AI创业还处于不确定的风口

《硅谷101》：我们播客从2022年就在报道生成式AI，那时还是扩散模型的文生图时代，ChatGPT还没发布。请问大家在投资创业过程中，跟随这波AI浪潮的心态变化？

Keith：我们从去年下半年开始。这个行业太早期了，大多数公司是在ChatGPT3.0前后才开始关注。现在大家认为上一代AI和现在的AI是完全不同的两种东西。

它就像一个两个月大的小娃娃，每天都在成长。比如刚开始时，大家谈论的agent其实完全不同。你说的可能是聊天机器人，我说的可能是动作模型，或者是工作流程自动化。这就像村上春树说的"当我在跑步的时候你在想什么，没人知道你在说什么"。

《硅谷101》：Keith，听众可能记得你之前华尔街日报记者时讲东南亚诈骗的那期节目。现在你是以AI创业者身份参与，想知道你选择AI创业时怎么想的？当时市场是什么样？对比今天，在心态、融资、行业认知上最大的变化是什么？

Keith：我之前做了20年记者。选择转行有很多原因，其中一个是我问了一个朋友，他是国内某大型上市公司的创始人。在酒吧里他告诉我：“这是范式革命（paradigm shift），像电器一样不是某个行业的改变，是整个社会的改变。当你认为这是范式革命时，不需要想做什么，需要的是进去开始做。”我用过很多上一代AI语言模型产品，它们都远不如人类写作。但第一次用GPT-3时，我内心非常震撼。

《硅谷101》：现在感受如何？

Keith：就像一直在水里扑腾。我们去年到今年上半年一直在stealth隐身模式。刚完成A轮，但从没感觉上过岸。这个行业变化太快了，跟过去不是一个量级，它对效率是根本性调整。过去做完A轮可能觉得要上岸了，但现在融资上几个亿的公司最后也都不行。所以上岸很难用融资阶段来界定。

《硅谷101》：作为一位投资人和AI领域的专家，Jonathan你觉得从ChatGPT出现到现在，生成式AI的投资浪潮有什么重大变化？

Jonathan：从核心上看并没有根本转变，因为投资的目的始终是商业化。不过我现在在思考一个问题，纯应用可能存在风险，需要一定的技术整合能力。以ChatGPT为例，它是一个垂直整合的应用，既有应用层也有很强的底层能力。

说到agent，我之前在南加大读博士时就研究agent，当时叫"多智能体协作"。那时人工智能有多个分支：机器学习、神经网络、agent、自然语言处理和计算机视觉。我没有选择机器学习和神经网络，但后来这两个方向结合形成了深度学习，成为了整个领域的驱动力。现在的agent与当年最大的区别在于，现在都是围绕深度学习展开的。

多智能体协作示意图图源：吴恩达

从第一波机器视觉，包括无人驾驶、人脸识别，到今天的大模型，都是围绕深度学习展开。在深度学习的范畴内，我们对应用的要求比以前要高。以前分为看应用和看模型两派，但实际上这两派是一致的，我们都会关注这两个方面。

目前我们发现应用没有大爆发，这导致底座模型也面临挑战。作为平台，它必须让上层生态在各个垂直场景大规模落地才能体现价值。但现在GPT最常用的反而是它自己的应用。

02 创业公司商业化掣肘：有没有私有化的数据？

《硅谷101》：你提到应用还没有大爆发。比如我自己用ChatGPT写采访提纲和节目笔记时，它的表现还不够理想。这是AI能力的问题吗？

Jonathan：是的，这直接关系到AI的底层能力。我认为有以下几点：

首先是底层能力，就像互联网时代的思科提供网络连接能力一样。现在的大语言模型虽然已经很不错了，但基础设施还不够完善。

其次是操作系统(OS)。互联网时代有浏览器作为OS，正是Netscape浏览器的出现，才让思科的基础设施价值充分体现，各种网页应用才开始爆发。移动互联网则有iOS和Android。

但AI时代的OS是什么？OpenAI尝试用GPTs做OS，问题是应用层和底层模型的界限并不清晰。拿Jasper这样的应用来说，很多功能GPT本身就能实现。而且应用层的数据和底座模型的数据往往非常相似。

这种界限不清晰还体现在：当用户问了一个问题得到答案时，很难判断这个答案是由底座提供的还是由应用提供的。这和互联网应用不同，比如Uber上哪些功能是iOS提供的，哪些是Uber自己提供的是很清晰的。

《硅谷101》：关于界限不清晰这点，我有不同看法。以Google的Notebook LM为例，表面上它看起来像GPT，但实际上它的功能很独特。它能处理长文本并生成精确的总结，甚至能把播客内容转换成研究报告。它抓取关键点和细节的能力非常强，比很多记者的水平都高。这可能是基于Gemini的底层模型能力，特别是在长文本处理方面。

Jonathan：这正是我想说的特点，你很难区分一个功能到底是应用层的贡献还是底层模型的能力。AI应用与互联网应用不同，它需要两条线：一是产品设计，二是数据能力。产品设计让用户体验流畅，这是互联网产品经理的强项；数据能力则通过微调和RAG来增强底层模型。

以Notebook LM为例，虽然它现在表现出色，但如果是第三方公司用Gemini开发类似应用，核心竞争力就不会那么强，因为长期来看还是要看底层模型的能力。这就是AI原生时代与互联网时代的本质区别，数据的重要性变得前所未有的高。

NotebookLM，图源：谷歌

单纯应用积累数据后，要考虑怎么跟底座结合，是用微调还是RAG，甚至需要预训练。要跟底座深度整合，或者自研一些底座支撑。像Perplexity这样的公司就是开始比较轻的。

《硅谷101》：你说所有的应用公司最终都要发展底层模型，这是必然趋势吗？

Jonathan：在当前技术架构下，创业公司似乎别无选择。因为你需要不断积累数据来维护护城河，而数据越来越多后，你要考虑如何跟底座模型结合，是继续用微调，还是用RAG，还是有些数据更适合预训练。不管是微调还是RAG，都需要底座模型的支持，尤其是当你想做得更好时。如果你想走得长远，建立高门槛的护城河，就必须与底座模型做更深度的结合，或者开始自研训练。

Keith：我非常同意数据这一点。数据质量非常重要，结构化数据和非结构化数据会带来不同的产品效果。

《硅谷101》：Jonathan你对人工智能有自己的定义，能和大家分享一下吗？特别是为什么数据如此重要？

Jonathan：人工智能的历史从1950年代达特茅斯会议就开始了，包括agent（智能体）、自然语言处理、机器学习、神经网络等多个分支。但我定义的产业化人工智能是从2012年开始的，核心就是深度学习。

2012年之前，所有计算机科学包括传统人工智能都依赖人写算法，有句话叫“人工智能有多智能主要看有多少人”。就像我从小开始就写代码，所有事情都要靠程序员一行行敲代码。但2012年AlexNet出现后，把机器学习和神经网络结合成了深度学习，不再依赖手写代码，而是通过大量数据训练。

这形成了"AI三要素"：算法（AlexNet）、数据（李飞飞的ImageNet）和算力（吴恩达和GPU）。这三个要素结合产生了革命性突破，出现了一个“黑盒”模型，效果反而比人工编写的“白盒”模型更好，只是可解释性差一些。

到了2020年GPT-3出现后，第一次把人类积累的电子书、维基百科、Reddit、知乎等所有内容作为训练数据，效果超越了传统自然语言处理的所有成果。现在语言模型完全是数据定义的，这就是为什么在AI时代，你创业第一天就必须考虑数据。但关键是，“有用的数据”这个定义是动态的。比如Transformer出现前，很多数据都用不上，但现在它能处理这些语言数据，产生出超越传统自然语言处理的模型。

《硅谷101》：Keith你觉得什么样的数据是有用的？

Keith：要从人工智能的本质来看，它是要模拟人类行为。人在网上做的就是读和写两件事：读是获取信息，比如听我们的播客，看视频；写是基于信息采取行动，比如交易股票或者点击按钮。

但对机器来说，获取数据很困难，因为互联网本来是为人设计的。每个网站都有自己的护城河，需要API或者写爬虫脚本才能获取数据，这是最脏最累的活，没人愿意干，而且永远做不完。这导致很多做垂直领域的应用公司，它们的数据都差不多，没有特别之处。

《硅谷101》：但这些创业公司怎么能跟OpenAI这样动辄获得百亿美元融资的公司竞争呢？

Jonathan：可以采取渐进式的方法，像爬楼梯一样一步步来。因为按照Scaling Law（规模法则），数据越多，模型能力理论上就应该越强。虽然这需要越来越多的算力，但可以分步实现。

更重要的是差异化定位。OpenAI这样的公司有平台诉求，要服务所有场景，教育、制造业、医疗都要覆盖。但如果你放弃通用平台的诉求，专注于比如AI搜索这样的垂直领域，把一件事做到极致，门槛反而成了护城河。

《硅谷101》：Perplexity它的底层是自己的模型还是建立在其他模型上？

Jonathan：刚开始并不是。我的总体定义是说要有底座潜力和底座能力的应用公司。因为它有DeepMind的背景，所以他们有这个思维。它可以有几个step，刚开始可能就是套个壳，像GPTs那样直接用API，做些RAG，然后开始做微调。但我想它到了一定层面一定会自己做，因为它要不断积累自己的私有数据。它可以用这些数据再去做微调，同时也应该把这些数据去生成自己的底座。

《硅谷101》：如果Google或Microsoft也来做同样的事情，那该怎么比？

Jonathan：回到刚才那两条线。作为一个AI原生的应用公司有两个角色：第一是做好互联网产品，这方面很多创业公司可能比模型公司或大厂做得更好，因为视角不同。很多确实从产品切入，开始可能就套个壳，但易用性和交互流畅性非常好，所以用户一下就来了。

但这不代表你就成功了。就像最早的Jasper，它当时比GPT用得好是因为产品设计确实更优。但现在你要思考你的护城河在哪里。

《硅谷101》：GPTs上有比较成功的公司吗？

Jonathan：应该是没有。在年初GPTs最火的时候。我直接问过一些开发者问这个问题：你有没有私有数据？他们愣了很久，然后说“我为什么需要私有数据呢？我们没有数据。”

我又问“那你会不会担忧你的护城河(defensibility)？”他们说护城河就是产品设计。这在互联网年代是很通用的思维。为什么互联网应用公司能比大厂厉害，很多时候是在产品层面。他在产品设计上面，尤其是垂直领域，肯定比做底座或者大厂的人更有优势。但是现在你要详细考虑护城河的问题了。

《硅谷101》：Perplexity呢？

Jonathan：我觉得它一定会往底座去做。但这个可以有多种方法，你可以用开源底座去做一些继续训练。

你要从成本上考虑，一上来就全都重新训练，成本太高了。但你可以做继续训练，这个难度也不低，可能比微调要更难一些。但即便是微调，微调跟继续训练有时候界限也开始模糊了。而且还有风险，做不好效果可能并不好。这些成本都要计算进去，但大方向一定是往这走。这就是你的护城河。

你要么就不要有数据，就像GPTs那些。但很快GPTs也都没有了。所以看商业化有时候也会有误区，有些产品可能一段时间用户看起来不错，甚至有些收入。但只要没有护城河，要么就是被底座覆盖掉了，要么就是自己不能持续迭代下去了。

03 纯应用不足以构筑护城河，多模态更有机会

《硅谷101》：我在想这种创业公司的应用类的模型迭代，怎么能卷得过像OpenAI这种动辄百亿美元融资的公司。因为做底层模型需要自己买卡训练，如果一个模型训练得越来越大，智能真的涌现了，这些创业公司再去训练底层模型的意义何在呢？

Jonathan：所以有几种方法。一种就是我刚才说的一步一步来，有点像baby step。你的卡会越来越多，加上数据越来越多，理论上最后输出的模型能力应该是越来越高的。

第二个就是聚焦。你可以做到跟OpenAI和国内六小龙的不同，因为所有做底座模型的人都有做平台的诉求，要赋能所有的上层应用，这样就把它给摊平了。现在来了教育的、制造业的、医疗等垂直行业的都得服务。这是它跟你的最大区别，你可以放弃作为通用平台的诉求，就聚焦在比如AI搜索这样一个垂直应用。我把这一件事情做好，整个底座模型都是为了这个，不是为了去做下一个iOS。这样你会简单很多。

《硅谷101》：还是回到了数据，护城河还是你垂直领域的数据的优秀程度、专业程度和精专程度。

Keith：有点像大语言模型是个推土机，我其实就想凿个钉子。难道要拿推土机去凿吗？也可以也能弄进去，但何必呢？其实拿个小锤子嘣一下就进去了，那我就用小锤子不就得了。

《硅谷101》：Keith你有觉得比较好的商业化案例可以分享吗？

Keith：美国本土还蛮多的。比如现在做coding的几个很火，当然这也涉及到它会有多大的护城河这个问题，比如说GitHub要去做会怎样。还有一个特别火的coding应用Devin，大模型时代“见光死”：demo做得好看，但正式发布后发现完全用不了，这样的产品太多了。

Devin发布会，图源：官网

Jonathan：Coding应用这个分界不是那么清晰，因为也可以用GPT，现在很多码农就直接用GPT帮他编程了。所以问题是你怎么去创造一个分界。产品肯定要做得很好，但你要实现scaling law，要用私有数据去训练，怎么去跟底座的这些人竞争，做长期的竞争。

如果他们要问我建议，就是你得拥有自己的底座。如果一直用第三方的底座，你的风险永远是大的，因为他们一定也在不断训练。

Keith：其实现在做得好的很多可能都是商业化做得比较好，就是在某一个点抓得准。像Harvey这样做法律方向的大模型应用，也不知道多好用，但能讲好故事。从真正大规模应用角度来说，还是很遥远的。我觉得整个问题的核心还是太早。这是一个新的生产效率工具，但很多人把生产工具当成了生产力，这是一个误区。

《硅谷101》：作为音频工作者，我觉得Google的Notebook LM用来做长文本分析还是蛮好用的。另外有一家创业公司Elevenlabs我很喜欢，它可以把文字转成很好的配音，或者用AI补录音频，效果比真人补录还要自然。不过它在中文方面表现还不够好。Elevenlabs在融资市场表现也很优秀，快到独角兽级别了。还有像Suno这样做文字生成音乐的，也融了很多钱。

Jonathan：这两家都属于跨模态、多模态的产品。我预测它们一定要往底座去延展。

《硅谷101》：它们其实是有底座的。

Jonathan：它们不仅有底座，在声音处理上还有自己的独特优势，有一些paper。所以这些公司要有训练数据，用自己的或半自研的底座去实现最终的模型功能。从这个角度讲，多模态更符合我说的，因为没有现成的第三方底座可用，你反而更需要自己去做很多事情。

《硅谷101》：所以现在整个市场上多模态的表现会不会更好一点？

Jonathan：对，这是我的预估。当然这是把双刃剑，对你的要求更高。很多人会往这条路走，这样从第一天开始就有护城河。不像纯语言模型，你可以一开始没有护城河，直接调用GPT就能出产品。但在多模态领域你要先做出些东西，所以它是把双刃剑。

我个人也比较看好多模态，包括跨到硬件模态。如果能够把硬件数据跟Robotic Transformer(RT)打通，把语言和硬件的传感器数据、机械执行数据从训练层就打通，我觉得这是多模态的一种体现，还是有蛮大空间的。

04 埃森哲生意越兴隆，生态越没有成立

Keith：本质上还是数据的独特性、准确性和优势。我问过美国几家大的VC美国大企业对AI的接受程度如何，其中有一位负责人说吆喝声很多，大家都想学想知道在讨论，但真正能落地的还是很少。

现在大家做的都是AI咨询，特别是RAG这块是过去两个季度最火的。因为作为公司的IT负责人，肯定要考虑公司接下来在AI方面要做什么，要花钱，但可能还不知道该做什么。最起码可以先把架子搭起来，做AI方面的咨询讨论。

在美国，像埃森哲这样最大的科技咨询公司，光咨询就赚得最多。第二季度生成式AI带来了6亿美元新增营收，第三季度涨到9亿美元（编者注：此处“新增营收”特指“由生成式AI带来的新增订单金额”，详情请参考埃森哲财报）。另一家VC跟我聊天时说，就是耍耍嘴皮子做两个RAG，就拿到9亿美金，就是这样的现状。

《硅谷101》：你有用过埃森哲的服务吗？

Keith：我们用不起，太贵了。

Jonathan：咨询公司在今天的地位其实符合我之前的理论。回看互联网时代，很多公司说要做数字化、做网站，也会找外包和咨询公司。比如我自己作为客户，现在要做一个内部的投资GPT能回答投资问题，但因为有很多私有数据，不知道怎么搭建，就需要找咨询公司。事实上我们现在就在做，很多投资公司也在做这个事。

在互联网时代，咨询公司收入只占很小部分。即使把埃森哲、麦肯锡这些外包公司加在一起也是。因为中间有OS，门槛降低了，大部分公司能自己做。以前做个简单APP可能30万人民币左右。但在AI时代，咨询成本很高，而且很多人都会用。因为中间有很高门槛，这件事不容易做。

而且形成一个矛盾，就是数据越多反而越头疼。数据多本来是好事，但数据越多，首先成本抽取就很贵，可能需要用到AgentQL这样的工具。然后还要训练、要放到数据库做RAG，所以干脆找咨询公司。

埃森哲生意越兴隆，反而说明这个生态越没有成立。都要靠第三方交付公司，这是我们观察到的现状。但这本身是个阻碍，必须得迈过去。

《硅谷101》：所以我理解在互联网时代，用埃森哲这类公司帮做APP的比例小，是因为基础设施比较完善，大多数公司可以自己做。

Jonathan：对，完善，然后OS也比较具备。

《硅谷101》：但在AI时代因为基础设施不太完善，每个公司要根据自己的数据去定制模型，门槛还比较高。

Jonathan：对，要经过很多步骤，从数据到RAG。RAG看上去简单但很多公司都做不好，需要对底座模型有理解。

Keith：可以理解为它解决了三个问题：第一是全新事物出现要做什么，第二是怎么做，第三是用什么工具做。这就像假如全球突然变冷了，我们东北人都可以成为埃森哲，因为可以告诉大家冬天要做什么，准备什么样的秋衣秋裤，要准备暖气片，要冬储大白菜等等。

《硅谷101》：那从投资角度看，是不是这个阶段所有做中间服务、建设基础设施的ToB公司，做服务的公司，做基础架构的公司更有价值？

Jonathan：是很有机会的。比如Fireworks、Lepton这样的公司，做GPU的Lambda，还有做数据的，包括Keith这样的公司。从投资人角度，我们把这些都放在基础设施里面。技术设施很复杂，简化下就是各种工具。

但他们不改变生态，不会大大降低应用层的门槛。最好是底座大模型把这些事情都做了。这就是所谓交钥匙工程，OpenAI就是往这个方向走的。他们也都在做Framework、算力优化等。

在今天生态没完全打开的情况下，这些点状工具都很有价值，但风险也比较大。因为整个技术栈都不清晰，大家都在互相重叠竞争。现在还是很早期，就像Keith说的是两个月的baby。

《硅谷101》：在判断这些中间层的ToB公司时，你觉得最核心的几点能力是什么？

Keith：我感觉刚才Jonathan已经把整个链条讲得很清楚了。做基建从工程角度是最难的。但解决了最难的问题之后，在语言模型时代往上走一层反而容易。难的是选择一个底层模型很难走进去的赛道，在这个赛道上把它做到最好。对我们来说语言模型不是目标，但是它是很重要的工具。我们做的事我们认为是语言模型永远都解决不了的。

《硅谷101》：这还是需要对垂直行业的深度理解，和基于扎实的工作建立起来的基本功。

Keith：需要对工程的理解要远远胜过对语言模型的理解。

Jonathan：对。而且基础设施的一个很强的可能性是找到一个可以交钥匙的点，在某个垂直场景里面成为一个操作系统。虽然不能一下变成浏览器或iOS，但可能在某个垂类里面成为一个iOS。但想做一个非常泛的操作系统是有难度的。不过可以探索这条路，这样跟底座的关系也比较容易切分。因为底座模型都想成为通用平台，不会在特别垂直的领域深耕，他们想做AI+所有东西。所以这块是有机会的。