AI原生时代，应用创新蓄势待发-钛媒体官方网站

通过热点AI应用创新项目的观察，我们可以看到新技术的突破方向，也能发现基于生成式AI迸发出的全新商业前景落地的可能性。

本文摘自《云栖战略参考》，这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来，与思考同样问题的“数字先行者”共同探讨、碰撞，希望这些内容能让你有所启发。

迈入AI大模型和生成式技术飞跃发展的时代，基于AI的应用创新正在成为新的主题。

2023年，从通用大模型喧嚣到行业大模型集中落地，AI应用创新也在下半年呈爆发式涌现；2024年，AI应用的颗粒度正在进一步细化，关注点和效用也更实际，也正进一步走近垂直细分领域的价值实现。

对于大多数产业以及其中的企业来说，转变技术范式、突破传统模式发展是更现实的挑战，以AI赋能现有的技术、业务，是最现实的命题，也是最具效率、落地速度最快的路径。

但不同于从传统产业中诞生的创新，AI时代的新创业者天生就是原住民，他们对新技术的理解、应用和探索得心应手，天然使用AI思维构建应用的模式。

人们对“AI原生”充满好奇，不仅是想了解其全新模式内涵，也想知道下一个风口将从哪里发起。本刊将定期汇总盘点国内外最新的AI原生应用，希望为读者提供创新发展趋势的信息和思考。

多模态生成式AI竞赛进行中

从2023年国内妙鸭相机爆火，到2024年初Sora引爆全球，AGI所能呈现的内容深度正在迅速下潜。

《福布斯》杂志对2024年AI领域关键创新的预测之一就是多模态生成式AI，称此类系统能处理文本、声音、旋律和视觉信号等各种输入信息，并将其融合起来进行综合理解。随着多模态技术的不断发展，AI模型将迎接更加复杂多样化的交互场景，有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

视频生成

Sora发布被认为是AGI实现过程里的重大里程碑事件，而不仅仅只是视频生成技术的突破。它对语言的理解也达到了一个新的层级，使其能够准确地理解提示词，并生成表达充满活力的情感的视频。它建立在过去对DALL·E和GPT模型的综合研究之上，提出了一种新的模型可能，不仅可以理解用户在提示中提出的要求，还能理解物理世界的存在方式。

在AI巨头OpenAI入局之前，创业企业Runway和Pika被认为是这一赛道的佼佼者。

Pika Labs成立于2023年4月，同年11月发布首个产品Pika1.0，能够生成和编辑3D动画、动漫、卡通和电影，并且普通用户还可以对其进行加工，被视为一款零门槛“视频生成神器”。这支最初由4个人组建的团队，融资超过5500万美元，几乎所有AI领域的知名早期投资公司都参与了此轮融资。而就在Pika1.0发布才过去四个月不到，同赛道的Sora的横空出世，在AI视频生成这条路上，又增加了很多变数和可能性。

Pika创始人郭文景在与钛媒体创始人赵何娟的对话中提到，目前生成式视频发展的一个重要限制是算法的成熟度，这也是Pika的核心主攻方向。“我觉得视频跟语言模型不太一样，关于语言模型大家已经知道大概的方法，算法其实已经比较成熟了。但视频现在没有很好的算法，它不是一个规模化的问题，不是说现在大家的GPU不够多，很多时候其实是算法上还没有很好的一个思路。”郭文景说。

3月份，Pika对超级合作者(Super Collaborator)和Pro用户开放测试了一项新功能：Sound Effects，声称可以给视频无缝生成音效。生成的方式有两种：提供Prompt或直接让Pika根据视频内容自动生成。Pika还没有公开Sound Effects背后的原理，此前Sora大火之后，语音初创公司Eleven Labs就出过类似的配音功能。

另一家独角兽Runway成立于2018年，是一家AI视频编辑软件提供商，主要为设计师、艺术家和开发人员提供一系列的工具和平台，产品是帮助专业人士生成各种内容。Runway创业之初的产品形态是一个关于机器学习模型的应用商店。随后公司基于AI算法，不断开发新的模型框架。2021年公司与慕尼黑大学、海德堡大学等共同发表《High-Resolution Image Synthesis with Latent Diffusion Models》；2022年，公司构建了Stable Diffusion的原始版本，并将该技术集成进设计软件的功能中。2023年2月6日，Runway发布了Gen-1，可以通过文本提示或参考其他图像中的风格，对原视频进行编辑，即在原视频的基础上生成新的视频(Video to Video)。随后三个月内，再次推出了Gen-2，支持由文字生成视频。用户可以输入原创的文本提示，或者根据系统提供的自动提示建议进行视频生成。Gen-2还支持高级设置优化，用户可以在网页上微调生成的视频。

2024年3月，以色列初创公司Lightricks也发布了一款AI驱动的电影生成和剪辑软件——LTX Studio。只要通过文字，它就能直接生成复杂的剧情，包含语音、音效、视频画面。LTX Studio结合了多种AI技术，涵盖了创作过程中的各个环节。其中，公司独创的文生视频模型——Long Animate Diff，能够创作出帧数在16至64之间的视频。此外，团队还发布了另一款专门用于创作32帧视频的模型。与Long Animate Diff相比，它在视频质量上通常有更出色的表现。不过，对于背景音乐，公司选择了第三方的音乐资产供应商，因为他们认为目前的AI技术还无法创作出符合要求的背景音乐质量。

在国内，爱诗科技PixVerseAI能接受包括图像、文本和音频在内的多种数据源作为输入，基于这些输入生成连贯、逼真的视频内容；该平台能在较短时间内将用户提供的素材转化成视频，极大提高了视频制作的效率；且生成的视频不仅局限于简单的转译，还能具有较高的艺术性和创造性，适合用于制作营销视频、社交媒体内容、教育材料等多种应用场景；用户可以根据自身需求对生成的视频进行一定程度的个性化设置和调整。

音频生成

在Suno之前，已经有不少企业推出过AI音乐生成器，比如Adobe的Project Music GenAI，YouTube的Dream Track和Voicify AI(现在的Jammable)，但只有Suno被称为“音乐界的ChatGPT”。其与众不同之处在于，Suno可以根据简单的提示创建从歌词到人声和配器的所有内容。

目前，SunoV3在以下几个方面具有显著优势：更好的音频质量；更多样化的风格和流派；更强的提示遵从性，包括更少的幻觉和更优雅的结局。

通过SunoV3，用户现在可以使用免费账户创建两分钟时长的完整歌曲，具体效果取决于自己选择的流派。Suno团队还表示，V4已经在开发之中，并将推出一些令人兴奋的新功能。

值得注意的是，Suno并未公布过任何训练细节。Suno首席执行官兼联合创始人Mikey Shulman在采访中表示：“并非所有音频都是通过Transformer完成的，有很多音频是通过扩散完成的，这两种方法各有利弊。”

图像与文本生成

2023年7月，妙鸭相机凭借其AI图像生成技术，在市场上迅速走红。用户通过上传一定数量的照片，就可以通过妙鸭相机AI技术生成高质量的多样化风格写真照片。FaceChain/FaceChain-FACT算法使得妙鸭相机生成的图片面部表情自然、细节丰富。此外，其还具备AI修图、数字分身创建、模板选择等能力。

在图片生成之上再加入情节故事，童语故事(ImageStory)是国内首个AIGC的儿童绘本产品，用户可以在小程序里创建数字分身，为孩子定制特定主题的童话绘本和短视频故事。

童语故事生成式绘本的两大基础要素是文字和图片，与此对应，童语故事选用了通义千问和通义万相来打造这两项基础能力。文字方面，文字生成的核心是通义千问的深度学习模型。在“童语故事”小程序上生成AI Story只需要三步：第一步，选择故事角色。用户可以定制自己喜欢的IP角色，也可以上传照片创作自己的数字分身。第二步，输入故事主题思想。用户如果没有灵感可以选择“创作灵感”和“随机一个”，“童语故事”提供了20个睡前故事和育儿故事。第三步，选择朗读音色、画面风格和字数。朗读音色提供多种风格、不同年龄声音，画面风格包括扁平插画、油画、写真等10种供用户选择。设置故事字数和段落/图片数，多情景故事还支持自动分集，以及用合集来生成。简单设置完成后，点击“立即制作”即可。

上线数月以来，“童语故事”得到了消费者的喜爱，更得到了影视公司、出版社、专业儿童作家、电商平台的认可“，童语故事”的MAU(Monthly Active Use，月活用户)涨到了50万，微信小程序用户平均停留时间达到8-15分钟，这样的用户时长在“AI Story”赛道已经排得上全球前三。

将文生图的创意进一步专业化，供春AI是紫砂壶行业内第一家AIGC辅助设计工具。这一小众行业有方言、圈子和文化等地域壁垒，且紫砂设计需要师傅的认可，并且大部分AI设计图师傅会在落地过程中主动微调(AI设计出来的紫砂壶大部分需要人工调整)，属于细分行业领域，市场上通用的大模型反而不适合对接(设计出来的图大部分不可用)，需要基于小灵快和开源的模型做持续的训练。

目前供春AI已经成为传统工艺美术从业者的好助手，其产出的每30~50张图中大约有1张是可以被资深工艺美术师认可的，已有2000多位工艺美术从业者使用供春AI设计紫砂壶。通过AIGC作为辅助工具，工艺美术师制作的工艺品已经落地100多件。从商业模式上，供春AI有一定的可复制性，目前供春AI已在其他陶瓷产区进行陶瓷艺术设计的推广复制。

“助手”新形态：AI Agent 快速演进

人工智能领域著名学者、斯坦福大学教授吴恩达指出：AI智能体工作流(AI Agentic Workflows)将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注AI智能体工作流。

初创企业Cognition AI近期公布了全球首个AI软件工程师Devin。在宣传中，Devin能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复bug并完成任务，而且完成这些端到端的任务只需一个指令。

在SWE-bench基准测试中，Devin能够解决13.86%的问题，而GPT-4仅能处理1.74%的问题。更重要的是，Devin无需人工干预，而GPT-4则需要人工提示指定处理文件。

Devin一经发布，便引爆了整个科技圈，但在此之前绝大多数人可能根本没听过这家公司，毕竟他们在发布两个月前才真正在公众面前亮相。这家仅有10名员工的公司，从Peter Thiel的风险投资公司Founders Fund及其他资方(包括前Twitter高管Elad Gil)处成功筹集到2100万美元。这些投资方所看中的，正是Cognition AI的创始团队及其主要成果Devin。

Cognition AI在设计Devin时的一大亮点，就是该公司在计算机推理能力方面取得了突破。从AI的角度来讲，推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段，更能够以近似人类的方式思考并找到合理的问题解决方法。AI Land认为推理是驱动行业发展的下一波大势，不少初创企业也都在着力展示自己在这方面的技术能力。

不同于现有其他AI助手，Devin不仅能够提供编码建议并自动完成部分任务，甚至可以独自承担并完成整个软件开发流程。其使用方式也相当简单，只需提交一项任务——比如创建一个网站，展示悉尼市所有意大利餐厅的地图——该软件就会执行搜索来查找餐厅、获取相应地址与联系信息，而后构建并发布显示信息的站点。在运行期间，Devin还会列出它正在执行的所有任务，甚至在编写代码时持续测试，自行查找并修复bug。

总体而言，Devin可以规划和执行需要数千个决策的复杂工程任务。Devin可以回忆每一步的相关背景，随着时间的推移学习并修复错误。

研发团队还为Devin配备了常见的开发人员工具，包括沙盒计算环境中的Shell、代码编辑器和浏览器，以及人类开发者完成工作时所需的一切其他工具。最后，研发团队还赋予了Devin与用户积极协作的能力。Devin能够实时报告协作进展，接受反馈，并根据需要与用户一起进行设计选择。

Cognition AI在如此短的时间内取得重大突破的方式仍然是个未解之谜，其CEO Scott Wu拒绝透露太多关于该技术的底层细节，只表示他的团队找到了将OpenAIGPT-4等大语言模型(LLM)与强化学习技术相结合的独特方法。

Cognition AI公司并不是唯一一家致力于构建AI编码工具的企业。

今年2月份，初创公司Magic AI陆续获得了谷歌母公司Alphabet旗下的Capita lG领投的2800万美元，以及GitHub前CEO Nat Friedman和他的投资合伙人Daniel Gross投资的1.17亿美元资金。

Magic AI私下宣称其能够实现类似于OpenAI去年开发的“Q算法”的主动推理能力，称它开发的新型大语言模型更接近于人类的思维方式，能实现全自动化编程，打破现有的半自动化代码编写。类似于一个真正的编程人员。不过，Magic AI选择从零开始设计自己的模型和其他底层技术，希望借此保障业务独立性。这家初创公司尚未对外展示其AI系统。

国内，除了大厂纷纷推出Agent产品，这一赛道也涌现了大批创业企业，并与各行业快速融合落地。

例如，实在智能在2023年8月份发布了自研垂直“塔斯(TARS)大语言模型”，基于此结合RPA与AI Agent，即插即用的产品级TARS-RPA-Agent由此诞生；澜码科技在2023年12月20日正式发布的AskXBOT平台，是其自主研发基于LLM的Agent智能体与工作流设计、开发、使用、管理、知识沉淀的一站式平台；智谱AI今年1月份发布了第四代多模态基座大模型GLM-4系列，并上线了全新GLM-4的All Tools(所有工具)、GLMs个性化智能体定制能力......

结语

通过上述热点AI应用创新项目，我们可以看到新技术的突破方向，也发现基于生成式AI迸发出的全新商业前景落地的可能性。

但一个现实的问题是：这些应用和企业是昙花一现，还是会持续繁荣？

红杉资本在《Generative AI’s Act Two》中指出，目前生成式AI应用的最大问题，是需要证明自身的价值，因为目前以基础大模型为先的应用用户留存率明显不够。当前头部App消费级公司，第一个月的用户留存率能达到60%~65%，高的甚至能达85%。生成式AI应用的用户留存率，中位值只有14%。这意味着，用户还没有在生成式AI产品中找到足够价值，能够每天都使用。因此，如果开发者想要建立起持久的业务，就需要解决用户留存问题。因此，生成式AI真正的商业价值还在于各种应用场景的发掘。

此外，不仅是应用自身的价值，当前很多AI创业企业的竞争力严重依赖核心创始团队，也由此造成了公司运营、业务持续等方面极大的不稳定性，很多公司还没有出现可持续的商业模式就已经要化为泡沫。

2024年3月23日，Stability AI的CEO宣布辞职，这家公司培育出的Stable Diffusion开源文生图大模型在业内颇具影响力。而在 CEO 辞职之前，媒体称曾参与开发 Stable Diffusion 模型的几位关键开发人员都已经离开了。据报道，Stability AI 资金耗尽，无法支付训练大模型所需的 GPU 集群费用，外界普遍认为这家公司将面临破产。

早在2022年就推出了AI助手ACT-1的Adept团队中两位联合创始人离开后创立了自己的创业公司Essential AI。

另一家AI独角兽公司Inflection AI也岌岌可危，在2023年6月底，这家公司宣布融资13亿美元，估值达到40亿美元，成为仅次于OpenAI和Anthropic的全球第三大生成式AI独角兽。但今年三位创始人中的两位都投奔微软成立新的公司。这些创业公司的发展与此前OpenAI的“宫斗”和几乎重新自立门户的经历也很像。

AI时代的创新巨轮才刚刚开始转动，技术成熟度曲线下AI创新将走出怎样的周期，我们持续关注。

本文根据公开信息综述，部分内容选自以下文章：

1.Sora发布后，Pika创始人独家回应钛媒体：很振奋，我们将直接冲

2.90后华人团队真来砸程序员饭碗了!推出全球首个AI超级工程师：拥有全栈技能，一个指令就能完成整个开发过程

3.2024年，中国AI应用「大盘点」|产业AI4.红杉资本：生成式AI的第二幕

5.词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

6.中泰证券《AI生成视频专题报告：Runway基础模型快速迭代,视频生成领域的先行者》

7.AI版西游记震撼百万网友!AI电影颠覆好莱坞，手把手打造爆款视频

本文摘自《云栖战略参考》总第16期

扫码限时申领纸质版

↓↓