独家对话Soul App CTO：看好多模态端到端大模型落地社交，新能力预计年底上线-钛媒体官方网站

图片由Soul官方提供

社交平台Soul App在出海方向上有了新的进展。他们将最新自研的3D虚拟人多模态AI交互体验首次落地10月14日-18日举办的迪拜GITEX GLOBAL海湾信息技术博览会上。

这也是Soul自2016年上线以来，首次亮相国际大型展会。在大会现场，参与体验的用户可以实现高相似度的3D虚拟人的AI建模，通过包含人脸的90余个形状参数和6个属性参数，于几秒钟内，快速在3D世界精细化还原真实人脸的特征，打造专属的虚拟化身。

据Soul App CTO 陶明对钛媒体APP介绍，该模型具备多模态理解、真实拟人、文字对话、语音通话、多语种等特性，实现更接近人类模式的互动体验。

“目前可以看到的是，海外市场对AIGC+社交的接受度非常高。”陶明对钛媒体APP表示。

从具体的数据增长情况来看，根据第三方数据公司data.ai，美国等海外市场的社交应用榜单TOP30上，已经频繁出现了如Pengu、Linky AI等AI社交类型的产品。

比如说Character.AI，尽管已经被Google以25亿美元收购，但在全球收获超过2亿用户后，Character.AI也通过2023上线后的疯狂增长速度，证明了海外用户对AIGC+社交产品的欢迎与认可。

不过，陶明也发现，目前在海外还没有见到特别亮眼的“AIGC+社交”的相关产品。

这背后主要的原因是，海外市场的重点其实还是聚焦在技术能力的突破上，而技术突破和应用层落地之间，有比较大的割裂，或者说，海外并不着急把技术尽快落地。

而国内目前的情况是，在技术上很多公司与海外巨头相比，存在一定的差距，但优势在于场景和应用的快速落地。这是国内在移动互联网、数字经济时代就有的鲜明特征。

所以，他认为，在“AIGC+社交”方向，国内的应用落地探索反而会是更快速和积极的。

“在推进AIGC+社交业务落地的过程中，我们采取的是‘模应一体’思路，大模型是Soul解决用户社交需求的方案之一，不是最终目的。”陶明说。

2016年，Soul在上线时，一个基本的思路是，希望能够在线上创造一个新的世界，它与现实世界可以不一样，是真实存在的另一个平行世界，但更有归属感。

所以，当时Soul没有采用彼时社交产品流行的导入通讯录现实关系，或者LBS的模式，而是采用了AI的解决方案，即，用基于AI算法的灵犀引擎，主要是通过对用户在站内多元场景下的行为数据分析，为用户推荐有可能结成深度社交关系的人，以去中心化的机制分发关系和内容。

这是Soul用AI对社交关系中“发现”环节的变革，也让Soul在用户层面形成了非常差异化的认知，在上线后，以很快地速度获得了市场的使用和认可。

截至2022年，Soul的月活用户近3000万，其中，Z世代用户占比超过78%；平台月活跃15天以上的用户占比63.7%；人均用户日均使用时长为46.4分钟，日均私人信息数为66.9条。

灵犀引擎的推出和受认可，让Soul坚定了对AI的投入，后续，Soul还陆续推出了集成AI的NAWA引擎，以及AI苟蛋等相关应用。

从目前推出的一系列新功能的用户反馈来看，AI的应用让Soul的用户对话轮数、次留、用户时长等关键数据都有不错的表现，并且在持续增长中。

陶明举例说，用户平均每天会给AI苟蛋发送超过70条消息，互动平均时长超过30分钟。而在辅助对话方面，在AI的参与下，陌生关系的对话框回复率提高了接近十个百分点。

整体来看，陶明认为，AI对Soul的用户产生了可持续的价值，同时也在Soul整体的用户时长、粘性、用户体验等方面都有积极、正向的助力，“这对我们来说就是难以衡量的收益”。

但AI在社交领域现有的应用落地实践，距离实现行业彻底的变革还有一定差距，陶明认为，这其中主要的挑战还在于技术侧。

以Soul关注的情感关怀这个方向为例，他认为，让AI理解社交、理解情感和情绪这件事情，这其实也是当下AGI的难题。比如说，面对“我感冒了”的信息，在不同的场景中，回答“多喝热水”可能并不是让用户满意的答案。

另一方面在于应用层，如何理解用户核心的社交需求，将前沿的技术能力转化为用户需要的产品功能。

诸多难点之下，可以看到的是，AI对话类的产品正经历新一轮的洗牌，相关产品正在批量式关停。

很大程度上，这是因为得益于ChatGPT横空出世，以及对话模型的开源，很多AI聊天APP，背后直接使用了开源模型，于是，市场上AI社交应用批量涌现，但问题也随之而来：同质化情况严重，人机交互体验、情绪价值反馈没有显著的改善，导致用户留存差，也无法实现有效的商业化。

而Soul在快速落地“AIGC+社交”的实践中发现，很多方向也在逐一被证伪。比如说，做“AI苟蛋”的时候，团队希望它能说会唱、能识图、有形象。他们原本也以为，把很多资源投入到每个点上，每个点都做得最好，一定能实现不错的用户反馈，但最终发现资源用了很多，效果并不明显。

“能说会唱只是一种增益，对话能力，即聊天的情感化再加上语境里的场景构建是最重要的。在不同场景，一个人用同样一句语料所表达的情感不一样，大模型产品在这里的改进空间还很大。我们的经验总结是，要先把基础分做好，然后再优化增益项。”陶明对钛媒体APP说。

在市面上众多AI人机交互产品之中，要做出差异化的关键在于“大模型的情感能力”。而陶明认为，人机交互的本质，是让AI与人社交。社交的本质是情感的流动，只有能够实现情感的识别，才能让AI更好地理解人性、情绪和情感，实现理想的人机互动。

这需要大模型多模态的、具备拟人化属性，确保实现情感化、个性化和生活化。也就是说，情感识别是Soul一直在持续投入攻克的难点。

下一阶段，具备情感能力的大模型或许将会是“AIGC+社交”行业竞争的新焦点，同时，在“AIGC+社交”方向的探索过程中，产品形态不会仅局限于对话场景。

AI Agent是承载AI社交服务的重要载体，也是完成人机互动体验的重要组成。从更大视角来看，当人们习惯于与AI Agent对话、互动，AI Agent便成为人们接触数字世界和数字服务的入口，这将进一步打开“AI+社交”赛道的发展空间。

陶明更看好的是，多模态端到端大模型的应用，特别是在情感能力突破、多模态互动和端到端能力方向。

情感能力突破指向的是AI更能理解、反馈人类，多模态互动则更接近真实、自然的真人日常互动模式，端到端则意味着，为用户服务的底层方案的创新和真正意义上“在场感”的实现。

“这都是颠覆社交体验的关键。”陶明说，快的话，预计在今年年底，Soul多模态端到端大模型将再次升级，推出全双工视频通话能力，让用户可以便捷、自然地体验到包括文字、语音、视觉在内的多模态创新交互。（本文首发于钛媒体APP，作者｜李程程，编辑｜胡润峰）

独家对话Soul App CTO：看好多模态端到端大模型落地社交，新能力预计年底上线