从实验室到荧屏，“搜狗AI合成主播”是如何接近真人的？-钛媒体官方网站

“真人播报效果已经够好了，为什么我们还要合成一个AI主播？”

2018年底，新华社联合搜狗在第五届世界互联网大会上发布全球首个AI合成男主播。该AI合成主播“克隆”于真人主播邱浩。今年2月19日，该男主播升级成为站立式AI合成主播“新小浩”，并推出全球首个AI合成女主播“新小萌”。站立式“新小浩”不仅能坐着播报新闻，还能站起来，带着手势、姿态等多种肢体动作，更接近于真人。

上述两位AI主播至今已经播报了几千余条新闻，并引发世界范围热议。

作为新华社AI主播背后的技术负责人，搜狗语音交互技术中心高级总监陈伟对钛媒体解释道，使用AI主播最大的意义在于帮助提升效率，将真人主播从大量重复性劳动中释放出来，从而有更多精力投身到深度访谈或其他工作中。“播报一个新闻一般会有场地、时间、主播本身精力的限制，每天的产出很有限，资源本身又是受限。但AI主播不同，可以工作24h，也不必担心有错误出现。”

搜狗从12年开始研发智能语音技术，并逐渐从最早的语音识别发展到现在的多模态识别，其智能语音技术已经成功应用到搜狗的全线产品中。

其中，AI“分身”技术致力于如何让机器更好的去表达信息，是多模态识别一个很好的展示及落地途径。目前，通过语音、手写、唇语等多模态识别，仅需几个小时的视频资料就可以合成一个比较逼真的真人形象。

而更简单快捷的是，在建模完成后，编辑人员仅需要输入文字资料，即可让AI形象按照文字播报。无需进行二次视频编辑，AI主播将自动识别语义并配上对应音调及表情。“我们给到新华社的系统，新华社只要每天在想要播报的新闻，过几秒钟生成一个完整的视频，中文、英文不同类型的新闻视频就可以马上出来。”

与市面上其他专注语言交互的团队不同，搜狗分身更关注语音、图像加NLP完整能力的融合表达。因此，“逼真度”是团队衡量AI分身技术的一个重要指标。

陈伟介绍到，初期，团队采用主观的方式来衡量AI分身的真实度，最近也逐渐考虑采用一些客观标准。

未来，团队将会更关注微表情，关注怎么样让AI分身结合更好的姿态，更自然地表达。在图像上面要考虑2D+3D混合的技术，在语音基础上面有更多NLP的能力进来，让AI分身的认知能力加强。

但并不是说，AI分身的真实度已经达到了令人恐慌的阶段。

“实际上我们对其实每前进一步都很难，比如让AI主播动起来，摆头，这一动作都比单纯的正面播报要困难得多。要想做到电影里展示那样与真人无异，至少还需要5-10年。”

拿AI主播来说，其功能还停留在播报阶段，更多交互功能有待于进一步开发。陈伟也透露，搜狗分身将于今年年内推出交互能力。

就在不久前，一段将朱茵变脸杨幂的视频在网上走红，AI换脸技术deepfake开始被大众读者熟知。这也引发了公众对AI虚拟形象的质疑——是否致使肖像权被随意侵犯？

当然，在技术上，分身也与换脸有着本质的差别，“换脸实际上是把一个人脸映射到另一个人脸上，前期投入成本很大，但‘分身’一旦建模之后，只需要输入文字就可以生成视频，不需要任何表演成本在里面。”

陈伟表示，搜狗当然考虑到了人工智能伦理问题。“我们更多的想法是跟很确定的公司和领域合作，尽量找到刚需的场景。这样的好处就是不会把技术滥用。”

因此，与做几个简单Demo不同，搜狗这一分身技术不仅仅是停留在实验室阶段，而是将深入不同刚需场景，在不断迭代中快速进入商业化落地阶段。

在陈伟的预想中，在“分身”技术的支持下，视频制作成本将会大大降低，最终惠及用户。

首要的就是与搜狗现有产品线打通。像在输入法搜索，包括搜狗AI硬件上面“分身”技术将如何落地，都正在探讨中。

而通过与新华社的合作实践，AI“分身”技术也吸引了不少客户。比如在AI老师上，已经有项目正在进行中。“像公开课这种老师单向输出的形态，特别适合做（AI分身）。老师只需要准备教案和文稿，通过这种方式形成各种教学视频，后期加上一些剪辑也可以带有一定的交互能力。这种比单纯的文字教学效果要好得多。”

在技术上，“分身”支持搜狗公有云调度，同时也支持私有化部署，可在客户本地部署“分身”整套服务。提供出去的服务在资源占用上、实时性都可以达到要求。可以根据客户手中IP打造“AI分身”，也不排除塑造全新虚拟形象的可能。

陈伟透露，后续，搜狗AI“分身”会继续在教育，法律，医疗，娱乐等领域发力。（本文首发钛媒体，作者/赵宇航）

从实验室到荧屏，“搜狗AI合成主播”是如何接近真人的？

敬原创，有钛度，得赞赏