“真人播报效果已经够好了,为什么我们还要合成一个AI主播?”
2018年底,新华社联合搜狗在第五届世界互联网大会上发布全球首个AI合成男主播。该AI合成主播“克隆”于真人主播邱浩。今年2月19日,该男主播升级成为站立式AI合成主播“新小浩”,并推出全球首个AI合成女主播“新小萌”。站立式“新小浩”不仅能坐着播报新闻,还能站起来,带着手势、姿态等多种肢体动作,更接近于真人。
上述两位AI主播至今已经播报了几千余条新闻,并引发世界范围热议。
作为新华社AI主播背后的技术负责人,搜狗语音交互技术中心高级总监陈伟对钛媒体解释道,使用AI主播最大的意义在于帮助提升效率,将真人主播从大量重复性劳动中释放出来,从而有更多精力投身到深度访谈或其他工作中。“播报一个新闻一般会有场地、时间、主播本身精力的限制,每天的产出很有限,资源本身又是受限。但AI主播不同,可以工作24h,也不必担心有错误出现。”
搜狗从12年开始研发智能语音技术,并逐渐从最早的语音识别发展到现在的多模态识别,其智能语音技术已经成功应用到搜狗的全线产品中。
其中,AI“分身”技术致力于如何让机器更好的去表达信息,是多模态识别一个很好的展示及落地途径。目前,通过语音、手写、唇语等多模态识别,仅需几个小时的视频资料就可以合成一个比较逼真的真人形象。
而更简单快捷的是,在建模完成后,编辑人员仅需要输入文字资料,即可让AI形象按照文字播报。无需进行二次视频编辑,AI主播将自动识别语义并配上对应音调及表情。“我们给到新华社的系统,新华社只要每天在想要播报的新闻,过几秒钟生成一个完整的视频,中文、英文不同类型的新闻视频就可以马上出来。”
与市面上其他专注语言交互的团队不同,搜狗分身更关注语音、图像加NLP完整能力的融合表达。因此,“逼真度”是团队衡量AI分身技术的一个重要指标。
陈伟介绍到,初期,团队采用主观的方式来衡量AI分身的真实度,最近也逐渐考虑采用一些客观标准。
未来,团队将会更关注微表情,关注怎么样让AI分身结合更好的姿态,更自然地表达。在图像上面要考虑2D+3D混合的技术,在语音基础上面有更多NLP的能力进来,让AI分身的认知能力加强。
但并不是说,AI分身的真实度已经达到了令人恐慌的阶段。
“实际上我们对其实每前进一步都很难,比如让AI主播动起来,摆头,这一动作都比单纯的正面播报要困难得多。要想做到电影里展示那样与真人无异,至少还需要5-10年。”
拿AI主播来说,其功能还停留在播报阶段,更多交互功能有待于进一步开发。陈伟也透露,搜狗分身将于今年年内推出交互能力。
就在不久前,一段将朱茵变脸杨幂的视频在网上走红,AI换脸技术deepfake开始被大众读者熟知。这也引发了公众对AI虚拟形象的质疑——是否致使肖像权被随意侵犯?
当然,在技术上,分身也与换脸有着本质的差别,“换脸实际上是把一个人脸映射到另一个人脸上,前期投入成本很大,但‘分身’一旦建模之后,只需要输入文字就可以生成视频,不需要任何表演成本在里面。”
陈伟表示,搜狗当然考虑到了人工智能伦理问题。“我们更多的想法是跟很确定的公司和领域合作,尽量找到刚需的场景。这样的好处就是不会把技术滥用。”
因此,与做几个简单Demo不同,搜狗这一分身技术不仅仅是停留在实验室阶段,而是将深入不同刚需场景,在不断迭代中快速进入商业化落地阶段。
在陈伟的预想中,在“分身”技术的支持下,视频制作成本将会大大降低,最终惠及用户。
首要的就是与搜狗现有产品线打通。像在输入法搜索,包括搜狗AI硬件上面“分身”技术将如何落地,都正在探讨中。
而通过与新华社的合作实践,AI“分身”技术也吸引了不少客户。比如在AI老师上,已经有项目正在进行中。“像公开课这种老师单向输出的形态,特别适合做(AI分身)。老师只需要准备教案和文稿,通过这种方式形成各种教学视频,后期加上一些剪辑也可以带有一定的交互能力。这种比单纯的文字教学效果要好得多。”
在技术上,“分身”支持搜狗公有云调度,同时也支持私有化部署,可在客户本地部署“分身”整套服务。提供出去的服务在资源占用上、实时性都可以达到要求。可以根据客户手中IP打造“AI分身”,也不排除塑造全新虚拟形象的可能。
陈伟透露,后续,搜狗AI“分身”会继续在教育,法律,医疗,娱乐等领域发力。(本文首发钛媒体,作者/赵宇航)
根据《网络安全法》实名制要求,请绑定手机号后发表评论