美国民权运动领袖马丁·路德·金第六次登上了《时代》杂志封面,2020年2月刊。
此前他曾先后五次登上封面,分别在1957年、1964年、1965年、2006年和2013年,但这一次完全不同,封面并非采用他的历史照片,而是通过虚拟人技术创作完成的数字肖像。
与此同时,在芝加哥的 DuSable 美国历史博物馆里,兴致而来的观众们得以重温这位领袖的激昂演说。
“I have a dream......”
戴上VR设备,体验者仿佛“穿越”到了当年的华盛顿林肯纪念堂前,可以近距离观察马丁·路德·金演讲的风姿,面部小细节也尽收眼底;置身于25万来自不同种族的民众组成的游行队伍中,观众甚至会有“担心被人群踩踏”的亲历感。
这场沉浸式体验展《大游行》(The March),由好莱坞视觉特效公司数字王国联合艺术家 Hank Willis Thomas 打造。艺术家和工程师们,通过全息投影、人工智能及VR技术等数字化手段,实现了“真人复生”,再现了美国历史上的经典片段,前后历时三年。
人类对于人工智能的想象从未停止。
从2004年经典电影《I robot》到最近的《Her》中的萨曼莎、《钢铁侠》中的贾维斯,人工智能不仅越来越智能,其形态、载体也不被局限于机器当中——拥有情感的人工智能,哪怕只有声音存在,也可以被看做是一个独立的“人”。
在 2020 CES展出的创新项目中,虚拟人项目 NEON 吸引了全球的目光。
NEON由三星旗下独立实验室STAR Labs孵化,这个实验室定位于“研发尖端 AI 技术与应用的核心平台”。NEON项目负责人普拉纳夫·米斯特里介绍,基于Core R3、SPECTRA两大引擎,NEON虚拟人在对人物原始面部、声音等数据进行捕捉并学习之后,可以自主创建未录入过的新表情、新动作、新对话,甚至能说其他语言。
据米斯特里在 CES 的展出现场的介绍,CORE R3代表真实、实时、回应(Real, Realtime, Responsive),它使得NEON得以生成栩栩如生的真实, 并实时地做出回应。而另一个引擎——SPECTRA平台,则负责提供情报,学习,情感和记忆,可以给 NEON 赋能,使得 NEON 带给人的体验达到“沉浸式”。
STAR Labs将 NEON 虚拟人称为“人工智人”,或是为了体现其与“机器助手”的概念不同。
STAR Labs战略负责人Bob Lian在CES期间做客钛媒体CES Talk to China Stage,他向钛媒体App表示,“Neon所实现的100%真实感,在现在市场上是无可匹敌的。”
但由于技术引擎还在研发过程中,NEON在“智能化”方面还尚有欠缺。
尽管 NEON 还处在非常早期的阶段,TA的缔造者们已经开始展望其商业化前景,“NEON可以扩展角色,变身为虚拟新闻主播、虚拟接待员,甚至是AI制作的电影明星。”同样在中国,数字人的缔造者们也已经尝试进入服务领域、娱乐领域及影视制作行业。
数字人,何时能像科学家们所期待的一样,成为我们日常生活的一部分?
科技公司的“造人”情结
不止 Star Labs 瞄准了模拟人类情感这样的“造人”思路,近些年,各大科技公司越发注重对人工智能EQ(情商)的开发,希望能让人工智能更接近人。
微软人工智能小冰早在研发之初就强调人工智能的EQ将是重要的基础。要在EQ的基础上发展IQ、亚马逊也希望其人工智能助手Alexa具备同理心、中国的科技公司百度也提出“智能体”概念,希望人工智能变得更有个性。
那么,为什么科技公司都希望“造人”?
来自三星 STAR Labs 的战略负责人 Bob 给钛媒体App的答案是,“数字人不会疲劳、不会厌倦,永远能保持精力充沛。”
从交互层面,科技公司希望借助数字人创造新一代人机交互方式。从生产力层面,借助“拟人”化,AI能力,让虚拟人能被运用在”需要大量重复劳动力、需要海量、复杂计算“的场景,解放人类劳动力,提高生产效率。
而AI技术的发展,让计算机无论从软件还是到硬件的“拟人”成为可能。
目前,业界将AI能力分为两大类:一是感知类的AI能力,比如我们的耳朵能听,我们的眼睛能看,这属于感知类的AI能力;二是认知类的AI能力,比如我们的大脑能思考、能运算,认知类的AI能力主要是两类技术:一是自然语言处理的技术NLP;二是知识图谱。
感知和认知能力的落地,让“虚拟人”与人类的交互有了更多可能。
如果说以往虚拟偶像的最大问题是不具备沟通能力,没办法真正像人一样交流,那么,感知、认知能力的提升,让虚拟人不止停留在“徒有其表”的阶段,而是真正的感知到外界,并像人一样的交互、思考。
因此,这一波“造人”浪潮中,除了娱乐、交互领域,应用开始延展到更多实际场景中,虚拟主持、虚拟导购、虚拟前台、虚拟客户经理等实际落地案例都开始涌现。
成熟的技术厂商也开始准备入局。2019年进入下半程开始,我们生活中的数字人相关新闻开始增多,除了数家国内外科技公司都公开发布了数字人、虚拟人、或相关人工智能的研发计划、开发者平台,落地的应用也开始出现。
其中,一部分数字人应用致力于模拟真人。
最近的例子是2019年底的虚拟主持人妮雅,频繁在各家科技媒体年度大会上亮相,一身红衣赚足了眼球。
在 Baidu Create 2019 百度 AI 开发者大会上,百度联合浦发银行、原力动画推出了数字虚拟人“小浦”。
浦发“数字人”计划,应用于浦发银行APP、网银以及各类移动终端,还能融入到智能家居。钛媒体App获悉,“小浦”具有三项能力:一是情感感知,通过人脸表情识别技术,实时感知用户情绪变化,让交互沟通更自然;二是海量信息为用户决策提供丰富的资讯依据,基于自然语言处理、知识图谱等技术,结合金融知识库和数据训练,帮助用户精细化管理个人资产;三是深度学习,数字人通过实施服务,积累服务经验,为客户规划未来提供支持。
同时,“智能”也赋予了虚拟卡通形象更大的生命力,特别是人工智能在视觉与图像上的进步,让虚拟偶像们翩翩起舞、与人类互动。
B站被赞爆了的跨年晚会上,B站“亲闺女”洛天依就与国乐大师方锦龙的同台表演《好一朵美丽的茉莉花》,为用户提供了全新的视觉体验。
琵琶声中,舞台效果也呈现出春夏秋冬四个季节的景象,洛天依则辗转在四季景象中,时而撑起油纸伞,时而登上游船,又在枫叶和雪景中舞蹈……
不少虚拟人社交产品,也在2019年溅起了水花:可将自己录制表情的Memoji表情等应用、可以模仿真人表情的虚拟人社交产品ZEPETO、可以将自己的脸换到明星身上的ZAO等等……
如果再将虚拟人的概念往外延伸一些,小度、小爱、小冰、天猫精灵、Alex等有性格的人工智能助手,也逐渐形成了自己的数字人人设。
多家在虚拟人项目上已经小有突破的头部科技公司均接受了钛媒体App采访,他们的产品和研发思路不尽相同,但数字人在行业中的应用趋势,已经相对清晰。
腾讯AI Lab“虚拟人”项目
——定性为前沿研究项目,应用偏娱乐、内容方向,与腾讯业务结合紧密,将融入腾讯的文娱生态
作为NEON的“前辈”,早在2018年Siggraph会议上,腾讯互娱NEXT技术中心和腾讯AI Lab就携手发布了高保真可交互数字虚拟人Siren AI。
“我们认为,虚拟人是基于AI前沿多模态研究,可以具备个性、成长性、主动性甚至创造性,能迸发出极‘智’想象力的下一代智能人机交互方式。”
腾讯AI Lab 副主任俞栋博士接受了钛媒体App独家专访。他正带领腾讯“虚拟人”项目进行一系列前沿探索。在问及“虚拟人”的定义时,他这样回答道。
同NEON一样,Siren AI的面部形象同样来自于真人——中国的女演员姜冰洁,但“她”可以在AI大脑的辅助下,由其他人驱动。
Siren所有的动作表情都是实时捕捉并实时渲染。也就是说,其他人可以通过驱动虚拟人来“还原”姜冰洁本人,完成一系列表演。
但Siren AI依然需要真人来驱动,因此,腾讯AI Lab在此基础上,发布了多模态合成系统DURIAN。
多模态合成系统DURIAN,它可以合成高拟真度的语音并同步预测唇形和表情参数,这些唇形和表情参数通过虚拟形象驱动算法让虚拟人有拟人化的表情和肢体动作,也使得虚拟人可以摆脱对动捕演员和声优的依赖。
作为DEMO,腾讯将这项技术落地到了电竞解说上,发布了代号名为“T.E.G”的卡通AI形象天鹅静。目前,AI天鹅静在企鹅电竞上已经开辟了直播房间,不断更新解说视频。
除了摆脱动作捕捉及对声优的依赖,俞栋表示,电竞虚拟人克服了样本较少、评价主观、知识依赖等问题,可以从新闻报道和人类解说中不断地学习局势分析和解说的能力,并将这些能力举一反三,是腾讯虚拟人技术的一大突破。
除了卡通角色“天鹅静”之外,腾讯AI Lab还在今年多个会议上展示了基于神经网络渲染的写实数字人“小航”。
该数字人只需要运用发言人不到10分钟的视频数据,就可以定制而成。腾讯AI lab计划将“小航”数字人应用在教育、主持等场景。
事实上,除了塑造虚拟人外观形象,驱动面部表情外,在人体图像合成、动作迁移等多方面,腾讯AI Lab都已经有深厚的技术积累,许多和虚拟人相关的技术都在研发当中。
上海科技大学和腾讯 AI Lab 推出的一项最新研究,能让AI做到近乎完美的动作迁移,这项研究还可以实现实时变装,3D 建模等功能。
尽管腾讯 AI Lab 将虚拟人项目定性为前沿研究项目,但由此研发出的前沿语音合成技术,已经在腾讯内多个业务落地,包括了电视、音箱到王者机器人产品等等。AI Lab相关人士对钛媒体App表示,未来虚拟人也会以电子偶像、电竞解说、新闻主持等不同的形式和腾讯的业务进行结合。
微软小冰
——帮助虚拟人“更像人”的人工智能底层框架
与NEON的情感路线类似,微软小冰早2014年研发之初,就提出了专门发展AI的EQ,基于EQ迭代IQ的理念。虽然没有实体的机器人,但如果从虚拟人的“类人”功能来看,微软人工智能小冰是最接近人的,也是最早提出多模态的厂商之一。
2019年,微软小冰升级到第七代,已成为全球最大的跨领域人工智能系统之一。在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众。
微软小冰人工智能技术路线比较特殊,以情感计算框架为核心,在“类人”(EQ)上延展人工智能技术,让人工智能和人类一样具备情商的同时,也在探索人工智能创造力的发展。
在写作、画画方面,微软小冰已经达到“原创”的水平,出版数本拥有著作权的诗集。
小冰创作的现代诗,是“她”通过对1920年后519位现代诗人的上千首诗经过万次的迭代学习达成的,需要图像的激发,根据诱发源而做到“有感而发”:
《她嫁了人间许多的颜色》
看那星闪烁的几颗星
西山上的太阳
青蛙儿正在远远的浅水
她嫁了人间许多的颜色
而小冰团队也在基于框架衍生出赋生其他人工智能。2019年,小冰团队开了一个由首个人工智能画作组成的个画展。
画展上展出了基于框架虚构的基于小冰框架,衍生出7位画家的作品。来自于不同时代的虚拟画家。(详见钛媒体App前文:微软小冰学会画画了,还要办个人画展)
上述绘画模型,会大量使用诱发源,不是让机器把一种已有的视觉元素转成另外一种风格重新生成,而是要求在诱发源的帮助下,激发人工智能进行重新的创作,这是这个模型最显著的特点。
完整的人工智能底层框架,得益于小冰团队在计算机语音、计算机视觉、自然语音处理以及搜索引擎和知识图谱的全技术栈优势。
在2019年年末的一次Workshop上钛媒体App了解到,小冰团队在自然语言处理、语言学研究、计算机视觉及图形学、多模态生成等方面都取得了阶段性成果,未来有望赋能给行业。
在自然语言方面,该人工智能框架可以与人进行多轮自然对话,对话轮次达到23轮(业界最高),并且是人工智能主导对话,还具备“三观”系统,已经形成了态度检测、情绪模型等。此外,小冰团队还在尝试让人工智能之间能够实现互相学习。
微软小冰首席NLP科学家武威认为,基于三项能力——1,向人类、向其他人工智能学习;2,能够自主管理、把控对话流程;3,具备连结能力,能够连结散落的多模态知识,小冰的人工智能框架正在朝向自我完备型对话机器人进化。
多轮对话,很多语音技术服务商都在深耕于此,而武威告诉钛媒体App,“小冰是最早推出全双工语音(full-duplex sense)并在智能音箱等场景中进行产品化落地的。” 他还介绍,小冰框架的对话引擎,已经从行业最常用的检索模型(Retrieval Model)、发展到生成模型(Generation Model),再进化到现在的共感模型(Empathy Model),让小冰在对话过程中可以自创回应,在开放域的对话中察言观色,根据用户的反应去决定对话策略,从而进一步筹划对话可能的走向并主导对话的进程。
“小冰框架非常特殊的一点是把控对话、管理对话。如何组合对话,变成一个流,及引导话题,这需要IQ与EQ相结合。另外一方面,小冰更注重怎么去说、怎么去交流,而不是简单的问答。”武威说。
基于微软开发的新模型,人工智能甚至可以做出比喻句了,这可以看作是语言学上的突破:
“爱情和葡萄酒一样,对程序员来说都是奢侈品。”
小冰团队从复杂的诗歌中挑选了6大类,每类122个主题,并通过小冰聊天日志过滤出了包括爱情、内心、世界、母亲、美丽、人类在内的96个常用比喻概念。随后从1000个常用词中选取了3000个最常用的形容词扩充小冰的比喻能力。
在语音领域,微软希望用框架创造跨越多种演唱技巧的多个声音模型。除小冰外,微软还拥有或为第三方提供了十余个高质量的虚拟歌手模型,他们中有男有女,声线和唱法也不相同。
在视觉及图形学上,小冰框架具备图像评论、颜值测定、实时视觉、实时表情,经过3D渲染后,可以生成可交互的数字人。
在交互上,第七代小冰也具备面向未来的多模态交互感官,这是一种融合了全双工语音交互、实时视觉与核心对话引擎的全新交互感官。它能够实现用户与人工智能同时边听边说边看的交互体验。也就是说,小冰不止能通过对话与人交谈,还可以通过现场“看到”的场景与人类进行对话。
更重要的在于,“小冰”只是微软基于人工智能框架创造出来的一个虚拟人物形象,这只是小冰团队演示人工智能框架的第一个原型产品,在技术底座之上,还可以根据不同场景需求搭配AI能力,创造出更多虚拟人。
在2019年年底,微软小冰人工智能框架Avatar Framework首次公开亮相,并发布第一个工具包版本。微软Avatar Framework框架赋生的虚拟人类,未来都将可以和小冰一样,有各种各样交互的感官,能听、能看、能对话,能创造。
通过该框架,微软已赋能软银Pepper、东京涉谷区议会批准的“涉谷未来”、宠物小精灵新登场人物“ロトムRotomu”、朝日电视台新闻节目主持人“AI杏寿” 等数十个第三方客户AI及虚拟人物,唤醒阅文集团包含《全职高手》在内的101部小说主人公IP人物。这标志着微软小冰人工智能产品线,开始向行业输出面向toB大规模应用的、能大规模产业化复制、快速进行商业化的更底层能力。从商业模式上来看,微软也是赋能方。
面向普通大众用户,1月17日,微软小冰团队宣布于春节前期分批启动Avatar Framework的小规模公开测试。如测试顺利,将按既定计划,于今年春季正式公开发布全新的Avatar Framework for everyone版本。
这意味着,微软小冰将不再局限于“小冰”这个IP,而是可按照每个人类用户的需求,为他们定制化地创造各种类型的人工智能虚拟人类,功能覆盖陪伴、情感交流、智能助手、内容创造等各种应用类别。
据了解,在小规模测试阶段,每批次均面向一种特定的虚拟人类场景开展测试。1月22日启动的第一批小规模公开测试,测试目标为情感陪伴型,产品限定为女性恋人。更多批次将在今后数周内依次推出。在测试阶段,每个虚拟人类的生命将限制为168小时。测试结束后,这些虚拟人类的生命将被终结,但其与用户的交互记忆可被保留。因此,如用户需要,可有望在正式产品推出时复活。
商汤SenseAR数字人
——已有成型社交产品试水,下一步瞄准“职业型”数字人
在CV领域,商汤是少数将AI+AR作为重点应用方向的独角兽公司之一,数字人也是他们在探索的应用之一。
商汤科技创始人汤晓鸥曾在演讲中提到AI+AR即Magic in the AIR。AR数字人就是利用AI技术来驱动数字智能体说话与行动。
“人和人最自然地交互方式,是面对面的、通过语言、视觉、听觉等多种感官来进行交流。我们希望通过人工智能,让人机交互也逼近人和人这种自然的交互方式。所以除了语言、声音交流之外,我们增加了视觉的维度。让机器不光能听见我们说什么,还能看到我们,知道我们是谁,并根据我们实际的反馈来决定如何进行下一步交流。”商汤科技产品执行总监栾青在专访中对钛媒体App说道。
她认为,在计算机改变交互方式的过程中,我们已经实现了通过chatbot让语音交互升级,而技术的迭代,让声音交流之外的交互成为了可能。未来,智能体还应该拥有智慧的眼睛,以及自然有亲和力的形象,能够在很多场合真正做到替代真人为大家服务。“她还可能更酷一点,比如在看到小朋友的时候摇身一变成小朋友喜欢的卡通形象,跟成年人说话就可以用成年人的沟通方式,等等。”
因此,商汤团队在最开始做AR时便形成了共识:一定要做“人”。
“我们做的AR技术,人一直是非常重要的焦点。比方说,大家看我们日常手机里的照片,可以发现60%以上都是人,以及跟人相关的活动。所以我们在做人机交互时,‘人’就是一个更加专注的方向和主题了。”
从最开始的SenseAR特效引擎,到肢体特效,再到2019年推出SenseAR Avatar,栾青认为,科技公司对AR技术和数字化人物的理解是个不断推进的过程。
“AR人物相关的技术已经有了整套的升级”,栾青对钛媒体App表示,跟过去虚拟人技术相比,过去是将人的动作变成了卡通或3D拟真形象,而现在的数字人更多是将语言、文字生成全身和脸部的动作。
“虽然从机器学习来讲,这两种都用到了深度学习,但学习的难度和精度,以及真正开发迭代的点会有不同,两种不是一个维度的东西。”
在利用AI+AR结合人物的产品方向,商汤已经做出了多次尝试。无论是从技术研发还是从落地应用来看,商汤的虚拟人项目在每一个阶段,都跟实际应用需求结合紧密。
目前,通过商汤科技的SenseAR Avatar解决方案,可以通过一张照片生成全身形象,并通过手机摄像头捕捉动作进行驱动,设计师可以进行不同风格设计。该技术将应用于直播、AI虚拟教育、游戏等场景。
商汤一方面为行业开发定制化的数字人解决方案,比如智能前台、健身教练等,一方面开放SenseAR Avatar给开发者,主打智能手机、智能硬件上的应用。而与自身业务相结合,基于SenseAR Avatar平台,商汤自家也推出了全新的AR汽车伴侣Avatar,只需用户一张照片,就可生成用户专属形象的增强现实车舱伴侣。
商汤同样提供两种拟态:模拟真人/卡通形象,根据不同的需求,都可以驱动SenseAR Avatar来进行建模。
栾青向钛媒体App表示,商汤科技会从场景中提炼出的需求,有些需求来自客户,“但我们坚持研究先行,寻求技术突破”。
商汤这种“技术从需求而来”发展路线,可以在一款爆款APP——韩国SNOW公司旗下的ZEPETO上显露出一角,即根据场景、客户需求,调整技术以快速打入市场。
2018年,ZEPETO一时间火爆朋友圈,ZEPETO所创造的真人虚拟形象,不同于此前呆板的表情选项,可以根据真人实时动态直接创造表情,在虚拟世界里与朋友合影。
ZEPETO由韩国SNOW公司开发,曾被 iOS 中国区下架,而后又更名为“崽崽”上线了更多应用商店,但之后运营较差,用户大量流失。
商汤表示,下一步他们也计划将数字人技术推广到更大的 to B 市场中。栾青向钛媒体App透露,商汤正在将数字人引入教育、银行、健身等企业级场景,让数字人充当智能前台、智能教练、AI老师,解放重复性工作繁重的劳动力。
与激进的“智人”思路不同,商汤正在落地的智能前台、智能导购数字人,采用了一个真人操作多个数字人的模式。
当用户提出数字人不能解答的问题时,真人可以直接“上身”数字人,远程协助客户完成复杂任务。相比起打电话转接人工客服,从数字人到真人的转换体验更加无缝,也确保了突发场景下工作的连贯。
创业公司
——偶邦、智能音箱公司、原力动画
AI及物联网领域的创业公司们也瞄准了数字人需求,这些创业公司,要么自己开发,要么是在大厂的AI开发者平台上,试图参与到大厂生态中。
比如上文提到的原力动画,在百度生态上,该公司已经联合百度、浦发银行推出数字虚拟人。
从诞生起就专注个性化AI的偶邦(ObEN),其产品可以通过 3D 图像重建和电音模拟技术来构建虚拟形象,任何用户都可以定制他的AI虚拟形象,即PAI(个性化人工智能,Personal AI)。PAI兼具语音表达、动作表达、3D视觉和个性化特征。(钛媒体App曾报道这家公司,ObEN郑毅:AI虚拟形象不仅是得力助手,未来或会代替人实现“永生” | 科技生活节)
目前,偶邦在加大与娱乐及内容平台的合作,为艺人打造虚拟形象。过去一年,偶邦智能已经与日本最大的经纪公司吉本兴业签约,由偶邦为明星开发虚拟形象,而经纪公司则负责运营明星的虚拟形象。
但与日韩艺人在大型经纪公司中不同,国内很多艺人签约的是工作室,艺人版权的分散是偶邦做明星虚拟形象面临的一个挑战。
明星虚拟形象在公众中的接受度还不甚乐观,这或是偶邦首先选择与观众基础最大的中央电视台合作的原因。在2019年央视网络春晚上,偶邦智能为撒贝宁和朱迅分别设计了“小小撒”和“朱小迅”两个3D虚拟主持人形象。在去年热播的央视主持人大赛中,偶邦也为在线的大众评审打造了一套虚拟形象。
另外,偶邦也拓展到了直播场景。去年9月,偶邦与斗鱼直播合作,想要推出“虚拟女主播”。
Keep也在推出自己的AI“虚拟教练”。Keep希望“虚拟教练”并不止是把“教练”角色搬到互联网上,而是内容、数据、算法和场景四方面相结合的一套体系。Keep积累了海量的用户数据——用户的社会学属性、运动行为数据、社交数据和场景数据等。通过AI技术对技术加以分析,“虚拟教练”可能会比真人教练更加了解用户的需求。(详情见钛媒体App前文:技术范儿的 Keep 发力AI赛道,为什么“虚拟教练”会更懂你?)
还有一部分智能硬件公司,例如狗尾草智能开发的HE琥珀智能音箱,希望能将数字人植入到智能设备中,为消费者提供陪伴服务。
数字人的落地,始于“职业替代”场景
在“造人”的探索中,国内外企业的技术路线也有微妙的区别。海外厂商更像是在试探虚拟人“拟真”技术能够达到的上线,而国内厂商考虑得更多的是这项技术如何能落地应用。
但无论是“拟真”、还是应用,眼下来看,技术赋能方已经做好准备,并跃跃欲试。
“为什么今年大家越来越多做这个事情?从行业上,数字人的技术慢慢的达到了一个阶段,需求也慢慢的在开始寻找落脚点。”栾青说道。她向钛媒体App透露,在ZEPETO之后,就有数家客户提出,希望将这样的拟真形象产品应用到他们的行业场景中去。
另外一个有趣的信息是,这些科技公司并不将虚拟人形象拘泥于真人或是卡通,在攻克技术难题之后,虚拟人是真人形象还是卡通人形象,全看应用场景和法规政策约束。
来自腾讯的俞栋则补充道,高拟真写实的虚拟人和卡通二次元风格的虚拟人各有难点,其建模、驱动、渲染使用的方法和成本也不尽相同,“我们制作不同类型的虚拟人,实际上是针对不同的场景和用户。”
而在“人造人”的落地上,大部分科技公司都瞄准“职业”角色来进行研发。
NEON的目标同样是将人工智人用于健身、主播等场景;搜狗虚拟人应用落地在主播;商汤同样打算试水智能前台、教育这种明确的职业场景。
从应用场景来看,一是在文娱领域的应用偏多:应用在影视、直播、内容、社交等行业的虚拟主播、虚拟主持人、虚拟歌手等等。二是在与人相近的服务行业中应用多:比如应用在教育、银行等行业的前台、客服、老师等形象。
通过建立专业的内容库,并且专门为完成一件事情而训练人工智能,是比较容易实现的。在这些职业性场景下,数字人已经可以替代部分劳动力。
栾青解释道:“现在我们大家在做的数字人,大部分还是我们在赋予它一个职业,它还暂时不是说一个大众化的人,因为大众化的人需要的这样一些能力就会更加的挑战,但是我们暂时还是希望它拥有一个职业。”
腾讯AI lab主任张正友也在一次采访中对钛媒体App表示,当下通用人工智能、强人工智能的技术普适性还没那么强,还不能做到像人一样听说读写、思考。而关于在基础研发领域技术“我们与展望中的方向有多远”这个问题,张正友用了一个词:“逼近”。
张正友认为,未来人工智能一定会被应用在各个方向;但眼下的应用,还需基于对不同行业的深入理解。
在技术大前提下,栾青还认为,各家的技术路线与落地规划,也与公司基因有密不可分的关系。
以商汤为例,是想把AI做成各行各业的“水煤电”,因此,在提出数字人项目之时,就已经明确了产品的商业化落地指标:“我们的数字人做出来之后,是一定要落地解决一些行业问题的,产品在研发时期就考虑到了商业化问题。”
因此,除了这些科技公司之外,上述行业中的许多科技实力雄厚的公司,也在基于自己的专业能力和AI能力之上“造人”。特别是在教育、直播行业,不少在线教育公司都在进行AI虚拟老师的开发,微软、商汤这类具有平台技术能力的公司同时也是他们的合作伙伴。
直播平台虎牙,在2019年年底也开放了虚实结合开放平台HERO,联合主播公会一起探索“直播AI数字人”的开发。
另外一大场景需求是在银行。在银行接待场景中,搭载AI的chatbot运用已经相对普及,而数字人就是普通的chatbot一套“有形象”、有科技感的体验升级解决方案。
搜狗也将数字人使用场景落在了主播、主持等特定职业场景,钛媒体App在《从实验室到荧屏,“搜狗AI合成主播”是如何接近真人的?》中曾有报道。搜狗语音交互技术中心高级总监陈伟认为,使用AI主播最大的意义在于帮助提升效率,将真人主播从大量重复性劳动中释放出来,从而有更多精力投身到深度访谈或其他工作中。
“播报一个新闻一般会有场地、时间、主播本身精力的限制,每天的产出很有限,资源本身又是受限。但AI主播不同,可以工作24h,也不必担心有错误出现。”
谈商业模式,“还很远”
目前来看,涉及数字人的C端应用并不好做,无论是腾讯天鹅静,还是虚拟主播,在市面上掀起的水花都比较小,更多以合作形式落地样本,ZEPETO也是红极一时,后续本土化运营略缺位。
也就是说,科技公司已经进入技术储备期,先把技术准备好。但目前各家也只是停留在跟合作伙伴探索商业化落地的过程中,真正谈商业模式,还有一段距离。
目前来看,科技公司都试图以B端为突破口,先赋能给有场景、乐于应用前沿体验科技的合作伙伴。大厂都没有把数字人做成“一招定胜负”的产品,更像是人工智能落地的一个产物、一场场景实验,有容错率。
而资本市场对这一技术方向也在观望中。
投身AI赛道多年,洪泰基金执行董事宋楠认为,公司纷纷推出AI虚拟形象,本质上迎合了“数字孪生”的概念。
据宋楠介绍,数字孪生指的是未来现实世界的信息都会被数字化,现实世界看到的高楼大厦在数字世界里也会有对应。因此,在物理世界里我们有一套身份和社会规则,在数字世界里会有另一套身份和社会运行机制。
”这是十年之后必然正确的事情,科技公司做AI数字人,也有抢占未来数字世界入口的原因。“宋楠指出。
但对于投资机构而言,“想让每个人都拥有数字人”这件事依然很遥远,资本市场对于这种需要长期投入,又缺少短期回报的项目十分谨慎,尤其是在当前创投环境不景气的状态下。
“比如说人类未来一定能上火星移民,这件事情是确定的,但是我从今天就开始投资火星移民吗?肯定不行。“宋楠比喻道。
除此以外,宋楠对AI数字人在数字世界中的角色也存有疑问。在他看来,在数字世界还未成型,规则还未建立时,打造数字人的意义并不大。
”如果数字世界的楼有50米,而你只有2米高,你会不会觉得要变成泰坦的形象才更适应这个世界?“宋楠问道。
目前看来,在这一赛道上,创业公司比较难“单出头”,也很难会孵化出一个“独角兽”公司来。同时,消费者对数字人的认知和应用,也没有达到像智能音箱、人工智能语音助手那样普及。
不过,在一些特定领域,潜在需求已经渐渐显露出来。在宋楠看来,虚拟形象有三种适用的场景,不过也都面临着一定的挑战。
第一种是做虚拟偶像,这需要极强的IP运营能力,毕竟不是谁都能做出初音未来和洛天依;第二种是做真人的明星虚拟形象,不过问题在于明星能否接受与粉丝这样亲密的互动;第三种是像阅文的IP赋生计划,但面临的挑战也在于大IP有限,真正出圈的只有《全职高手》、唐家三少这样的大IP。
就在去年9月,阅文集团携手微软小冰,发布网络文学“IP唤醒计划”。基于阅文集团旗下100部小说原著和主人公IP,微软小冰Avatar Framework经过框架性的整合学习后,重建小说所描述的虚拟世界观和知识体系,赋予四个大类共100个男主人设全新的可交互“生命”。
像红袖读书用户MoMo抽取到的IP角色是“仙君”,该人物性格有严肃、霸道、逻辑等几个设定。
MoMo对钛媒体App表示,“平时休闲时候会和虚拟角色互动,他们的回答大体是有逻辑的,比较符合人物的特征。”
Keep CTO 彭跃辉也在此前采访中对钛媒体App表示,虚拟教练服务,首先会吸引到Keep用户中对私教费用敏感的人群。也即,技术是免费的,但虚拟教练业务有其收费场景。未来,“虚拟教练”整合到一些业务场景和硬件产品中,是否能从用户端赚到钱?目前还难以下结论。
不过,技术落地尚处于摸索过程中,更不用谈及明确的商业模式了。
阅文对钛媒体App表示,在赋生100个角色项目筹备过程中,遇到的最大的挑战始终是“如何让AI的发言更接近角色”,为此不仅需要将大量原著文本描述提供给AI作为分析的基础,也需要对IP形象有深入理解和把控的专业人士为角色撰写感性描述文档,让微软小冰的开发人员同步加深对IP形象性格的理解,从而对AI学习的结果进行不断的细节调整,让对话更流畅,更接近书中的角色。
另一方面,由于书中的角色自带世界观和知识储备,比如电竞大神需要精通游戏用语不同作品里,专精的游戏都是不同的,甚至有原创世界观背景的游戏,这种情况下,需要对不同角色在原作基础上建立不同的知识谱系,这是一个相当大的工程,目前这一部分还在推进的过程中。
阅文对钛媒体App指出,“IP赋生”只是“AI+IP”的初探,虚拟男友在红袖读书的入口较深,后期或会根据用户接受度开放更明显的入口。
另外,在“拟人”这件事上,已经出现严重的产品同质化问题:
俞栋表示,从三个方向已经出现大量产品同质化现象:一是智力层面的拟人:受NLP技术限制,短期内难突破,各厂商的产品集中在siri、alexa等能执行简单单工指令的助手阶段;
二是声音层面的拟人:集中在语调像(不管是唱歌还是说话),解决同质化的关键在于让音色也更像,同时降低千人千面长镜下的数据采集量和建模时间,以降低使用门槛;
三是呈现层面的拟人,按精度可以大致分为两类:toC领域:类似于虚拟主播、Animoji、Zepeto等卡通非写实风格的模型已经达到了较高精度的实时驱动;各大直播、短视频平台也有/正在开发相应的功能,其终极形态就是“能实时驱动的迪士尼动画”。
俞栋认为,解决同质化的关键在于两方面:降低数据采集/驱动成本,让千元机也能跑得动,二是从产品侧开发更多的玩法。
但在toB领域:类似于好莱坞大片、3A游戏等超逼真写实风格的模型上目前尚无法实时驱动,且模型制作成本高,是各家发力的方向之一,但尚无成熟解决方案找到画面质量和成本的平衡点。
虽然一切仍在起步阶段,但数字人的趋势已经2020年初显现出来。
“把现实世界映射到数字世界的趋势是绝对不可逆的,未来我们可以构建一个更广阔的数字世界。我们会认证身份信息并且定义数字世界的规则”,宋楠对钛媒体App表示。
整个数字世界还是黑色,而科技公司所做的就是在这世界混沌之时,先把数字化的人点亮。(本文首发钛媒体App,采访/芦依、李程程、赵宇航,撰文/赵宇航、芦依)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
栩栩如生