在钛媒体在线课“钛坦白”第47期,我们邀请了三位钛客分享对于人机交互方式中的语音交互的看法。本期钛客之一、腾讯物联云语音云总经理毛华,负责腾讯的物联和语音技术的产品研发和生态建设。自2011年加入腾讯以来,先后负责腾讯手机管家、应用宝、QQ物联、视频云、语音云的产品规划与建设,在互联网产品与创业方面拥有超过17年的行业经验。
本文节选自毛华在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击:https://www.tmtpost.com/pro 注册。
以下根据毛华在钛坦白的分享实录整理:
非常感谢佳音,也感谢钛媒体,可以有这样的机会跟群里的各位朋友交流。
先介绍一下腾讯云小微。腾讯云是一个智能服务平台,主要由两大平台组成:一是小微硬件开放平台,各类硬件都可以接入这个平台;二是小微Skill开放平台,让接入的这些硬件具备一些能力。
小微硬件开放平台可以接入的硬件形式多样,种类也不限,大部分联网的硬件都可以接入,目前支持Android和Linux两大操作系统。而且接入非常简单,小微提供SDK,硬件只需要接入这个SDK,经过简单的配置即可实现所有语音输入与内容输出的能力。我们最快的接入案例是一个Android机器人,只用了两天时间就完成了所有的能力接入。
小微Skill开放平台则可以接入大量的内容与服务,以便让硬件具备更多的能力。比如为智能音箱设备提供QQ通信、音乐、FM、物联等能力,用一个QQ或微信帐号即可实现内容与服务的联动。我们希望通过小微智能服务平台帮助硬件快速实现听觉和视觉的能力,无论是音箱、小屏设备、机顶盒电视机,还是汽车、机器人、冰箱等设备都可以快速接入,并具备小微语音和视觉的能力。
小微背后是腾讯在人工智能领域的积累
腾讯其实有很多Ai技术储备,只是都在为各自的业务提供能力,比如语音识别和语义分析,微信在过去的几年里一直在打磨并应用于微信内,比如优图的人脸识别已经做到了全球第一,并应用于天天P图和视频监控等领域,比如QQ物联在过去的2年多时间里接入大量的智能硬件设备。就是因为有了这些技术积累,小微智能服务平台只用了1个月时间就实现了从0到1的智能语音音箱Demo,如此之快的原因就在于,小微的框架用的是QQ物联平台,语音能力用的是微信的语音识别与语义分析,再结合微信的QQ音乐、企鹅FM、腾讯视频、K歌等带有大量版权的内容,完成了从0到1的搭建。大公司有个优势,就是把资源一整合,一个新的东西就出来了,不过从Demo到平台稳定易用还有一堆的事情要做。
接入小微,就可以自带很多资源,具体来说分这么几部分:
一是带有大量版权的内容,音乐(QQ音乐是中国最大的正版音乐库,四大唱片公司中有3大公司的版权在腾讯),企鹅FM里有广泛的有声读物内容包括相声故事评书等,还有腾讯文学(阅文集团是中国最大的文学版权方),腾讯视频也是最大的版权拥有方,以及其他如新闻、动漫、股票等内容。
二是所投资的内容与服务公司的业务很广泛 ,如滴滴出行、58同城、美团、医疗、新东方英语等,这些都为设备提供了很多有价值的服务,如在设备上用语音打车或叫家政服务或在带屏设备上进行语音互动等。
三是QQ、微信的通信能力,每个接入的设备都可以是通信工具,实现与QQ或微信的电话、消息的互通。
四是物联能力,Skill开放平台不仅可以直接连接QQ物联上的设备,也允许其他物联平台,如美国的Ayla物联平台、中国的机智云等通过Skill开放平台接入,从而实现语音对设备的控制。
小微背后的腾讯团队
小微涉及到腾讯公司好几个团队的协作,包括微信人工智能团队、AI Lab和优图团队。微信与AI Lab负责相关技术如语音识别、语义分析、翻译、百科等,其他内容团队提供海量的内容。小微其实就是把腾讯内部的这些人工智能团队的一些优秀的成果集合到小微里为大家提供服务,无论是语音相关的能力还是图像相关的能力,接入我们的平台就可以实现一站式服务,从语音的识别到语义的分析以及内容的返回再到TTS播放。
我们的理解是:未来硬件会是一个瘦终端,对硬件本身的要求会很低,而真正的能力都在云端。比如一个小盒子,也许只需要两个麦克风、一个小喇叭、一个WiFi模块外加一个外壳就行,在深圳这样的设备也许成本只需30元就搞定了,但是它所具备的能力却相当大。有的App也许不需要App的外壳,把内容和服务抽取出来,比如滴滴可以没有App只有服务,有人做了一个硬件的壳,加上2G网络,对着设备叫车,然后车就来了,这个硬件就是App。内容可以有多个不同的外壳,但内容无处不在。
钛坦白群友互动
1.智能音箱唤醒词问题的探讨
群友A:有个知名媒体人最近发了篇文章,吐槽每次使用智能音箱前都需要大喊一句命令,比如“叮咚叮咚”“小微小微”,这样的交互比较不自然。
群友B:这个“命令”的字段可以修改吧?
毛华:是的,这里的自然顺畅与实际应用场景有关系。
群友A:就算修改,也是要一个命令。
群友B:最好是日常用语,这种“叮叮当当”比较奇怪,出厂预设几个供用户选择。
毛华:唤醒词就像人的名字,语音互动就像是两个人交流,但如果在场的有三个人,都闭上眼睛说话,谁都不知道跟谁在说话,所以需要具体用名字来指向,唤醒词就是这个名字,你在说话前先喊一下这个人的名字,对方才知道是在跟他说话,不过有些是有上下文关系,可以省略部分场景下的唤醒词。
2.智能音箱误唤醒的技术调整
群友A:音箱的声音特别大的时候,你召唤它,它听不见你跟它说话会不理你,这个时候要把音箱的声音调小,它才能识别人的语言。
毛华:唤醒和误唤醒是对Array的考验,我试过一个7mic的Array,做得很不错,12米带噪音环境下使用效果不错,不过未量产,希望这样有能力的公司以后能为语音能力做出更多贡献。
群友B:7mic听起来有点多,看来未来也需要硬件的整合能力啊。
毛华:我本人认为,在中国音箱产品未必是最好的形态,中国对音箱的需求不一样,中国人对蓝牙音箱和耳机的需求很大。
群友A:现在语音主要实现功能强大,未来实现语音性能多样化,比如HIFI音质,这样会越来越淡化硬件,因为在后台或云端就都被语音整合好了。
群友C:但是目前经过印证的智能家居中,音箱被公认是比较容易做的起来的,所以亚马逊、谷歌、苹果都在发力。
毛华:中国与美国不一样,美国是大house,中国是公寓,对于音乐的理解也不一样。
群友A:亚马逊语音也是一个偶然的产物吧。
毛华:我的理解就是一个偶然产物。
群友D:同意您的观点,音箱不是最好的场景。家庭智能解决的是连接,语音非关键。
3.智能音箱如何识别用户身份?
群友A:如果小孩子唤醒了小微,下了一个订单或者叫了一辆车,实际上并不需要,这个场景怎么避免?
毛华:这个跟小孩拿了手机买游戏币是一样的问题,不过我们可以有声纹,声纹用于身份验证。
群友A:如果我希望小孩正常使用,比如听歌什么的,是不是还要设置不同的权限,比如家长模式?
毛华:我们有歌单,歌单通过QQ或微信帐号绑定,同时绑定声纹。这样每个人都可以听到自己的歌单,出来的内容是自己QQ音乐里的,并且可以通过声纹进行认证。
4.语音交互质量的评判标准
群友A:关于语音交互质量,腾讯有没有评判标准?
毛华:这里特别要提只有少量内容的才可以做到各种识别能力的提升,交互质量在于返回的内容是否符合用户的预期,我们有自动化测试。
群友A:怎样的标准呢?对或者错?怎么算对?
毛华:对错的评判有的有标准答案,有的没有,没有的情况下会进行人肉判断,请几路专家打分。
群友A:语义理解有很高的技术门槛,听见了不等于听懂了,还存在同音词问题。
毛华:这跟语境有关,上下文和语境是AI的一个关键点,语音识别率的提升只是时间问题,随着麦克风阵列和算法的提升,识别能力必然可以提升,相信明年就会不一样。
群友B:语义理解我们提了四个标准:1.差异性,“你干嘛”和“你干嘛的”要能分开;2.同一性,“你公司在哪里”“贵司在什么地方”要能理解语义相似性;3.模糊性,“小明的生日是哪天”要能正确理解;4.一致性,就是前后说话要一致。
毛华:你说的很专业,但这些都不是什么太大的问题,语义要有纠错能力,比如用Siri,我说“我要去西溪乐谷”,它只知道“西溪肋骨”,但是讯飞和小微就知道是”西溪乐谷”,这是因为它知道这个意图是要去一个地方,这个地方叫乐谷,不是要去身上的肋骨,我们首先要识别意图是干什么,然后在意图下理解更多的关键信息,这里就需要纠错能力。
群友C:标准是不是后面可以再加两个,一个是语音反馈的节奏,就像我们人和人对话,说不同事情,语速和节奏是很自然的;第二个标准是语音表达能否更人性化,更自然一些,现在满满的机械感。
毛华:你说的是TTS,就是把文本转成语音,这个目前实现得还可以,但还有很大的提升空间,目前语言交互的声音语调基本还算是人话,但还需要提升,特别是没有那些感叹词,比如“呵呵”“嘻嘻”,不太自然,如果能有感叹词那些语调就会自然很多。
群友B:人名、地名都很难处理。
毛华:我们仍然需要学习,如果你要打电话或发消息给谁,就要对应的人名。QQ、微信的联系人就更神奇了,什么符号都有,这个用语音就没办法了,只能判断其中可读部分的词了。
5.腾讯内部如何高效协同?
群友A:多个团队一起做小微,对于腾讯这样的大企业内部协同会比较难吧?怎么处理的呢?
毛华:合作的着眼点在于是否达到双赢,这点很重要。要站在对方角度思考能你给他带去了什价值么。如果有价值,合作就一定很顺。合作不顺一定是没有替对方思考。
群友B:应该有一个专门负责整合的团队吧?
毛华:战略的同学会帮忙整合,但只限于帮忙撮合。
群友C:腾讯是同一品类都有两个不同的团队在做,看谁最终被市场认可吗?
毛华:只要有团队之间的利益共享都有可能合作好。内部竞争也是必不可少的,但都是良性竞争。
6.语音互动大生态探讨
群友A:语音互动上下游的产业链可以大致介绍一下吗?
毛华:我的理解是左右游,左边是硬件,右边是Skill,这是一个大生态。
群友A:对于Skill,我的理解应该可以分很多步骤或叫做交互,可以讲解一下吗?以及每个步骤或交互的关键技术、机会等。
毛华:理论上可以有多个步骤,但不建议多于3个。首先语音交互的着眼点是效率,如果需要互动3次才能得到答案就没有效率了。就像打电信的服务电话10000号,拨进去一串问题,一项服务要等很久才知道下一步要做什么,效率非常低,也会让人很不耐烦。多轮交互只是在部分关键点信息缺失时才用到,比如“今天天气怎么样”,没有提到城市,就会反问“请问你要了解哪个城市的天气情况?”,语音交互的着眼点一定是效率优先。
但语音也并非总是最有效率的交互形式,比如要查天气,如果打开手机就需要好几个步骤,此时用语音效率最高,说一句话一下就得到了结果。但是得到结果之后呢?要从天气的第一个字开始听到最后一个字可能需要10多秒,而用屏幕出来一个太阳加温度,可能眼睛一扫,2秒就知道了所有信息,而此时屏幕视觉的效率最高,所以语音要与屏幕结合才能达到最高的效率。
群友A:这个似乎和硬件的产业链含义不太一样,硬件有平台、系统、器件、材料、生产再加上各个部分的应用或软件架构等多个环节,从而组成整合硬件产品。
毛华:一定是不一样的,硬件在语音生态中只是一环,硬件本身还有产业链。
群友A:语音生态都有哪些内容,每个内容的关键技术和机会所在呢?
毛华:理论上内容可以有非常多,应用宝上的每个APP都可以是语音的内容,Skill本身可以理解为是一个APP。
群友B:这个APP已经不止软件了,包括实物,就是一个载体。
毛华:是的,包括内容 、服务、其它硬件(被控制的设备,比如灯)。
7.腾讯在语音生态中扮演的角色
群友A:我创业做了一个和腾讯小微一样的东西,一套原本用于车载中控屏的系统,在我加入后觉得不要碰百年历史的汽车供应商体系,不碰硬件,改到共享汽车和共享单车市场,原本可以帮到真格投资的ofo和途歌共享汽车免于投资打水漂,现在看来腾讯出手,我们就没得玩了。
毛华:这是一个大生态,我认为创业公司可以做其中一环,但不适合大生态,这里最关键的不是技术本身,而是生态内容服务能力。
群友B:腾讯这边是以提供云服务和平台为主,会有自己的硬件产品吗?
毛华:腾讯有团队在做硬件,但小微是一个平台,无论对内还是对外都是一样的支持。
群友C:语音生态腾讯会自己做,还是会联合(帮助)创业企业一起做?腾讯希望在里面作为什么角色?
毛华:一定是联合,小微是一个开放平台,左边连硬件,右边连Skill,无论左边还是右边,都是合作伙伴的,我们只是搭建了一个平台,通过语音的技术和图像的技术把硬件与Skill连接起来。
8.语音交互的努力方向、未来机会所在
群友A:语音交互涉及到的各种技术,努力方向是什么?未来机会所在又是什么?
毛华:语音识别现在其实做得比较不错了,但垂直领域的语义还需要加强,语义与大数据是分不开的,在大数据基础上才可以做好语义的分析与内容的输出,未来的机会是做垂直领域的服务。
群友B:可用、安全、整合、强大、普及、标准,我觉得这是语音当前做的事情和未来的一些机会所在。
毛华:目前语音设备离智慧还有一定的差距,要达到大家理解的智慧还有很长一段路要走。需要大家的共同参与,让设备学习更多的知识才可以,当前还不具备这样的条件。腾讯最大的优势是可以学习用户行为,以此来了解用户,从而反过来为用户服务。
群友C:用户普遍没用使用语音交互的习惯怎么办呢?
毛华:随着远场语音拾取能力的提升,使用场景也会越来越多,习惯也就会有了,总之习惯建立在效率之上,什么样的交互效率最高,就有机会改变习惯。
群友D:就语音人工智能而言,对CP来说,现在最好的创业方向是哪一个或哪几个?
毛华:CP还是关注自己有哪些优势资源吧,我认为儿童类的应该有机会,有了语音后就可以互动了,比如跟我念dog,然后语音识别后给个准确判断,就实现儿童英语的互动学习了,当然其他内容也可以。
群友E:作为智能手机类产品经理,如何和人工智能结合起来呢?未来发展上有哪些建议呢?
毛华:手机还是最好的AI承载设备,我相信以后的手机会具备远场语音能力,同时手机可以收集用户很多行为和位置信息,从而反过来为用户提供服务。华为手机就可以提醒你到公司的路况怎么样了,三星S8手机每天睡觉前还提醒你要不要看看明天的安排,手机短信收到了订机票的信息,手机就会提醒你要不要订个酒店。
群友E:看来,手机硬件设备需要主动与优势的人工智能应用联合起来,就像腾讯的各个专业部门统筹起来,做成小微,这样才能有更优的价值。
(本文独家首发钛媒体,根据腾讯物联云语音云总经理毛华在钛坦白上的分享整理)
……………………………………………………
钛坦白第47期:语音交互——更自然的人机交互方式
今晚7点,分享继续~
根据《网络安全法》实名制要求,请绑定手机号后发表评论
语音交互 是现阶段人工智能技术应用比较多的几个场景之一 。还包括人脸识别 图像识别等场景。语音方面 目前国内技术比较成熟的有科大 百度 云知声等
语音交互有学问
社会的进步,思维改变,不要停留
等语音交互比较难解决的问题能一一解决的话,那么类似咪咕灵犀,siri这样的软件发展将是爆发式的。