【钛坦白】智能音箱背后的自然语言理解和知识图谱技术-钛媒体官方网站

以语音说话为主要交互手段，以音箱为媒介，打通了海量内容，能听，会说，懂你，并对接了服务资源，这才是真正的有智能的智能音箱。

钛媒体旗下的钛坦白微信课第27期，也是“AI已来”系列分享第1期，请来了6位语音识别、自然语言处理领域的钛客进行分享。本文根据海知智能创始人、 CEO谢殿侠的分享整理。谢殿侠有着多年文字处理、知识管理技术及管理经验，创办海知智能并带领团队开发出首款中文个性化聊天机器人开放技术平台。

以下是谢殿侠在钛坦白的分享：

大家好，很高兴今天晚上在钛坦白给大家做一个分享。前面几位从不同角度阐述了AI和产业相关的知识，我将从一个具体的“智能音箱”产品入手，谈谈在人工智能技术支持下，我们能赋予音箱这款传统的产品多少新的可能性，以及最终能给用户带来什么样得全新体验。

决定智能音箱质量的是什么？

我记得去年讨论智能音箱的时候，大家仁者见仁智者见智，观点不尽相同。甚至，广州、深圳一些传统蓝牙或无线音箱厂商的负责人认为，能通过蓝牙、wifi连接智能手机，就是智能音箱了。我认为，真正的智能音箱，应该是以语音说话为主要交互手段，以音箱为媒介，打通了海量内容，能听，会说，懂你，并对接了服务资源，这才是真正的有智能的智能音箱。但从去年到今年上半年，怀疑是主流：这事儿靠谱吗？这样的音箱大家会纷纷买单吗？

直到最近，Amazon Echo这款智能音箱在北美开始普及，销售量超过500万台。谷歌也紧跟亚马逊的步伐，推出了一款类似的叫Allo的智能音箱。智能音箱作为生活场景的一个重要入口不再仅仅是个概念，已经是正在发生的未来。我在硅谷看到，不少朋友家里面 Echo 已经成为一个常用家用电器，成为家庭新成员持续性服务。而不是像其他智能产品如眼镜、手表等，更多是极客的玩具，普通用户用一阵就扔到抽屉里了，或者只是作为传统的产品使用为主。智能产品和传统产品没有本质区别了。有人说，Echo类似于当年 iPhone 在智能手机时代的地位。智能音箱时代来了！

反观国内的几款智能音箱，从目前结果看来，没有哪个产品像Echo成为了家庭新成员，获得存在性，产生持续性价值。为什么呢？我们可以从三个方面来看：

音箱品质。我去年拿到Echo后，和深圳音箱专业人员交流，他们惊讶于其声音品质和硬件质量。一百多美金一台的Echo，即便去掉智能性成分，也是一款不错的喇叭，和同价位的蓝牙音箱相比具备一定的可比性。我们这些没有成功的中文智能音箱，则和同价位的蓝牙音箱比，还是略有差距，没有足够的竞争性。所以，智能音箱，首先得把音箱本身的品质做好。
音箱智能。音箱有智能，至少能用人的自然语言与人交流，能够听懂人的意思，能给人想要的内容。近两年语音识别技术突飞猛进，大家有目共睹；但语义理解方面，的确挑战不小。对比之下，Echo在和用户交流过程中，针对提供服务的领域里识别和理解做到了一定的可用性；我们这些中文智能音箱的先行者，可能中文语音识别环节不错，但语义解析环节薄弱了一点，最终用户整体体验产生了瓶颈。
内容资源。声音品质和交互体验上有保障了，还不够。当用户开口说话，智能音箱听懂了，让用户爽最好的方式是直接给用户想要的结果，比如点歌就直接放歌，想听相声直接播放相声。语音交互为媒介的智能产品与网页、app 类有界面的产品不同，它没有没有界面限制用户提问的内容范围，人们开口与音箱交互的时候，几乎是没有显性边界的。这种情况下，就要求内容一要有质量，二要有体量，理解并覆盖到用户想要的东西。同样，Echo结合了亚马逊自身的资源的音乐库，同时接入Pandora、Spotify等第三方资源，具备相当规模的体量。体验过echo就会发现，在它提供服务的领域范围，体验是得到保障的；尚未覆盖的领域，智能音箱里面的机器人Alexa 会告诉你“对不起，我没有这个服务”。我们中文智能音箱产品先行者，也许内容涉及的领域种类颇多，但内容的质量和体量有待于提高。

当然，影响智能音箱质量的因素不止这三个方面，但以上三个方面在很大程度上决定了一个智能音箱的整体用户体验。作为一款音箱如何提高声音品质不是今天讨论的重点，后两块部分尤其是语义理解以及资源整合上，我们已经对此相对来说有了一些理解、尝试和经验积累，即便同时也面临着挑战。

理想中的智能音箱什么样？

那么在什么样的场景，解决用户什么样的问题，智能音箱类的产品才能在家庭中占有一席之地，变成一款大家用上一阵后便离不开的产品，并有可能实现将来智慧家庭生活入口呢？我们来通过一些具体的例子，看看理想的智能音箱会是一种什么样的体验。

场景1：通过智能音箱问天气

最常见的询问天气表达“今天天气怎么样”，这个没有难度。智能化之后会是什么样呢？如图：

这跟传统理解的天气预报不一样。用户使用自然语言交互，他没有说我要问天气，或者天气预报，当我们真正在生活中产生对天气情况查询的需求，对话都很场景化，场景比如”今天下雨不，去上海要带伞吗”，实际需要理解的是时间、地点、是否下雨。

这几个例子，同样是询问天气，但用户只想了解温度，机器进行语义理解后，只回复了气温数据和建议；由此产生多轮询问，切换时间、切换城市，都能针对性回答问题。所以，作为天气这么一个最基本的服务，智能化在于怎样使用户通过更自然的方式表达诉求，机器通过更人性化的方式满足诉求。

场景2：闹钟叫醒服务

比较早的时候是机械闹钟，上发条，到点就会响铃，然后手动摁掉闹钟停止。现在大家用智能手机设的闹钟可以实现到点后手动停止，或推迟多长时间再唤醒。智能化的闹钟可以怎么玩？篇幅有限，我们只看一个环节：闹钟设置完毕，也在规定时间响起，如何有效唤醒主人起床或关闭闹钟？

基于语义理解，我们可以做到如下图：

如果用户成功回答问题，艾如意宝宝反馈关闭成功，闹钟就不再响了。如果用户回答错误，我们还能设置音箱给用户多次回答的机会，直到答对后音箱成功关闭，这时候人也该清醒了。有些情况下，用户真的无法回答或需要赖床，基于语义理解，我们也可以做到比如：

这时候艾如意宝宝知道用户要往后延迟起床，仍然知趣地闹钟关闭成功，说：哎呀，还是拗不过主人。

所以人“人”交互，人和机器人的交互设计，就有很大的不同。人不是机器，会有模糊，会有不同表达方法，我们希望智能音箱中的机器人也能人格化，被当成一个伙伴而不是冰冷的机器。

停止闹钟功能，除了上面举例的诗词之外，也可以设为成语接龙，比如音箱里的艾如意宝宝说春风化雨，用户说雨过天晴，艾如意宝宝说闹钟关闭成功了。当然玩成语接龙也有可能想不起来，艾如意宝宝也会更换不同的题型，提供足够的容错空间，比如再玩点儿别的：口算55+66等于几？中国有几个省等等，当艾如意宝宝明白你的意图、同时具备了一些知识技能后，就可以与你深层次互动，来达到设计好的目的。

我举闹钟这个例子来表明，通过语义理解可以定制出这么一类新的智能产品交互模式，能够使机器与人像人与人一样进行有趣、有用的互动。

这些新的产品交互模式可以基于具备的领域服务资源进行整合。比如需要有所有诗词的知识，才能够知道诗句的上一句和下一句。当这些领域覆盖后，结合系统的机制，就可以整合形成我们刚刚演示的闹钟唤醒停止功能。以此类推，通过不同领域服务与语义理解的组合，可以形成各种各样意想不到的打破传统产品交互设计带来的效果。

场景3：我想听罗胖子讲互联网

如果早上想听新闻，就对音箱说，音箱里面的艾如意宝宝将文本的新闻通过一些初级或深入的分析，再用TTS语音合成找到结果，或直接调用有声资源将现成的音频资源播放给你听。目前我们平台整合了约1500万网络音频资源，从儿童故事到名家讲坛，从名著章回到相声小品，在你说你想听什么后，大都可以直接为你播放。

比如，我想听罗胖子讲互联网。音箱能反馈什么？结果为返回罗振宇的一期逻辑思维“五问互联网”的节目。传统的搜索很难做到这点，为什么呢？因为搜索”我想听罗胖子讲互联网”会出现很多东西，如何才能命中这个准确的内容呢？

从技术实现来讲，还有几个问题：第一，艾如意宝宝需要知道，用户是想听一个节目；第二，知道用户要听节目后，还要明白用户要听什么内容；第三，撇去次要信息，解析出罗胖子是个人，讲互联网话题。

那么谁是罗胖子？有的人说，是罗振宇，有的人会说，不，是罗永浩。这两个都是胖子，都还有点名气，为什么系统返回了罗振宇讲互联网的内容呢？在相对成熟的体系里，系统把罗振宇、罗永浩等字符串映射到一个个实体：一个名字是罗振宇的人被称为罗胖子，是前央视的记者，后来自己创业做逻辑思维，是个媒体人，常常开讲从技术到人文到各领域的见解；一个叫罗永浩的人也被称为罗胖子，锤子手机的CEO，过去做英语培训，搞行为艺术，他可能更多的是会推销锤子手机，或者是讲讲英语等。有了这些判断，系统定位了罗胖子更可能是罗振宇。最后就搜索匹配关于互联网话题的内容，结果逻辑思维节目中有一期叫“五问互联网”。这个过程既包含了自然语言理解，也包含了知识图谱应用。

当内容体量非常大，人们的问法说法也非常多时，命中率通过应用这些技术会比传统关键字搜索高不少。当然，想穷尽所有的说法，给所有用户的所有表达习惯一个满意的答案，还有一段路要走。

场景4：点歌

音乐，对于智能音箱来讲，是非常重要的一个功能。目前，我们已经整合了千万量级的音乐元数据，也能覆盖了用户关于音乐点播的多样化的说法。目前主要有三个方面的智能化特点：

过去比较传统的做法是，我想听谁的歌，音箱就返回此人的歌曲，一般用搜索模式也能做到。但比如”我想听五月天的新歌”，这就有点儿不一样了，我们不止会识别”五月天的歌”还会将”新歌”作为关键点，返回五月天最新的歌曲列表。如果接下来继续问”来一首他们的《倔强》”，艾如意宝宝就通过音箱就开始播放这首歌了。这个”他们”是谁？系统理解就是上一轮对话中的”五月天”——完全贴合自然人的沟通方式。你也可以说“来一首《好久不见》，陈奕迅唱的”，音箱播放了陈奕迅的《好久不见》，然后你突然想：哎呀，好像张学友也唱过《好久不见》！说“换一个张学友的版本”。这时候，系统会切换到张学友的《好久不见》，接着，你留恋起了张哥哥的歌喉，继续说“再来一首他的《吻别》”，这里的”他”指的是谁？张学友。这些都是基于自然语言理解和知识图谱技术的问答，区别于传统的关键词查询，更加灵活、准确、自然。
场景化点歌。 比如说“放点适合喝咖啡时听的音乐吧”，或者“哎呀，我最近心情有点郁闷，听什么音乐呢”，甚至“我这会儿在写作业，来点儿轻松的音乐”，等等，这时系统会根据特定场景，返回适合这种场景的某些类型的音乐。
新一代的的智能音乐推荐机制。用户连场景也无需描述，只说放音乐，音箱自动播放适合你的音乐。一方面，系统会尽可能懂你，通过对话过程了解你是谁，播放记录理解你的口味，以及点歌、播放以及其它领域聊天的过程通过对对话的理解来把握用户的兴趣偏好。我们把整个的音乐库做成是一张大的图谱，最后找到适合你的这些音乐。而且你用的时间越长，系统会对你的了解会越准，推荐的歌会越适合。怎么做才能实现这些功能？一方面是让机器懂人的意图是什么，另外是知道资源知识在哪儿。从产品技术的角度来讲，就是一套自然语言理解和开放知识图谱的技术服务平台来提供语义API给大家来实现这些功能。

海知智能，降低打造机器人大脑的门槛

下图是我们总体的技术架构，左边是IOT智能硬件、机器人、即时通讯的工具、APP、网页或者是电话，其中的语音识别和语音合成我们不涉足。但多轮对话的机制、自然语言理解到语义搜索，接着对应到领域服务，领域服务获得内容之后，通过自然语言生成答案，中间核心部分是机器学习和知识图谱技术。

在领域服务方面，一来，通过开放接口对接大量第三方数据，另外，我们平台提供专门的语义工具箱可以为机器人运营方或者产品品牌方使用，用来设计自己的个性化特色。海知智能ruyi.ai作为开放的技术平台，采用开放的业务模式，从底层的技术到上层应用都对外开放，大家可以做出属于自己的个性化机器人大脑。

例如，如果有一款音箱，接入了技术平台上的艾如意宝宝机器人后，勾选音乐服务、有声资源服务、天气、笑话、百科知识等等服务，就可以实现基本的语音交互了，机器能听懂你，还能给你答案或者结果。当然，如果仅这些功能可能会出现千机一面的现象，一千种产品接一个技术平台，不做任何个性化编辑，雷同度将非常高。但使用了语义管理的工具箱，几乎任何人学会后都可以对机器人大脑增删改写自己的问答对儿、去做自己需要的二次开发定制机器人的技能。前者对无任何相关专业基础的文科生来说，只需经过不到三天的培训，就可以掌握这个工具；后者则需要一定的开发技术，能做出自己想要的东西。两种定制模式结合，将智能音箱打造成从内而外的个性化机器人。

海知智能是一家创业公司，提供语义API开放技术服务，但不会重点面向开放领域做，而是针对若干垂直领域做深做透。除了开放给合作伙伴，我们也开放给同行；如果同行有自己的API，觉得自己的更好的部分用自己的，没有的或者没有我们好的可以用我们的。因为用户一开口说话，覆盖的领域范围就非常的多，大家把各自专业或者专长的 API结合起来满足用户尽可能多的连续性需求。平台开放，不仅仅把语义管理工具箱开放给大家，把技术接口开放给开发者，同时不管文科生还是理科生，内容的运营者还是程序员工程师，可以在这个技术平台的基础之上，经过二次加工或开发，形成具备个性特色乃至人格化的机器人大脑的技能，为自己的品牌服务。如果愿意，也可以把这些大脑技能打包后做成领域服务，提供给第三方。我们很快会开放这些功能，把开发者二次设计开发的技能变成一个公开的领域服务。这样一来，其他人做的机器人大脑也可以用你的领域服务，丰富自己的机器人大脑技能。

因此，我们也在与若干高校、企业等，发起中文开放知识图谱联盟，就希望能够让大家把数据通过 API开放互联，一起来让中文的智能机器人具备越来越强的服务能力。

目前，海知智能已经做了二十多个领域，尤其像音乐有声资源，与Echo做过专门对比，撇开Echo的高超的英语能力不谈（这家伙只有英文版），我们的成熟度，包括用户体验、数据数量、覆盖的用户说法等等，相对echo的这些方面，都有了些超越，覆盖的说法更多，命中率也更高。

另外像闹钟这种类型的服务，这也是他所没有的，echo只是简单的设置一个闹钟，还是用语音输入法的方式设计产品。但是我们已经具备了这个能力，可以让这个事做得非常有意思。当然Echo及其 Alexa还是非常强大的，其整体体验也是非常棒的。只是从我们的角度来讲，到目前为止，海知智能ruyi.ai及其艾如意宝宝机器人在支持中文的智能音箱方面，智能化程度上和资源的整合方面达到了一定的成熟程度，不亚于 Alexa（英文能力）。我们支持几家音箱的品牌最近也会陆续的上市。

不远的未来，每一个家庭的每一个房间，都应该有一台智能音箱。2017年是智能音箱爆发的第一年，会是中国智能音箱元年。也许是两三年，或者三五年，它应该不比智能手机普及的速度更慢，会覆盖更多的家庭的场景，会变成家庭的一个不可或缺的新成员。

所以，海知智能的使命是“人人会做机器人”。就是把打造机器人大脑的门槛，降低到足够低，只要你会用电脑，会玩微信公众号你就可以做一个自己的机器人大脑，像过去做个app或者是网页一样为大家提供服务。最终希望有那么一天，人人能有机器人，机器人在方方面面为你服务，让你工作生活更加轻松如意。

钛坦白群友互动：

Q：你们用的到语音识别、语音合成之类的技术吗？自己不研发的话和哪家企业合作？

谢殿侠：我们不做语音识别和语音合成，也不碰硬件，只专注于语义API，专注于这个技术的平台。我们的输入端是文本，所以任何一家语音识别的公司，转换成文本之后我们都可以对接，并且可以根据语音识别的结果通过语义理解来做对应的修复和优化。

Q: 免费的开放平台，能够获取大量的用户数据丰富知识图谱，整体的商业模式是怎样的？

谢殿侠:我们并不是完全免费，Freemium的方式，有限的免费。比如在针对硬件服务这部分，我们有对应的licence加API调用的收费方式，以及包含使用了音乐等第三方的收费服务。

Q: 语音转文本会存在错误率，对后续意图识别影响会很大吗？特别是bot后端对接海量服务的时候，意图识别的准确率和效率的问题

谢殿侠: 语音识别的确是会有错误率，比如说不管是大家差错率降到百分之几，比较小的差错率对我们影响不大。我们可以通过语义理解来修复语音识别的差错，即使两边是完全松耦合对接，当然紧耦合也有可能会带来更好的结果。当差错率比较小的时候，我们是有可能去修复错误结果来提升整体的理解准确性，但是如果差错率比较大，比如说有噪音或者听歌过程中打断进行交互时语音识别错误率偏高时，语义理解进行修复的难度就会比较大。所以说，当差错率小到一定程度的时候，我们可以起到好的作用，当差错率大到一定程度的话，我们暂时还无法保障结果的有效性。

Q：专注垂直领域，有深度才能够智能。

谢殿侠：对，因为从现在来讲，比如说人脸识别突破了机器视觉能够超越人类的识别能力，语音识别也接近了，但是语义理解和自动化处理知识，这一块机器和人相比还是有距离的。在这种情况下，我一直强调一个观点，“叫特定场景，特定用户，面向特定问题提供特定的领域服务，围绕着垂直把事情做透”。

智能音箱表面上来讲是个单品，和机器人相比比较简单，我们把智能音箱定义成机器人的 MVP。所以如果要把产品做好还是有很大难度，比如首先需要把芯片板卡成本降到足够低，稳定性提高到足够的高；然后是语音识别，语义理解的中间的环节，还有内容的资源整合。这些环节做好做透，既有技术含量高的地方需要去挑战，也有苦活、脏活、累活的做做通。当然音乐等版权内容领域，这一年多经历了版权不断变化收紧和行业格局进行变化调整的过程，我们一直在对接各种各样正版的资源。不管是技术上还是商务上，这条路已经打通。所以从智能音箱这个产业链角度来讲是天时地利人和，万事俱备只欠东风，接下来就看有多少品牌来做以及做到多大的量的问题。

Q：智能音箱的价格大概会是多少？

谢殿侠：音箱的成本主要取决于硬件，喇叭的质量、芯片板卡、外观，然后是材质，还有软件这块的成本，当然还有可能的内容资源成本，比如版权音乐但不会太高，所以核心的成本还是在硬件上。目前我所知道的价格大概有的一千多的，有的是做三五百的，当然三五百的各块的品质是相对有限，但是基本上一千块钱左右的，作为一个喇叭，它的质量已经非常好了，再加上语音交互，结合好的内容，这个体验是相当不错。

Q：人人都有自己的 bot，平行世界的自己？

谢殿侠：我这儿说的人人有自己的机器人，可能跟平行世界里的自己还有点不一样，平行世界自己是你的影子，现在我们可能侧重的还在于说为你服务的机器人。就像过去的皇帝，以后每个人都可以是皇帝，因为你也可以有三宫六院，七十二妃，文武百官，不过都是机器人，不管是什么形态。音乐背后可以是一个机器人，实际上新闻也可以是一个机器人，导购也可以是机器人，换句话说，以后所有的服务都可以用机器人来做，就好像电脑上用网页来为大家提供服务，手机app为大家服务一样。所有人能提供的服务，未来都可能会让机器人先在前端来提供。当然这个机器人的形态可能体现在智能硬件上，尤其智能音箱，结合到app里面也可以，放在网页上也没问题。而且机器人适应我、习惯我后，机器人就和我就建立了一个关系，机器人熟悉了我的性格、我的偏好、甚至我的脾气，这时，机器人成为一个与我非常熟的朋友。这时的机器人有两个特点：第一这个机器人非常专业，第二这个机器人与我非常默契。

所以我们说的个性化的平台，除了不同的品牌的机器人会有不同个性化特点；另外，即便同一个机器人在服务不同用户的时候可以和用户建立独特的关系。比如最基本的你可以叫机器人小狗或者小猫、翠花，机器人也会问你，请问我怎么称呼你，你可以让它叫你老爷、老王等等。（本文独家首发钛媒体，根据海知智能创始人、 CEO谢殿侠在钛坦白上的分享整理）

………………………………………………

钛坦白第27期，也是“AI已来”系列第一期，六位钛客的精彩分享已经结束，干货会陆续发布：https://www.tmtpost.com/tag/1508094

【预告】钛坦白第28期：AI已来，让机器看懂这个世界

时间：12月26日、27日19点-22点

地点：钛坦白|人工智能（微信群）

报名入群：在微信公号“钛媒体”（taimeiti），发送“钛坦白”

推荐钛客、赞助、合作：请与钛坦白负责人佳音联系，邮箱jiayinge@tmtpost.com