在钛媒体在线课“钛坦白”第40期,我们请来了三位钛客,分享AlphaGo与柯洁“人机大战”胜负之外的更多思考。本期钛客之一、搜狗基础平台负责人、机器人负责人武健,毕业于清华大学,2009年加入搜狗,先后负责搜狗浏览器、机器人等公司级重大项目。其参与主导的“搜狗汪仔”机器人,在“一站到底”节目播出后引起行业关注与讨论。
本文节选自武健在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击:https://www.tmtpost.com/pro 注册。
以下根据武健在钛坦白的分享实录整理:
大家好,很高兴今天晚上在钛坦白跟大家聊聊人工智能。我叫武健,毕业于清华大学。毕业之后一直在搜狗工作,从去年开始主导了搜狗汪仔机器人的项目,参加了“一站到底”,目前节目已经播出了半年时间,效果很好,引起了很多人的关注。
我相信在若干年前,当大家聊起机器人时,脑海里浮现出来的可能是这样的场景:
这些机器人看着都很炫酷,也非常高级,但感觉离我们的真实生活是非常远的。今天,如果我再跟大家说机器人,大家可能想到的就是这样的场景了:
诚然,工业机器人还在它所在的领域发挥着巨大的作用,这点是毋庸置疑的,但是人们的注意力已经转移到各种聊天机器人、陪伴机器人、服务机器人以及教育机器人上面了。
对于机器人的定义与理解
在科技界,科学家会给每个科技属一个明确的定义。机器人问世已经有几十年了,但是对于它的定义仍然仁者见仁智者见智,没有统一的意见,原因之一是机器人还在发展,新的机型和功能不断的涌现出来。
但我觉得根本原因,是“机器人”涉及到了“人”的概念,成为一了个很难回答的哲学问题。机器人这个词,最早诞生于科幻小说之中,人们对机器人充满了幻想。也许正是因为对机器人定义的模糊,才给了人们充分的想象和创造空间。
不管怎么样,我姑且先把之前提到的这几种机器人统称为智能机器人,即人工智能机器人。可能有人会想到底什么是人工智能呢?我先在这里卖个关子,咱们最后再来讨论这个问题。
智能机器人跟我们之前提到的这种工业机器人有什么区别呢?在我来看,最重要的一点是智能机器人是拥有非常发达的大脑的。
那么我们可以接着往下继续深入的思考一下,到底拥有什么样的能力才算拥有了大脑?因为不同的人对于大脑的理解也是不一样的,我提一些个人的想法。
人工智能机器人的关键能力
如果让我来定义的话,我觉得人工智能机器人至少要拥有两个关键的能力:
- 输入和输出信息的能力。当然这里的输入可以包含很多种了,有语音输入、图像输入、传感器输入、超声波输入、激光器等等,我也看到咱们群里有很多的朋友和老师都在相关的领域做着研究,我相信他们对这点有非常多的了解。输出的方式也是有各种各样的,有屏幕显示、语音合成输出、行为动作……
- 思考的能力。所谓思考的能力就是要求机器人根据自己的知识计算体系,结合到它收到输入的信息,经过一定程度上的计算或思考,得到一个结论,这个结论会被用合适的方式给通过输出通道反馈出去。
基于刚才我提到的这两点,一个是交互能力,一个是思考的能力,来重新思考这个机器人的定义,那么满足这两个条件恐怕就不仅仅限于我刚才照片里发的那些拥有真实物理形态的机器人了。
所以在我看来,智能机器人重要的不是是否拥有运动能力,能举起多重的东西,是否能跳起来,而是看这个东西在跟谁打交道,怎么打交道。如果一个不是人类的东西能够跟人类正常的交往,那么我其实就很愿意叫它为机器人。当然我想在这里强调一下我并没有提起是否要满足图灵测试这一点,我个人认为在现阶段要满足图灵测试还是一个梦想,拿图灵测试来做一个东西的评判标准还是不太合适的,所以说我们可以把这个标准放低一点,来看这个事情。
智能机器人的交互能力
我刚才提到了智能机器人的重点是要跟人类打交道,那么跟人类打交道里面最重要的是什么呢?大家来看机器人这个词,把它拆开是机器+人来组成的,机器二字突出的是什么呢?突出它的确是一个非人类,是一个物体。但是人字又体现出我们其实希望它是个人,更准确的说它像个人。那么你在跟一个东西进行交流时,它怎么样才能像个人呢?
其实最基本的一点就是机器在跟人打交道时它要表现得很自然,我们把这种交互方式叫自然交互。怎么样的交互才叫自然的呢?是说这个学习成本越低越好,这个交互越接近人类的本能越好,还是说我们要从信息的输入和获取的方式上来判断呢?
我们回过头来看过去几十年计算机的发展以及人和机器交互方式的演化,从纯文字的命令行窗口,到有图形的视窗+鼠标控制输入,再到后来的视窗+接屏控释,我们不难发现,其实人和机器之间的交流的学习成本在不断的降低,人机交互变得越来越接近人的自然能力。
今天,语音其实正在成为一个最自然的交互方式。马丽米克在2016年的互联网趋势报告就提到了:"语音应当是最有效的输入计算形式,在2015年,美国使用过语音助手的用户比例已经达到65%。在这些使用语音的用户中有43%的人是在家中使用。"随着技术的进步和语音效果的提升,这两年比例还在持续的扩大中。我相信在座一定都用过语音输入这个方式。
人们使用语音的场景有很多,比方说开车时候你的双手双眼都被占用了,在客厅里面,有些设备可能就没有传统的这种键盘输入,在户外行走的时候打字很慢等等。说到这里,我必须暂停一下,向伟大的苹果公司致敬,刚才我们提到的每一个新的交互形态,都是由苹果在工业界点燃的。通过自然语言来进行知识信息获取和服务的,苹果可能不是第一家,但它一定是开启时代的那一家。当然互联网上有很多关于"为什么只有苹果才能做出如此创新"的文章,数不胜数,大家都有自己的理解,我们这里就不再深入去聊了。
如何做好自然交互?
对于这种开放式的问题其实并没有唯一的答案,我也只是结合搜狗在做的事情谈一些心得和体会。
在我看来,自然交互的本质其实就是人工智能,而有价值的人工智能 = 技术 + 计算力 + 数据 + 产品。所以,自然交互= 技术 + 计算力 + 数据 + 产品。这里的有价值的人工智能,指的是能够以真实的产品形态满足用户需求的,而决不是停留在实验室里面的那些原型。
- 技术
在我刚才提到的模型里面,技术是很重要的,所以我们把它放在最前面。但是技术有一个问题,它是天然扩散的。因为互联网的本质就是分享和传播,Google在地球的另一端发布一个新的技术,用不了几天的时间,我们中国的各位选手就能马上利用起来,来结合到我们现在的技术里面。特别是在深度学习时代,技术已经很难成为公司之间的竞争壁垒。所以,在技术领域,我们要做到走在前面,跟住时代的步伐并且希望能够一起参与进来,推动技术的本质进步。但在AI时代,想要依靠技术形成壁垒和垄断我觉得已经不太现实了。
- 计算力
在这里我特别想引用黄仁勋先生的一段话:“如果我们看晶体管的代进性能递增确实速度是在放缓的,如果我们的创新只是依赖于芯片性能一代一代提升,这个速度也一定是会放缓的。但是,如果从系统、算法、设计、架构等不同的方面去看性能的提升,我们还是可以有很大的机会的。比较我们这一代的GPU架构Pascal和上一代的GPU,性能在两年之内已经有了十倍的提升,在4年时间有了65倍的提升。所以,我觉得现在可能已经进入了一个叫超级摩尔定律的时代了。”
我非常认同黄仁勋先生的观点,计算力一直在稳步提升,甚至在加速提升。今天你引以为傲的计算力,可能没多久就变成了大街货,人人都可以拥有,所有参与到这方面的人都会享受到计算力提升带来的红利,只要你有足够的投入。
- 产品与数据
所以说,技术是扩散的,计算力是指数性增长的。在当下时代,只有产品加数据才是你的私有财产,才能形成竞争的壁垒。
我们来看几个例子,2005年,google的机器翻译使用超过学术界一万倍的数据,一举成名,搞定了翻译界多年都搞不定的翻译的准确率难题。Google 2009年收购的reCAPTCHA,这个东西是通过一个巧妙的产品设计,让用户在网页登录输入验证码的同时,为OCR训练提供了大量的训练样本,解决了疑难字的识别问题。在AI时代之前,不管是商品的推荐还是电影的推荐,都是基于item之间的相似性来实现的。但自从有了大量用户产品,并且用户在这些产品里产生了足够多的数据后,厂商们现在都是利用用户行为建立推荐模型,商品的推荐进入了协同过滤时代。这是一个非常典型的通过产品上的数据积累改变了行业玩法的例子。
所以可以看出,要想做好AI,产品和数据才是重中之重。在产品和数据方面,要形成闭环,尽早让一个功能上线到产品中去累积数据,进而不停去推动技术的进步。
我想再用搜狗举一个真实的例子。搜狗目前语音识别能力和翻译能力是非常出色的。在我们项目初期冷启动阶段,我们其实利用Google的语音识别API,做出了搜狗输入法的语音输入功能,并且投放上线。随着用户使用该功能的频次逐渐增加,我们很快就积攒了一批原始数据,然后就开始了自己的建模和训练工作,在很短的时间内就用自己的模型取代了Google API,完成了自主化。在接下来很短的时间内,随着原始语料的不断积累,技术模型的不断演化,线上语音识别的正确率提升特别迅速。
目前,从技术方法本身上,搜狗没有独特的地方,训练平台我们有超过1000块GPU的体量,据我了解百度大概有2000块GPU的体量,但我们的优势是什么呢?就是线上量大。我们拥有优秀的产品,给我们带来了大量优质的数据。现在搜狗输入法每天语音输入请求能达到2.5亿次PV,每天产生20万小时的语料,在这20万小时的语料中,还包含着全国各个地区用户的语料数据。
刚才提到的只是数据积累的部分,其实你结合用户产品,我们完全可以做得更多,比如说去年搜狗输入法上线了语音修改功能:当你说错了一句话时,以前你要用手自己在屏幕上定位,然后删除,输入新的字,现在你就完全可以跟用语音修改功能说把什么字改成什么字,再哪哪加一个标点这个功能。最初我们用输入法用户的行为形成了一万条修改的文法,这个语音纠错功能刚上线的时候,修改的成功率仅仅只有40%,但是你可以通过不断的迭代和数据反馈,所以我们仅仅用了一个月的时间就把成功率提升到了80%。可以看出:通过好的用户产品形态和数据,我们就可以让产品本身表现的更智能,映射到自然交互上它就顺理成章地变得更好了。
刚才我们提到了技术是扩散的,计算力是增长的,唯有产品和数据可形成壁垒,绝不是说技术是不重要的,产品和技术之间其实也是有非常大的关系的,因为新的技术一定可以给你带来新的产品形态,同时好的产品形态一定会加速技术的进步,这两个东西一定是相辅相成,一起往前推动了整个行业往前进步。
智能机器人的思考能力
思考能力是一个很宽泛的定义,到底做到了什么样的程度才算有了思考能力?是满足了加减乘除?还是满足了一定的功能响应或图灵测试?到现在也是没有确定的范围。在这里我就想提出个人的一些看法,在我来看,在当下如果一个机器人有了问答能力,就可以算是有了思考能力,就可以被称为智能机器人了。
当然问答能力本身还是一种比较宽泛的说法,这里我把问答分成三类:
- 命令执行。举个最真实的例子就是苹果的Siri,但它需要跟iOS结合来执行你的各种命令。我们可以把它比作一种遥控器,因为这种问答AI它不仅仅可以跟iOS结合,它可以和其他任何硬件在一起,各种不同的载体来结合,也可以和各种垂直的服务结合,但它执行的一定是一个有限集合里的命令。你让它干什么,它就干什么,它主要功能和能力就是对命令的理解和分类。
- 情感陪护。这里面就是为代表作的就是微软的小冰机器人,它主打的功能就是陪护。当你心情不好的时候去跟它聊一聊,或者闲着没事干,去和它聊一聊,我把这种关系比作人和人之间交往的这种蜜月期,这里面蕴含的更多的是交往,建立情感上的交互,但是这里面很少有信息,有知识的获取。你可以试着问小冰知识,它就回答的非常差。情感陪护这种需求人是肯定有的,但是目前在我来看,它未必是个高频需求。
- 答案建议。当你在跟朋友聊天的时候,你除了有情感上的交流之外,更多的可能是一种知识、信息的分享和交换。你希望从你的朋友那里得到信息,得到答案,或者得到建议,得到知识,这种问题在不同的场景下有不同的形式,比方说有定义型的,网络爬虫是什么?有意见型的,孕妇怀孕了能吃芒果吗?还有what型,一站到底是哪个电视台的节目?,还有how to型的,指尖陀螺怎么玩?等等。
在以上三个问答的分类中,我认为这种答案建议的需求是目前来看是最高频的,也是实现起来难度最大的。
为什么说答案建议是最高频的呢?理由就是人类是有强烈的求知欲的,我们不管是在学习,工作,生活,还是娱乐,其实都需要不停地获取信息。学习中你需要查资料,生活中你买东西要知道价格,工作中你要知道各种技能,娱乐方面你要想找一些内容,找一些花边新闻,找电影看,找歌听,人类求知欲的旺盛,也是互联网这么多年如此蓬勃发展的一个重要原因。
人工智能与搜索引擎
说到这里,大家就可以停下来想一想,在我们现在人工智能时代到来之前,互联网时代中我们最需要、使用频率最高的东西是什么?我认为很多人的答案应该是搜索引擎。为什么搜索引擎很重要?就是因为它满足了人类的求知欲。那么同样都是要满足了人类的求知欲,搜索引擎和智能问答机器人之间的关系到底是什么呢?我们不妨花点时间来回顾一下搜索引擎发展的历史:
- 1996年-2012年,PC时代的搜索引擎
这时候所有的搜索行为都发生在个人电脑上,可能是家里放着的一台连着猫的PC,也可能是办公室里面的一台笔记本电脑。用户在使用搜索引擎的时候输入的是关键字,其实本来大家用来交流的语言都是自然语言,但是由于那个时代技术的限制,大家用着就会发现,问搜索引擎一个完整的问题往往得不到想要的答案,反而把问句里面的关键字人工的提取出来,就能得到更好的结果,这实际上是人对机器的一种妥协。就像我之前谈到的自然交互一样,使用关键字来表达我的想法,这种交互方式它不自然。
同时在PC时代,所有信息的载体是网页,万亿级别的网页承载着互联网上整个世界的信息,并且这些信息基本都是公开的,谁都能看见。那么在那个时代的搜索引擎的主要挑战有哪些呢?
第一个是全。看看谁能索引更多的网页信息,因为有万亿级的网页不是随便一个做搜索引擎的公司都能把所有网页都能索引下来的。
第二个是准。怎么样在这么多个网页中把最有价值的信息提取出来,展现给用户?Google的崛起也就是因为它发明了page rank算法,变得特别准,才变成搜索引擎的王者。
第三个是便捷。我怎么统一入口,在第一页的展现里把各种不同的信息都能很好的展现给用户?到了PC时代的后期,搜索引擎除了文本之外,还能提供富媒体的内容,再往后就有了开放平台,直接接入各种服务商,提供垂直服务内容。比如说天气这种东西,都能在搜索引擎首页上直接展现结果。
- 2013年-2016年,移动互联网时代的搜索引擎
从PC到移动发生了很大的变化,我们还是从设备、输入和载体这三个维度来看。
首先设备上变化就很大,大家除了工作时用电脑,平常时间走路的时候休息的时候通勤的时候也会用手机,用pad等等,使用这些智能设备的时间变得更高频,时间更碎片化。
输入方面,除了pc时代的关键字,通过手机等智能设备,我们就可以输入语音,输入图像,而且这里面每一次的输入里都蕴含着POI的信息。
信息的载体方面,除了公开的网页之外,你会发现在各个垂直领域出现了大量优秀的APP,每个APP在它所在的垂直领域都非常好的解决了用户在这里面的需求。这些APP里包含着大量的信息,但它不像网页是完全公开的,它在app里面是私有信息。
这个时代的搜索引擎在做什么呢?其实大家很容易发现,这个时代各个商业巨头在做连接,试图让搜索和APP结合起来。比方说Google推出了Deep Links,iOS底有Spotlight,deep links和universal links。还有一些战略上的合作,比方说搜索和社交的结合。Bing它收购了facebook 1.8%的股份,为的就是能让Bing在网页上展现出你的facebook好友对一条搜索结果的评论。Google和facebook之间的合作,facebook允许google索引部分内容,就是为了让google把用户引流到facebook APP里面来。再比方搜狗和腾讯之间良好的合作,使得搜狗可以直接连接微信里的优质内容,推出了独家的这种微信搜索功能,在搜索引擎中直接可以直接搜索微信公众号的内容。
同时值得一提的是什么呢?在移动时代,搜索的输出形态也发生了变化,现在的一部分搜索结果可以直接以语音播报的形式反馈给用户,在这个交互形态上也会变得更自然了。
- 从2016年AlphaGo“人机大战”开始,人工智能时代的搜索引擎
很多人把2016年定义为人工智能元年。那么在人工智能时代又发生了什么变化呢?从设备上来看,输入设备变得更加多元化,不仅仅是手机,pad,任何可以联网或以接入的设备都可以,比如眼镜,车载系统,音箱,机器人。大家现在讲IoT,这些东西都是T,things。当面临这些东西时,很多场景是不允许你输入关键字的,用户的输入就必须是自然语言了, 伴随着自然语言输入,还有一些周围的环境信息,所以整个输入维度会更多,更加立体化。在载体方面,之前的载体是网页,是APP,在现在智能时代,我们不缺信息,信息是爆炸的,我们缺少的其实是成体系的结构化的知识,所以我们在这个时代会强调知识计算。
那么大家仔细体会这三个阶段,你会发现,在满足人类求知欲的这条路上,问答就是在AI时代搜索的最终形态。输入从关键字变成了一个完整问句,方式从键盘变成了语音,反馈从一堆网页链接变成了一个直接的答案,但是它的职责永远是不变的,就是要满足人类的这个求知欲。
我粗浅的认为,在人工智能时代,如果想做好问答机器人,那么没有搜索的这个积累和底蕴其实是很难实现的,这也是为什么现在搜狗正在做问答的原因之一。
在中文的知识类问答里面,汪仔机器人其实已经完全超越人类了。从2011年IBM的Watson在危险边缘中首次击败人类,到2016年AlphaGo战胜李世石,当然围棋是一个固定规则下的完全信息博弈问题,再到现在汪仔在中文自然语言理解、搜索、推理方面战胜人类,每次新的超越所用的时间越来越短,我相信这也是人工智能时代的特色之一吧。
汪仔与Watson的区别
我们在推出汪仔之后,总会有人会提到汪仔不就是个Watson么,这个说法,所以我想在这里花一点时间来对比一下,汪仔和Watson,来看看人工智能时代的问答机器人和Watson相比到底有什么区别:
- 语言。汪仔处理的是中文,Watson处理的是英文。其实在NLP届大家都会有一个共识:中文的自然语言处理难度是最高的。处理好中文所需要的投入是要远远大于处理英文的。
- 问题输入。汪仔接收输入的方式是听主持人念题,看图片中的题目,这里面用到了语音识别和图像识别技术,而Watson看过节目的人其实都知道,使用的是一种特殊的文本输入。
- 问题范畴。汪仔是可以回答整个开放域的问题,问题没有分类,没有限制,而Watson回答的是一个封闭域的问题,它在进行答题之前他是要选问题的领域的,比方说文学,体育之类的,必须要提前选定问题的类别。
- 计算力。汪仔是联网计算的,知识来源是整个互联网,而Watson它是一个本地计算。同时汪仔是支持闲聊的,在答题之外可以和主持人以及参赛选手互动,而Watson只能答题,它并不能和人聊天。
- 赛制。Watson在比赛中是没有抢答一说的,大家都是收到完整的题目之后,试图去回答出正确的答案。但汪仔参加的一站到底,从赛制上是要求机器人和人类进行抢答,这也就要求汪仔在没有收到完整的题目信息的时候,试图去预测问题是什么,并且进行回答。同时按照节目的要求,答题者如果你答错了反而会给对方送分,那么就要求我们汪仔你猜还不能乱猜,机器人得有信心知道自己能答对才会去抢答,这就把整个问题的复杂度提升了另外一个量级上。
所以可以看出来,相比起Watson,汪仔是一个人工智能时代是各种优秀技术结合起来的智能问答机器人。
结合上述内容,这就是我对智能机器人的两大要素的理解,第一是自然交互,第二是问答能力。可能有很多人会有不同理解,甚至意见和我完全是相悖的,我觉得是好事,因为现在这个时代正是一个思想绽放,百花齐放的AI时代。
到底什么是AI?
在AlphaGo出现之后,大家都在喊AI,就好像之前大家喊连接,喊“互联网+”,喊大数据一样。但是不管是连接、互联网、大数据,都没有任何一个东西像AI一样让我思考这么久。我一直在想,到底什么是AI?它到底有没有一个标准的定义?
于是之前我就花了不少精力去搜索了解,去看书,看各种文章paper,我发现并没有一家权威机构对什么是AI做出明确的定义。然后我去和各种在AI领域工作的人聊天,我会问他们"你在搞什么?",他们会回答我"我在搞点和人工智能有关的事情",那我继续问"那你觉得什么是人工智能",得到的答案就千奇百怪了,甚至很多人都没法用简单几句话给我描述清楚他心中的AI是什么样子。
各位不妨在心里问问自己这个问题,能不能用简单几句话说清楚什么是AI?
后来我又看一篇Stanford的一篇报告,对里面的一些观点非常认同,在这里分享给大家。报告里提到:这个世界的确对AI缺少一个精准的,统一的定义,但是就是因为缺少这么一个精准统一的定义,反而让AI在各个不同的领域大放光芒,开花结果。各方参与者、研究者,可能都在对AI有一个朦胧的认识的情况下,就开始搞AI了,所以说AI没有一个准确的定义,它未必是一件坏事情。
大家想在很多年前,在计算器刚被发明出来的时候,我相信那个年代的人一定会认为计算器是"智能"的,但是按照我们当今这个时代的标准来看,计算器顶多算是一个小孩子的玩具罢了,和我们所提的AI相去甚远。但你又不得不承认在当时那个年代,计算器就是智能的。所以你仔细体会一下发展的过程,AI是不是能算做一种努力?
AI是一种不停的努力,试图让机器变得更智能。更有意思的是什么呢?AI这种努力会推进我们向更先进更智能的领域前进,但是你一旦进入到这个领域之后,我们就会想方设法把AI从这个领域里剔除出去。大家想想看,因为AI,我们把一个全新的科技带入到一个common field里面来,然后等人类熟悉这个东西之后,就不再觉得这个东西是个AI了,不觉得它智能了,然后又会有更新的科技诞生。所以你从这方面来看AI也能算做一种趋势,它永远去追求更远的进步。
就拿现在的下棋AI举例子,当年深蓝在初次战胜卡斯帕罗夫的时候,我还是一个小孩,我守在家里小小的电视前面看新闻,我就觉得电脑好神奇,简直太智能了,完全打破了我对计算机能做到的事情的理解。但现在你随便对一个AI行业里的人去说,说只会下国际象棋的深蓝是AI的话,估计你会被嘲笑吧。但是现在大家又全部都同意说AlphaGo现在就是AI的代表作之一,那么十年二十年之后,AlphaGo会不会陷入到现在深蓝的境地,谁又知道呢?但我相信,不管在那个年代AlphaGo是怎么样的,AI还一定还在人类心中。
钛坦白群友互动:
1、请问,使用人工智能做内容推荐,如何解决推荐的内容会限制用户视野的问题?
武健:其实推荐的便捷和限制用户视野的问题,的确是长久以来推荐体系面临的问题,也是整个推荐系统大家一直致力于解决的一个问题。我觉得要从两个层面来解决这个问题:
- 从产品层面上来看,除了推荐的内容之外,其实你一定还是有按照类别来区分,然后还有别的热点内容展现给用户。不可能全是推荐的内容对吧,否则你就形成了一种过拟合。然后你按照类别区分,产生别的热点内容。不管用户感不感觉兴趣,你都可以推给他,有些用户愿意点,有些用户就不愿意点,你会形成更精准的这种数据反馈,然后就让模型变得更好。
- 从技术层面来看,刚才说的内容除了推荐内容,还有热点内容之外,也属于技术内容的一部分,你也可以进行一些协同过滤,让这些跟你有关系的用户,还有一些别的东西,也推荐进来,这样的话可能会扩大这种兴趣范围。另外一方面就是随着你对用户各方面精准刻划和全面收集,你的范围就会越来越广。然后你就会看到它有更多的所谓兴趣源,能让这个领域变得越来越大,然后能让历史上或者将来的数据逐步的放大,去形成正向的一种循环。
2、请问什么产品能更好承载了语音视觉交互的问答,耳机还是眼镜?
武健:这个东西我比较关注的两个,一个是说问答机器人,刚才我详细的已经解说过了。还有一个是翻译机,你会发现现在的热点就是翻译,翻译机的形态有很多。它可能是一个耳机,也可能是一个手持设备。但是现在有很多的人都在集中力量来做这个事情,想实现多语言之间的这种互通,来方便出国旅游或者会议这种翻译场景的使用,像现在科大讯飞已经推出了2B的产品。
很好的实现了语音交互的系统,还有什么呢?就是车载系统,刚才也提到了,比如现在的车载导航,我们正在致力于开发。首先它一定是在一个垂直领域里面,然后它是基于多人对话的一种智能语音系统,你可以说:“我要去机场”,它问你哪个航站楼,你说:“我要去T3”,或者直接告诉他航班号。在路途中间,如果你说:“我想去喝杯咖啡”,他会帮你计算在你去机场的路上哪儿有星巴克。它就是以很好的产品形态承载了语音视觉的交互,同时它还伴随着后面有个知识体系。
3、请问您认为在知识推荐领域,何时能够做到精准并民用?
武健:这个问题我还是想结合搜索来回答。因为现在我们可以说搜索引擎已经是解决了这个问题,但是形态上跟推荐不太一样。因为搜索上它给出的答案是十条,推荐上面它可能给你一个精准的答案。但是就像我之前说的,做这种精准的推荐一定是要基于搜索来做的,它往后更多的发展可能是你的产品形态上的变化,一定要有一个非常好的产品形态,然后才能让它去进入精准的民用级。以我个人粗浅的理解,我觉得两三年的时间吧。两三年之内,这种精准的民用级知识推荐,不能说在全领域,但是一定是在一些特定的垂直领域,我觉得就能实现得很好了,我不知道这样回答是否你想要的答案。
4、请问刚才提到的就是说现在的这种人工干预还多吗?
武健:其实现在的人工干预还是非常多的。现在不管是在语音识别,在语义理解还是需要大量人工标注的,就是你数据的积累是一部分。但是你前期的提升靠大量的数据来灌其实效果是很好的,到后面你想一个点一个点提升的时候,还是需要有大量的人工标注的。现在但凡在模式识别这个问题里面,我们还没有说能够脱离人工标注来进行完美实现的一个方案,所以说现在有些人就会戏称所谓人工智能其实还是工人智能。
(本文独家首发钛媒体,根据搜狗基础平台负责人、机器人负责人武健在钛坦白上的分享整理)
…………………………………………
- 更多钛坦白干货文章、下期预告可以点击:https://www.tmtpost.com/tag/1508094
- 更多了解人工智能,你还可以看钛媒体推荐的书单:https://www.tmtpost.com/2610569.html
根据《网络安全法》实名制要求,请绑定手机号后发表评论