在美国热播剧《生活大爆炸》中有一集十分有趣:宅男Raj手持一部iPhone 4S,爱上了其中的语音助理Siri,虽然后者只是一种发女声的手机功能,但Raj深陷其中不能自拔。他会询问Siri附近的咖啡馆在哪儿,并想象自己去那里与它约会,甚至会让Siri给自己放首歌,深情地边听边说:“只有你最懂我。”
虽然剧情夸张,但起码这从一个侧面证明,手机语音功能的普及让普通老百姓也开始能接受这样的笑料,也证明了在移动互联网时代,语音技术正在成为一种流行的、全新的人与手机的交互方式。
在微软创始人比尔·盖茨眼中,未来影响世界的三个技术领域——语音、触摸和视觉中以语音居首;而苹果公司更是在新一代iPhone中直接将语音助理Siri作为了其最大卖点之一。
拥有语音技术的公司成为大众热点,也成为移动互联网的行业焦点,这使得一家在公众视野蛰伏了10年的中国本土公司逐渐浮出水面。
讯飞立足点
1999年春节前夕,安徽合肥,现在的科大讯飞董事长、当时的中国科技大学在读博士生刘庆峰实际上正面临两难选择。他所在的中国科技大学的语音实验室一直与一家福建企业合作,可对方因为种种问题资金遇上了困难,连实验室的基本工资都发不出。作为这个实验室的负责人,他要么“事了拂身去”,出国并继续他的博士学业——这样整个团队势必会解散;要么留下来牵头带领这帮一起干的伙伴们继续前行。
据科大讯飞副总裁江涛回忆,“庆峰其实只需要把实际情况跟大家说清楚,跟自己就半点关系没有,但他还是不动声色地以个人名义借了钱回来给大家发工资”。
“当时我还是有点过度乐观吧。”刘庆峰说,“我们下决心产业化,当时的信心和现在一样,认为未来每一部手机、轿车、家电、玩具,语音都将成为一个基本需求点,而且以我们的技术能力,有可能成为行业领导者。”
在此之前,实验室参加“863计划”的比赛刚刚以3.0的高分夺得第一名。中科大的学生当时会聚了全国精英,而在团队里还有一些外面的技术高手,刘庆峰认为解散太可惜。资方并不懂技术,较为急功近利,经常进行研发方向的调整,把团队折腾得够呛,刘庆峰决定站出来解决这一切。“本来我们的梦想是成为类似美国贝尔实验室的存在,我就当个总工程师挺好,可形势的发展让我不得不站出来当CEO。半年之后,感觉还不错。”他说。
这就是科大讯飞的成立故事,从里面不难看出这家公司的一些特征:技术驱动、对语音未来的笃定以及浓浓的校园风格。这使得它和美国硅谷一些知名技术公司拥有相似的气质。
可是语音到底什么时候能够产业化并且获得收益?没有人心里有谱。
其实早在20世纪70年代,世界各国就有很多组织开始研究语音技术,包括语音识别、文本朗读、指令判断等。到20世纪80年代,语音就开始被称为“未来5年的技术”,可过了一个又一个5年,它却似乎永远站在远方,离普罗大众的距离从未真正接近过。在国内,20世纪80年代“863计划”也扶持了很多语音实验室进行相关研究,中科大、清华、声学所、语言所等均在其列,只是研究的侧重方向各有不同。
为什么语音技术难以产业化?因为语音技术说白了就是机器对人声音的识别、判断与输出,涉及到不同国家、不同口音的人和大量声学、语言学、数字信号处理知识。作为一项基础技术,它不仅考验语音听和写的能力、搜索能力、语音合成能力,还有复杂得多的与电脑相关的数据库等后台能力。
在单机时代,光是辨别语音所需要的庞大数据库存储和计算能力就让人头疼。要想语音识别准确,就必须有海量数据库进行匹配,还要通过算法来让它实现快捷高效,这几乎是一件不可能完成的任务,硬件的门槛将无数研究者阻挡在技术商用化的门槛之外。
可是从20世纪末开始,一切似乎正在发生变化。互联网的兴起让这样一种模式成为可能:大量的存储计算放在服务器端(云端)来完成,而前端的电脑则只需要采集声音和给出反馈就可以了。只不过网络带宽的限制以及电脑麦克风当时并不普及,语音技术还没获得生根发芽的土壤。
此时的科大讯飞,在拿到第一笔投资、还未能盈利之前,就做出了一项“风险很高”的决定:以企业的方式,与中国在语音研究领域领先或有特色的院校建立联合实验室形成了“产学研”结合的雏形。
它的逻辑很简单:语音技术未来一定很值钱;各个院校拥有不同细分领域的语音技术,融合起来才能具有威力;能将中国最好的做语音研究的人才尽可能网罗到一起。这笔“技术投资”,为讯飞今后的发展提供了坚实的基础,这也是讯飞从技术核心出发的第一项重要决定。
从B到C
心气高、兵马壮的讯飞,几乎在做第一个产品时就遭遇了挫折。“当时我们做了一个面对消费级PC市场的统一输入法,你可以用语音、手写等各种方式输入中文,可产品辛苦研究出来却没有人买账。”江涛说。
对当时的讯飞来说,消费级市场实在是一个难以跨越的坎,因为它意味着要为产品建立一个全国的销售网络、服务网络,光服务成本就入不敷出。再加上2000年初,“统一输入法”这样的产品并没有市场,消费者根本没有对于语音的认知,而键盘和鼠标已经足以满足他们在PC上简单的输入需求。
这时候,刘庆峰做出了第二个重要决定:砍掉辛苦努力了很长时间的B2C业务,专注于B2B企业级服务。
在之前1999年中国国际高新技术成果交易会上,科大讯飞只有几平方米见方的展台上迎来了几位客人,他们对讯飞的产品表现出不同一般的兴趣与了解。这是华为的人,作为移动通讯设备厂商,他们看到了语音对于移动通信产业的意义。双方几乎一拍即合,华为采购语音引擎,讯飞则成为其技术供应商。
好的技术总会有价值,与消费者相比,企业客户更专业、理解力更强,这让几乎全技术班底的科大讯飞不用再去做那些不擅长的事,将精力聚焦在了语音技术本身和运营服务中。
客户接二连三地来,讯飞也终于摆脱了刚开始的茫然,进入有序发展,并接连引入了联想投资、复星资本等投资方。“联想和复兴的风格完全不一样,前者对我们工作很细致,帮助我们建立了管理体系;后者则完全信任,给了我们更强的信心。”2004年依靠B2B,讯飞实现了盈亏平衡。
已经有了一定实力的讯飞开始将目光再次瞄向最终用户,可它却用了一种由企业到用户的曲线方式。它向自己的电信运营商客户如中国电信提出了一项要求:希望从只提供技术引擎,变为自己来直接做运营与维护。这样来与用户发生接触。
与此同时,它还发现了另一个“金矿”,那就是教育市场。学习不过是“听说读写”,其中很多层面涉及语音,通过提供这一垂直场景的带读、朗诵语音评测等技术功能,讯飞已有斩获,基本上对教育市场(学习机)形成了近乎垄断的优势。
2008年,科大讯飞上市。在企业级市场上技术加实干,为它赢得了极大空间,可上市之后干什么?讯飞将目光重新投注在了其初衷上。
当时做统一输入法为什么失败?“不是模式错了,而是模式没有适合当时的背景。”刘庆峰说。而现在,背景环境似乎已经转向。
新基础服务提供商
2007年开始,移动互联网迅速发展。iPhone手机和Android系统的发布让智能手机迅速开始普及,移动带宽到3G时代得到了明显提升,而手机天然的随身性和麦克风等硬件所赋予的良好交互性,为语音类产品发展提供了天然机遇。
讯飞一方面深入语音研究,对技术最前沿能做到什么样心里有底,另一方面,与数千家合作厂商日复一日的密切接触,能让它对产业引爆点的判断更加精准。
传统语音技术,无外乎语音合成、语音搜索、语音听写三类,在准备了很长时间之后,2010年末,讯飞推出了自己的“语音云”平台,将语音能力提供输出接口,让很多移动互联网创业者能由此为自己的应用引入语音能力。而在此之外,讯飞则选择擅长的领域做一些“示范应用”,在第一代语音云上,示范应用是讯飞语音输入法和互联网电视语音搜索。
这是另一片战场,国外谷歌等互联网公司也有提供类似服务,但讯飞在技术上有着过硬的功夫。2006年到2011年,讯飞连续6年获得英文语音合成国际大赛(Blizzard Challenge)第一名,2008年获得国际说话人识别评测大赛(NIST)第一,2009年则又拿下高难度混淆方言测试指标冠军。
到2011年末,一年时间讯飞语音云用户总数超过1000万,而之后三个月,用户总数超过了3000万,合作伙伴超过3100家,每天服务请求量超过700万次。这是一个惊人的数字。
2012年3月22日,讯飞在北京国家会议中心举办新一代“语音云”发布暨语音开发者大会。联想控股董事局主席柳传志来了,创新工场董事长兼CEO李开复来了,小米公司、大众点评、知乎等互联网公司也来了,现场人数达到2300人之多,场面火爆。所有人的目的都只有两个字:语音。
新一代语音云增加了自然语言理解、个性化语音识别、口语评测等新能力特性,而其示范应用,则是一款名为“讯飞语点”的工具。
在试用过程中,讯飞语点虽然还有一些小Bug,但总体表现出了很强的辨识度和易用性。比如当你念出“把张三的手机号码发短信给李四”,语点就能自己识别出人名、指令,并完成相关操作。除此之外,它还能设置日程提醒、手机导航,还能查询天气、股票等信息,甚至可以做算术、讲笑话。这一应用将新的语音云平台能力展露无遗。
毫无疑问,经过10多年发展之后,讯飞有了两块最具价值的资产,那就是语音云和相关技术,再往上,各个实验室是“正在下金蛋的鸡”,而产业合作还在将这些金蛋换成金钱。
据《商业价值》了解,考虑到新一代语音云平台多出了很多新的特性,不仅增加了指令和个性化学习,而且还大幅提升语音识别准确率,讯飞今年年初曾面临两个选择:一个是独享自己的语音云平台,基于它推出新的创新产品,二是直接将升级版的语音云平台向整个行业开放。
在思索一段时间后,讯飞还是决定选择后者,因为作为一种基础能力,开放的语音技术力量将能支撑整个行业用更快的速度前行。
现在,讯飞的想法是自己做10%。“我们做开放平台跟讯飞的特点有关。语音应用无处不在,在每个领域都有前景,能力要和应用场景深度结合才有用,这是一条漫长的路。”刘庆峰说,“我们有最好的嘴巴和耳朵,还有基本思维,可是需要大家一起教育它。”
而相关的应用场景,最主流有三类:手机基础操控类,比如打电话、发短信、设置日程等;助理类,订酒店、问路、问天气等;还有行业伙伴在各个行业的产品中增加听说功能。这已经是一个相当大的布局,讯飞正在向着新一代移动互联网基础服务提供商的位置前行。
有人觉得,科大讯飞的几个发展点都踩得很正,并且符合语音技术产业化的成熟节奏:成立后不久就找到了华为、中兴等移动设备商作为客户,用稳定的收入站稳了第一步;后来又在合适的时间点与移动运营商合作,同时发现教育市场这片金矿,成为其中语音最有影响力的技术产品提供商;2008年上市后,开始从企业级往移动互联网消费端渗透,做讯飞语音输入法并获得一定成功,第一版语音云平台也拥有了3000多个合作者,未来机会很大。
这确实是科大讯飞比较重要的三个发展阶段,但它远远不是全部。
刘庆峰认为,讯飞走的是一条“弯曲的直线”,朝着正确的方向,但中间也有很多不为人知的失败,“我们不是刚好踩到点,只是很多踩不到点的地方大家都看不到而已”。
对他而言,讯飞目前的成果经过了几代人的努力,核心技术持续突破,到如今才真正达到了大规模实用的门槛。而讯飞一直在朝着既定目标前进,那就是让语音真正成为所有人身边能使用的产品。
根据《网络安全法》实名制要求,请绑定手机号后发表评论
引用一句话!( “中国没有创新?那是瞎扯,但创新出来了,不能把产品做出来,即使把产品做出来,整个营销又跟不上,这就导致了很多创新一直躺在设计师的抽屉里。 )刘先生的成功一定很艰辛。中国需要这样的企业。这样的人才。
汉字语音识别之难,绝对是世界级课题,希望科大讯飞在语音识别向语义识别,再向用户行为理解和执行转化,当然也需要行业多支持,至少是希望越来越多的应用中集成语音支持,在普通用户对语音的认识和使用行为上作出努力,再在产业变革和应用中走出一条大路。
支持迅飞,小心腾讯。
讯飞如果和媒体公司合作,推出可以定制和播报的新闻产品,也不错。能为不方便看手机和懒的用手机阅读的用户提供便利
前景非常看好,但还需时间考验。
希望成为中国人的拳头产品
我也看好语音,很cool,也很方便
支持国产技术。我们需要创新!
要想推广,必须先改变人的观念和习惯!
反正我是不怎么接受语音输入的,像短信之类的这属于个人隐私,公众场合没法使用,我是没有想明白掏出手机,对着mic唧唧歪歪半天,什么搜索也好…最大的好处我觉得是开车之类的,实在是腾不出手来,语音这个麻烦