任何一项技术都会经历从开始出现到产业化运用这样一个曲线,而且这个曲线会不断地波动:当业界对这项技术的产业化期待提升时,资源会逐渐步入,整个产业会快速地发展;当过了峰顶时,负面会逐渐暴露,比如市场并没有达到预期,这会使得整个产业急转直下,甚至进入冰冻期,资本会随之撤出,技术投入、从业人员也跟着减少;但是当过了谷底,又一轮上升开始了。
这个观点来自科大讯飞副总裁江涛。在去年的早春,这家公司的产品仍然被媒体命名为“Siri中文版”或者“中国的Siri”。似乎所有人都忽视了这家公司已经成立了十多年的过去,因为只有加上Siri,才能知道它做的是什么。
时隔一年半,已经没有人不知道科大讯飞了,甚至在很多时候谈到语音的时候,总会问一句是否是科大讯飞提供的语音技术。尽管科大讯飞自己仍然在谈论to B还是to C,但这似乎并不重要,重要的是它的中国本土竞争对手已经开始在市场上有所动作。
在罗永浩的锤子发布会上,我们听到了“云之声”这个名字,当然这不是最早听到这家厂商的日子,只是因为罗永浩将其和科大讯飞并列提出。私下,有业内人士将罗永浩和科大讯飞的恩怨讲了出来,但是所有人知道的是科大讯飞已不再是唯一的选择。在随后,做可穿戴的映趣科技在其发布会外竖立着云之声的宣传品,更加证明了这一点。
PK云之声,这将是一场同门之争。当科大讯飞拿到第一笔钱时,云之声CEO梁家恩还在念本科。2008年,科大讯飞创始人刘庆峰作为创业明星参与中科大五十周年校庆时,梁家恩也还没有意识到自己接下来的事业会与这位师哥面对面地交锋。除了语音识别技术,云之声的另一个落点是云计算平台技术,梁家恩的希望是将复杂技术变成便捷服务。
然而,科大讯飞的竞争对手远不止如此。百度、腾讯,甚至是长虹纷纷提出了自己的语音解方案。
时间回到2008年,你会发现有一条新闻,标题是这样的《腾讯携手科大讯飞制胜语音互联网支持方言》。回到2013年8月,另一条新闻写道,“在微信5.0新功能中,腾讯加入了语音输入的新功能……该项功能使用的是腾讯自己的技术,尽管只是一个小小的功能变动,但背后的意义可谓重大,意味着,腾讯有意进入语音领域。”
一时间科大讯飞技术光环似乎有些暗淡,因为好像整个行业的门槛被降低了很多。面对这样的疑问,江涛说,一些新算法的出现,从业者更容易通过移动互联网获得数据,只要招聘到有经验的人,搭建出一套系统变得更加容易。
这样的的算法就包括DNN,也就是所谓的深度神经网络。这项建模技术是通过模拟人脑的行为,将特征选择和模式分类同时优化,克服发音的干扰等瓶颈,与传统的技术相比,可以将语音识别的错误率降低到30%以上。微软、谷歌的语音识别部门早在几年前就开始使用,百度的云因搜索产品也是基于此。有媒体报道称云之声运用这项技术建模仅花了10万元的硬件成本。
但是,江涛仍然坚信,对产业的后进入者来说,用常规手法超越是不太可能,“一定是颠覆式革命才能(够超越)”。
在这里,江涛讲述了一个关于飞机的故事:在一战的时候,飞机仅仅能够飞到对方阵地,扔下几枚炸弹,但远远影响不了战事的进程和结果,但代表了一种方向。在二战期间,飞机成了非常重要的武器,而到海外战争时,飞机已经能够主导战争的结果,这期间飞机一直在做持续的优化和改进。
语音技术亦然。语音作为交互的手段,距离能够实现人与人之间的交流的自然鱼眼效果,还有很多多问题没有解决,比如噪音、口音、个性化等等,这还有很打的市场空间,这远不是一些简单的模型与海量数据就能够解决的。
1999年,IBM发布了ViaVoice,人们对语音应用的场景产生了很多的想法。2000年前后,摩托罗拉、Intel、松下等一批IT巨头纷纷设立语音研发中心,其中有一些就建立在中国。然而产业在2003、2004年逐步降温,摩托罗拉最早在2003年撤掉了中国的研究机构,其他公司也是陆续撤出。
历史似乎正在重演,所以江涛仍然坚信他对技术发展周期的看法,移动互联网的兴起、云计算的引入,以及一些如深度神经网络技术的成熟,会加速产业的发展,但拥有自己的技术才是生存下去的唯一法则。
事实上,语音技术主要有是三个部分,分别是合成、识别和自然语言理解。简单来说,合成就是将文字说出来;识别就听到语音,狭义的识别就是语音转换成文字;自然语言理解就是分析,就是将人的自然语言理解后,并提供回复。
科大讯飞早年发家是通过合成,目前在三个领域都有所发展。科大讯飞负责语音识别研发的鹿晓亮在近期举办的一次媒体沟通会上,向媒体介绍了科大讯飞在技术上的整体实力,他用的词是“汇报”,包括语音转写技术、声纹识别技术、语音唤醒技术,以及高抗噪语音识别技术等。
这样的技术与竞争对手相比有哪些优势,鹿晓亮举例子称,如在线听写技术,科大讯飞可以做到在一个物理核上可以完成四个线程,而它的一个竞争对手只能做到完成一个。另一个案例是,关于其最近发布的一项技术,即离线语音输入。这项技术将改善由于目前3G网络影响下的用户在使用云计算服务中的一些问题。通过离线技术,用户可以不需要联网,就可以达到类似的使用体验。
作为一直标榜自己是语音产业国家队的科大讯飞,进入移动互联网只是其发展阶段的一次新的尝试。所以在科大讯飞的管理者看来,从to B向to C转型就是一个重要的抉择,也是一个弥补自身短板的机遇。截至到2013年8月底,讯飞输入法的用户已突破9000万,而在今年内将突破1亿用户。
此外,清楚商业模式的灵犀产品通过与中国移动的品牌合作,也将带动其在手机市场做到三分天下有其一的目标。家用电视机和机顶盒也是科大讯飞重要的市场,目前90%主流电视机厂商采用了科大讯飞语音云产品,超过60%的机顶盒市场归属科大讯飞;教育市场也被科大讯飞视为重要战略高地。
江涛说,当年科大讯飞作为大学生创业,其目标是希望影响10亿用户,在接下来的10年里,科大讯飞要做还有很多很多。
有消息称,10月,有科大讯飞参与的一个可穿戴设备将发布。
根据《网络安全法》实名制要求,请绑定手机号后发表评论
无知的小编,是云知声,不是云之声。