从键盘打字到触控屏,再到现在的语音交互和手势交互,人工智能技术的发展,正在促使人机交互方式向更加多元化方向变革。
当前市场上渐渐出现一种新的人机交互新技术——唇语识别。与语音识别不同,唇语识别是基于机器视觉与自然语言处理于一体的技术,不用听声音,仅靠机器视觉识别说话人唇部动作,就能解读说话者所说的内容,因此在研发难度上也比语音识别大得多。
就在刚刚过去的第四届乌镇互联网大会上,一直专注搜索的搜狗竟然也亮相了唇语识别这一黑科技。12月14日,搜狗在北京举行了媒体沟通会,公开演示了唇语识别这项新技术,包括背后的技术原理、研发动因以及未来的场景应用。
搜狗语音交互中心技术总监陈伟向钛媒体介绍,得益于搜狗自然语言处理方面的强大优势,搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,建立了10万词以上的词汇表,取得不错的识别效果。
具体而言,搜狗通过摄像头从图像中连续识别出人的唇形,提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型进行解码,从唇语文本数据到唇语语言模型进一步获取发音单元,最终输出文字。
目前,搜狗在非特定人开放口语测试集上,即搜狗唇语识别系统的通用识别的准确率在60%以上,超过google发布的英文唇语系统50%以上的准确率;而在垂直场景下,如车载、智能家居等场景下已经达到90%的准确率。
其实唇语识别并不神秘。早在2003年,英特尔公司就曾推出一款名叫视听说识别系统的软件,电脑开发者可以在此基础上研制读懂“唇语”的计算机;而国外技术最纯熟的谷歌,其DeepMind团队在2016年使用BBC新闻视频,对AI系统进行训练,视频总长超过5000小时,然后以当年3月到9月的视频节目进行测试,唇语识别正确率达到了46.8%。
这个正确率虽然不算高,但实际上正常人的唇语识别能力也只在10%左右,一些受过训练的唇语专家则可以达到40%左右。可以想见,唇语识别技术的壁垒之高。
在国内,BAT这些互联网巨头虽未涉足这一领域,但也有一些创新公司在唇语识别技术方面取得了突破。
今年3月,国内专注于大数据可视化的海云数据也试水唇语识别,发布了其与重庆市公安科研所共同研发的唇语识别技术成果。在研发阶段,海云训练了1万小时新闻类节目,来判断嘴型的准确度和语言的准确性。有报道称,海云数据的唇语识别技术在中文识别率已高达71%,英文识别率达到80%。
但陈伟也强调,唇语识别最大的难点在于泛化性。之所以这一技术尚未得到普及,很大程度上是识别率不能做到像语音识别那样高,做不到普适性,应用的意义也就不大。
从谷歌唇语识别系统训练来看,测试集与训练集其实是同源的,都来自广播电视新闻,而众所周知这些播音主持人在发音、吐字、唇形变化等方面都比普通人要标准,如果将测试选择在普通人时,识别率应该会更低。
搜狗为了突破唇语识别的泛化性,一方面通过各类新闻、电视节目的数据进行训练,另一方面通过搜集大量普通人的唇语数据进行训练,提升了唇语识别的泛化效果。另外,具体到车载、智能家居场景时,搜狗团队又通过限定场景、限定语句等形式,对唇语识别准确性做了进一步优化。
因此,在未来场景落地上,搜狗唇语团队将关注两方面,一方面可以和语音识别技术相结合解决远场环境下的语音问题,另一方面唇语识别作为人机交互的形式之一,辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。
- 车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性,日常不便发声的公共场所也可以保证说话内容的私密性。
- 在安防领域,由于目前多数监控只有摄像头没有麦克风,往往只能看清嘴型却不知道在说什么,给案情分析带来很多难题,而唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。
- 在公益事业领域,唇语识别技术还能发挥巨大价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。
时至今日,人工智能的发展速度已经完全超出了我们的想象,那些电影里的炫酷黑科技正在一步步成为现实出现在我们的生活中。随着AI技术的发展,相信在不远的将来,唇语识别也能像语音识别、图像识别一样成为我们生活中随处可见的一部分。(本文首发钛媒体,作者/张叶)
根据《网络安全法》实名制要求,请绑定手机号后发表评论