搜狗推出唇语识别技术，不过落地还需时间-钛媒体官方网站

从键盘打字到触控屏，再到现在的语音交互和手势交互，人工智能技术的发展，正在促使人机交互方式向更加多元化方向变革。

当前市场上渐渐出现一种新的人机交互新技术——唇语识别。与语音识别不同，唇语识别是基于机器视觉与自然语言处理于一体的技术，不用听声音，仅靠机器视觉识别说话人唇部动作，就能解读说话者所说的内容，因此在研发难度上也比语音识别大得多。

就在刚刚过去的第四届乌镇互联网大会上，一直专注搜索的搜狗竟然也亮相了唇语识别这一黑科技。12月14日，搜狗在北京举行了媒体沟通会，公开演示了唇语识别这项新技术，包括背后的技术原理、研发动因以及未来的场景应用。

搜狗语音交互中心技术总监陈伟向钛媒体介绍，得益于搜狗自然语言处理方面的强大优势，搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模，通过数千小时的真实唇语数据训练，建立了10万词以上的词汇表，取得不错的识别效果。

具体而言，搜狗通过摄像头从图像中连续识别出人的唇形，提取说话人连续的口型变化特征，然后将这些唇语特征放入唇语识别模型进行解码，从唇语文本数据到唇语语言模型进一步获取发音单元，最终输出文字。

目前，搜狗在非特定人开放口语测试集上，即搜狗唇语识别系统的通用识别的准确率在60%以上，超过google发布的英文唇语系统50%以上的准确率；而在垂直场景下，如车载、智能家居等场景下已经达到90%的准确率。

其实唇语识别并不神秘。早在2003年，英特尔公司就曾推出一款名叫视听说识别系统的软件，电脑开发者可以在此基础上研制读懂“唇语”的计算机；而国外技术最纯熟的谷歌，其DeepMind团队在2016年使用BBC新闻视频，对AI系统进行训练，视频总长超过5000小时，然后以当年3月到9月的视频节目进行测试，唇语识别正确率达到了46.8%。

这个正确率虽然不算高，但实际上正常人的唇语识别能力也只在10%左右，一些受过训练的唇语专家则可以达到40%左右。可以想见，唇语识别技术的壁垒之高。

在国内，BAT这些互联网巨头虽未涉足这一领域，但也有一些创新公司在唇语识别技术方面取得了突破。

今年3月，国内专注于大数据可视化的海云数据也试水唇语识别，发布了其与重庆市公安科研所共同研发的唇语识别技术成果。在研发阶段，海云训练了1万小时新闻类节目，来判断嘴型的准确度和语言的准确性。有报道称，海云数据的唇语识别技术在中文识别率已高达71%，英文识别率达到80%。

但陈伟也强调，唇语识别最大的难点在于泛化性。之所以这一技术尚未得到普及，很大程度上是识别率不能做到像语音识别那样高，做不到普适性，应用的意义也就不大。

从谷歌唇语识别系统训练来看，测试集与训练集其实是同源的，都来自广播电视新闻，而众所周知这些播音主持人在发音、吐字、唇形变化等方面都比普通人要标准，如果将测试选择在普通人时，识别率应该会更低。

搜狗为了突破唇语识别的泛化性，一方面通过各类新闻、电视节目的数据进行训练，另一方面通过搜集大量普通人的唇语数据进行训练，提升了唇语识别的泛化效果。另外，具体到车载、智能家居场景时，搜狗团队又通过限定场景、限定语句等形式，对唇语识别准确性做了进一步优化。

因此，在未来场景落地上，搜狗唇语团队将关注两方面，一方面可以和语音识别技术相结合解决远场环境下的语音问题，另一方面唇语识别作为人机交互的形式之一，辅助语音交互及图像识别，在日常生活、安防、公益等各个领域实现广泛应用。

车载场景下，周围噪音过大时会对语音指令产生干扰，通过唇语识别技术则可以规避干扰，保证人车交互的准确性和稳定性，日常不便发声的公共场所也可以保证说话内容的私密性。
在安防领域，由于目前多数监控只有摄像头没有麦克风，往往只能看清嘴型却不知道在说什么，给案情分析带来很多难题，而唇语识别技术可以帮助公安人员获取重要的讲话信息，为公共安全提供有效支持。
在公益事业领域，唇语识别技术还能发挥巨大价值，帮助先天性听障人群或老年人，让他们更好地理解和表达自己。

时至今日，人工智能的发展速度已经完全超出了我们的想象，那些电影里的炫酷黑科技正在一步步成为现实出现在我们的生活中。随着AI技术的发展，相信在不远的将来，唇语识别也能像语音识别、图像识别一样成为我们生活中随处可见的一部分。（本文首发钛媒体，作者/张叶）

搜狗推出唇语识别技术，不过落地还需时间

敬原创，有钛度，得赞赏