钛媒体PRO专业版_钛媒体官方网站

第一课：人机交互的基础认知

温正棋 / 人机交互技术的发展

第一课：人机交互的基础认知

小欣：大家好，欢迎收听“钛媒体72问”专家分享课《坦白讲》。我是主持人小欣，在课程中我将会陪伴大家探索行业大咖对于前沿领域的深度剖析与思考。现在就和我一起开始了解今天要进行课程的嘉宾吧！

今天的主讲人是极限元技术副总裁温正棋，他毕业于中国科学院自动化研究所，在语音的合成、识别、说话人识别等领域都有着多年深入研究经验，并结合深度学习技术开发了多款语音应用产品。本期课程将会分为六大节，第一节温正棋老师会为我们讲解关于人机交互的一些基础认知。

温正棋：从整个交互系统接入用户的输入信息开始包括语音、人脸、多模态情感相关的信息，我们在对话系统里对输入的信息进行理解，通过这个对话产生输出，最后用文字、语音合成展现出来，这就是整个流程。其中我们最主要关注的是语音部分以及对话系统部分，其他的多模态今天的分享不会涉及太多。

对国内研究语音相关的团队进行概括。首先是科研院所，科研院所主要包括高校和科学院。比如科学院里有声学所、自动化所。高校里面研究比较多的清华、北大、西工大、科大、上海交大等，这些都是在语音圈里占有较高位置的老牌队伍。

再有就是语音公司，语音技术公司包括我们比较熟悉的科大讯飞、云知声、思必驰、捷通华声。最后一个就是互联网企业，互联网公司包括BAT、搜狗等拥有强大的语音技术团队来支撑着其本身的很多业务。

在应用对话系统时，首先从语音输入开始要有一些前端处理，包括硬件和软件的前期处理。接下来是语音内容、说话人识别等相关的内容进行判别，对话系统根据输入信息来进行对话逻辑的分析以及对应语言的产生。最后由语音合成系统来合成语音。

在这里重点介绍一下前端处理、语音识别、说话人识别语音合成等相关技术。

小欣：下节课，温老师会为我们讲解前端处理技术的研究进展。

【版权归钛媒体所有，未经许可不得转载】

分享课程：

微信扫码

大家都在学

72问

精品小课

精品小课