对话：机器比人类更会理解声音吗？-钛媒体官方网站

图片来源@视觉中国

文 | 追问NextQuestion，作者 | 立夏，整理&排版：Yunshan

声音是人类社会重要的交流媒介，它不仅可以传情达意，还可以反映人的身体状况。

在本期《追问专访》中，上海交通大学计算机科学与工程系吴梦玥老师将带我们一起进入语音世界，从多模态互动到医疗应用，共同探索声音的奥秘。欢迎收听Podcast。

请介绍一下您的研究背景。为何会对这个研究领域感兴趣？

吴梦玥：我现在的主要研究方向是丰富音频分析。当我们听某种声音的时候，如果是在听一种语言，我们不仅在乎这个人说了什么，还关心这个人说的话是如何说出来的，即他/她在说话时的情绪和情感是怎样的。再进一步想，一个人在说话的同时能够体现出他/她本身的精神状态或认知状况，这其实是把语音或者语言功能看成是大脑认知功能的外化表现。因此，从语音的角度上，我们可以做很多病理上的分析。

另一方面，我们所听到的声音中不仅包括语音，还包括自然界或我们所处环境中的一切声音。很长一段时间以来，传统做语音研究的人会认为这些自然声音都是“噪声”，但其实我们在处理所有听觉信息时，每一个细小的声音都提供了极其多的信息。现在我们把这个领域叫做“丰富音频分析”，所谓的“丰富”来源于两方面，一方面是指人声会有很多层次，可以提取到很多信息；另一方面则是指环境的丰富。我现在想做的研究就是如何把这两者很好地结合起来。

丰富音频分析有哪些应用场景呢？

吴梦玥：其实从刚才我们谈到的研究内容中可以明显地找到一些相应的应用场景。比如语音上的分析，尤其是和病理方面相结合时，在医疗领域的应用场景就非常广泛。

病理上的语音研究分为几类，一类与器质性障碍有关，比如当腺样体肥大时，可能会影响整体的气流，在发音的过程中就会有阻碍，所以这些器质性的病变会引起语音信号上的不同。因此我们的研究和耳鼻喉科有很多相关部分，可以通过一个人的语音来判断他/她嗓音的变化，包括判断像腺样体肥大一类的病变，甚至也可以做喉癌的早期预测。

人除了说话之外，还可以产生其他声音，有些声音与器质性改变也有关系，比如鼾声，现在有很多研究会通过检测鼾声来监测睡眠，或者查看其呼吸系统是否存在问题。

此外，在新冠全球性大流行期间也有一些研究，比如通过一个人的咳嗽声来判断他/她咳嗽的根因。这些研究不仅可以用于诊断新冠肺炎，也可以放到一个更广泛的场景中，尤其是在儿科领域。咳嗽是儿童呼吸系统非常常见的疾病，儿童出现咳嗽症状的原因非常多。我们和上海市儿童医学中心进行合作，发明了一种便于儿童携带的、可长期穿戴的设备，外型像一个麦克风或者一个纽扣，这样就可以监测儿童整个咳嗽过程的变化，从咳嗽的频率和咳嗽产生的所有语音逆向推导，比如咳嗽的性质是干咳还是湿咳，再进一步分析是由普通上呼吸道感染引起的咳嗽，还是由某一类肺炎引起的咳嗽。这些都是一些非常明确的应用场景。

除了在器质性疾病上的应用场景，神经退行性的疾病或者与情感障碍直接相关的疾病也可以进行语音研究，比如抑郁症、焦虑症、帕金森症以及老年痴呆。在对老年痴呆的患者进行语音分析和比较时，发现它和抑郁症、帕金森症有一定的相似性。一方面大部分老年痴呆患者在很长时间内会伴有抑郁的症状，另一方面这种疾病和帕金森症一样都属于神经退行性疾病，这些疾病之间的内部联系使我们的系统能在这些场景中得到应用。

从其他方面来说，还有一个非常直接的应用——婴儿啼哭的检测。比如可以在家里放一个检测器，当它收集到小孩哭叫声时可以对哭叫声进行分析，然后判断孩子的需求是什么。

此外，我们前段时间和公安机关进行了合作，在监察人口流调时如果想知道有谁从外地返乡了，就可以在返乡人员的家门口安置麦克风阵列，几户人家可以共用一个麦克风阵列，通过麦克风阵列对开门关门声音的识别来判断是否有人回来或者进出。

这项研究也可以应用到确定滴滴乘客的出行安全上，在打车出行时为了查看乘客的安全，录音是实时开着的，但即使录音实时开着，也没有人会实时查看所有的录音。所以处理录音的时候就需要检测和判定其中的异常事件，对是否有人在尖叫、吵架或者求救等情况进行检测，这些都属于丰富音频分析里我们所探讨的内容。

更进一步，可以探究如何用完整的自然语言来描述一段音频内容。比如用ASR可以直接得到一个语音的翻译，又比如在现在这个场景里，用自然语言描述的话，可以描述为“几个人在进行网络会议研讨，其中有哪些具体内容”，或者也可以直接描述一段语音为：“有人走过，同时有鸟在叫……”这些都可以很好地帮助听障人士，即使听不见声音也能通过语言文本了解此刻这个听觉世界到底在发生什么。一些手机厂商已经开始进行这方面的研究了，旨在可以更进一步地满足听障人士或者弱听人士的需求。

这些是我可以想到的丰富音频分析直接对应的应用场景。

在研究过程中，数据是一切的基础。您主要使用哪些类型的数据？又是如何收集和分析这些数据的呢？

吴梦玥：这是一个非常关键的问题，不管是医疗领域还是环境声音领域，相对于我们研究了很久的语音而言，这部分声音数据还是比较稀缺的。对于医疗领域的声音类型数据，我们会和医院进行合作，但是和医院的合作更多是在硬件上发明、创造或者利用现有的技术将它改造成更适用于分析应用场景的形态，然后采集音频数据，之后在实验室里进行分析。

至于环境音频的声音，首先环境声音非常多，但它最大的问题在于怎么进行标注。谈及标注时又会引起一些新的研究问题的探讨，比如是否可以用弱监督的方式描述环境音频。环境音频方面最大的数据集是Google在2017年推出的AudioSet，里面包含了527类不一样的声音事件，每一条音频里又包含多个标签，但其实没办法很精准地定位标签，比如一段音频里第一秒到第三秒有一个事件，或者第四秒到第八秒还有一个事件，这种强标签的标注方式非常耗时耗力也耗费资源。现在有一个段落级别的标注方式。怎样用弱监督的方式先进行标注，再用强监督的方式对每一帧进行标注，是我们这个研究领域里面临的较大挑战。

除此之外，我们自己在2018年首次提出了audio caption这个任务，即怎样用一段自然语言文本描述音频内容。相较于之前的标签化研究而言，这种方式则更贴近于人类的听觉感知。

如果刚刚听到一声巨响，你在描述这件事时不会说“爆炸声、分号、呼救声、分号”，而是会用一个很自然的句子来描述，这就是我们希望未来机器在做听觉感知时能直接输出的结果。当然，我们创造了这样一个新任务时同样需要一个新的数据集进行支撑。

总之，我们研究的数据要么来源于真实场景，比如通过和医院合作或去自然界采集，要么就是在一些基本的数据集上发明一些新的标注方式进而解决我们当下的问题。

您近期的一项研究中提到了一个叫clap的模型，用于训练这样的模型的关键数据集有哪些？以及它们是如何构建的？

吴梦玥：在前几年的时候出现了非常多结合了视觉和自然语言的大规模预训练模型，但是音频领域则非常少，很大原因在于数据集的缺乏。但在去年，包括我们在内，同期有三篇文章中提到的模型都是叫clap，因为之前clip模型是在图像（imagine）上做caption，我们把图像换成音频（audio），所以叫做了clap。

其实我们的训练方式和原来的clip非常像，关键是怎样解决音频领域里的数据集——尤其是和文本对应的数据集——从哪来的问题。

一个方法是可以基于原有audio caption数据集训练一个模型，然后用这个模型去给其他所有适用的音频打上尾标签。

在打尾标签之前还有另外一个方法，可以将离散的标签加进来，把它做成一个引导，然后用这些标签去引导audio caption模型，这样生成的caption本身会更加符合原来的音频内容。以这样的方式对海量数据进行尾标签标记时，从某种程度上来说已经构造了一个音频和文本对应的数据集。

在这个基础之上，我们用对比学习（contrastive learning）的方式，比如说用两个编码器，一边输入音频一边输入文本，再加上一个对比损失（contractive loss），这样训练下来的预训练模型在很多和音频或文本相关的下游任务中能获得较大的性能上的提升。

总之，如果要做预训练，数据的来源以及数据的质和量都非常重要。一方面可以训练一个模型来标记标签，另一方面也可以利用ChatGPT为更多的音频数据生成自然语言描述。

很多实验都面临“走出实验室”的问题。现实世界中，语音信号可能受到各种因素的干扰，如背景噪声，说话人的口音、语速、语调变化等，使用不同的录音设备和麦克风也可能会导致语音信号出现差异。那么，实验室训练的语音识别系统如何处理真实世界中的语音信号？

吴梦玥：与自然语言处理相比，音频分析最困难的地方确实是统筹所有不同音频的信号。我们研究中很多数据都来源于真实场景，因此在医院采集声音时，我们会规定统一的型号或采样率，从而得到一个优化较好的模型。在最后进行模型训练时，我们也会采用不一样的方法使得模型有更好的适配性或者鲁棒性，比如可能会进行不同噪声的模拟，或者额外添加一些噪声，不过这也使得原本用来训练的数据集变得更复杂。

如此一来，真实测试中可能碰见的任何情况都包含在了原始的训练数据集的分布里，但要真正让这项工作得到实地应用——无论周围有什么人、环境多么嘈杂都可以在真实世界中实现如同在实验室里一样好的性能——还是比较困难。因此，关键问题还是在于我们可接受的在真实环境中模型性能的下降范围是多少。

对于这个问题，传统的语音识别研究中同样面临真实世界的挑战——在这种非配合式的环境下，如何得到更好的研究结果，我们为此做了很多努力和尝试，但目前为止这个问题还没有被解决。

您刚才提到在研究中很重要的一环是对环境声音的标注和描述。随着GPT的到来，AI模型也成为了科研当中有力的工具，包括我们知道GPT-4已能够实现对多模态数据的分析、理解、整合和输出。那么它是否能对环境声音的标注和描述有所帮助？

吴梦玥：这个问题非常有意思。如果让一个人用语言描述小提琴和大提琴声音上的差异，或者描述咖啡厅场景和餐厅场景中的声音有多少差异，人很难描述清楚。但如果向ChatGPT提出这样的请求，不管是GPT-3.5还是GPT-4，它给出的答案都非常合理，从中可以发现，ChatGPT其实是通过强大的文本能力弥补了声学编码器上的不足。所以我们认为，在对环境声音的描述上，ChatGPT可能会比人做得更好。

现在的问题关键是要给予ChatGPT怎样的提示词（prompt）才能让它既符合我们的要求和描述习惯，同时又能够精准地描述声音中具体的特性。前段时间，英国萨里大学就有一篇这样的研究，这一研究虽然只在第一步使用ChatGPT来辅助研究，但是总体上而言，我觉得这是一个很有前景的方向。

不过在语音的模型中，即使使用了ChatGPT也无法直接把图像或者语音当做素材供给它做多模态的联合训练，后续可能需要我们在自己的实验室里进行微调（fine-tune）或者做联合训练。不过这方面确实存在应用场景，ChatGPT目前拥有的对不一样模态信息的理解能力可以辅助我们做信息媒介的部分分析和处理。

基于ChatGPT，您的研究团队还做了哪些尝试呢？

吴梦玥：ChatGPT的应用还是得以文本为媒介，在模型训练的过程中如果出现了样本较少的情况时可以使用ChatGPT对数据进行标注，尤其在处理非常细微的情感关系的差异时效果很好。除了对声音本身的分析外，也可以用ChatGPT做另外的研究,例如让机器人模拟医生和患者的整个以对话为基础的问诊场景——用ChatGPT做两个模拟器，一个模仿病人一个模仿医生，然后将它模拟出来的问诊情景与真实的精神科问诊过程进行对比，然后就可以探究与真实场景相比时ChatGPT在对自然语言的理解和处理上还有哪些局限。

在我们训练的所有AI模型中，ChatGPT的自然语言理解能力已经达到了极限，接下来应该怎样用模型实现和真实场景效用一样的人机问诊也是我们想结合ChatGPT进行的研究。如果自然语言理解的能力对于ChatGPT来说已经无法进一步提升，那么在自然对话与模型模拟的对话间还存在哪些因素上的差异，这些都是我们现在非常关注的。

您提到由ChatGPT来充当医生与患者的模拟问诊场景，那么它所创造的模拟数据可否作为真正的研究数据使用？基于此的研究结果是否有意义？

吴梦玥：目前来看，其实不太行。它可以模拟一些比较基础的案例，但和真实的应用还是有一定的差距。

具体体现在，比如说模拟医生，ChatGPT和医生的问话形式或者风格有一定的差异，ChatGPT可能会更书面化，而在平时问诊的时候，为了让患者放松，医生很有可能用的是一些更轻松的、偏口语化的问诊方式。当用ChatGPT模拟患者时，现实中患者看医生的时候，他/她不会那么坦白地告诉医生一些答案，或者很多患者并不清楚自己的症状到底是什么，但是ChatGPT作为一个这样的患者时，比如最开始我们让它加个抗拒，它可能就抗拒一次两次，你反方向再问一遍的话，它马上就说出来了，感觉就像“我有答案，但是因为你告诉我不要把这个答案说出来，我就藏两下”，它和真实患者之间的心理差距还是非常大的。

所以，我认为它可以用来做一定程度的数据增强。但是如果要把这种模拟的数据拿来做完全的训练数据，可能和实际应用场景的差距太大。

现在对于ChatGPT的应用中可以对比ChatGPT作为患者所模拟出的数据与真实病人的数据间的差异，这部分工作目前已经有了初步的结果，后续马上会发表出来。目前可以作出的较直观的结论是：如果给ChatGPT设定了较好的prompt，在患者处于配合的情况下，模拟出的场景可以十分接近真实问诊场景，而当有患者并不处于配合的状态时，对话会产生较大的困难，所以差异本身还是取决于机器人所要模拟的真实场景的复杂度。

用ChatGPT可以对简单基础的问诊场景进行模拟，但和真实的问诊应用还有一定差距。在真实问诊时为了让患者放松，医生会使用偏口语化的问诊方式，而ChatGPT模拟的医生问诊风格则偏向于书面化表达；模拟患者时也有差异，比如患者在面诊时可能不会坦白地说出答案，可能自己也不了解自己的具体症状，也可能出现一些前言不搭后语的情况，但是ChatGPT则难以完全模拟这种状况，例如在模拟患者抗拒回答时它可能仅会抗拒一两次，转换了询问方式它就不再抗拒，所以这和真实患者之间仍存在非常大的心理差距。我认为ChatGPT可以用来做一定程度的数据增强，但产生的数据与真实应用场景间的差距太大，无法用作完全的训练数据。

在前段时间举行的“AI助力攻克脑疾病研讨会”上，您提到自己很长一段时间都在做基于语言功能来判断抑郁症、帕金森等疾病的研究。语音与脑疾病间有什么关联？如何利用语音检测疾病？

吴梦玥：比如帕金森疾病是一种神经性的退行性疾病，它会影响大脑中的运动功能控制（motor control），运动功能控制不仅影响对于手脚的控制，还会影响到说话前的准备阶段（speech preparation），在大脑产生“说话”的念头到控制发声器官发声这两个步骤间还存在缓冲过程，当运动功能控制的部分受到影响后，虽然脑海中已经想到了要说的词，但因为发声器官在这个时刻还没有得到控制所以没法及时发声。所以很多帕金森患者在发音时可能出现发音不清晰或一直重复某个语音的情况，也可能会在发声中出现较长时间的停顿作为发出下一个语音的准备。

因此，帕金森患者在声学表现上有一些表征，比如说话的语速会变缓，整体的词汇量会变少，话语间的停顿时长也会变得更长，对一个词的重复次数会比正常人更多。这些其实都是可以进行量化计算的特征，将这些量化内容加到最后的检测模型里，就可以通过语音去反馈很多和疾病相关的特征。

目前基于语音进行疾病诊断的准确性是怎样的？是否已经一些研究已应用于医疗领域中？这其中是否会存在潜在的伦理问题？

吴梦玥：国内外的新闻中其实有对此类研究应用的准确性的报道，比如做抑郁症检测中有使用的南加州大学的数据集，用这个数据集做一个基线（benchmark），经过实验的调参后可以得到80%-90%的准确性，但将它放到真实场景或近似场景中面对不同方式采集来的数据时，它的迁移能力还是非常差的。如果不经过任何调参优化对不同的数据集进行检测，可能准确性就变成了60%-70%。面对这种情况，一方面可以结合不一样的模态进行检测，另一方面可能需要进一步寻找不受环境因素或者数据集因素所影响的特征，最后才能实现比较鲁棒或者可迁移的检测方式。

在这过程中会产生一定的伦理问题。第一个是这种模型检测能否替代医生的问题。首先，这项技术本身可以帮助医生工作，比如一个接受治疗的人可以通过心理状况筛查的小程序查看自己近期的心理状况，不需要每次复查都去医院面诊，这方面可以很大程度上增加诊断的便利性。但即使它在实验上已经达到了较好的准确性，其本身也无法替代医生面诊的检测结果。

除此之外，之所以强调使用语音来进行检测，是因为很多其他方面的信息比如脸部信息、步态等方面涉及的隐私内容可能会比语音涉及的隐私内容多，但是语音检测仍然会涉及人的隐私。比如在对于抑郁症或其他精神疾病的诊断上更多采取面诊的方式，仅仅根据患者对自己状态的描述来诊断的话客观性就会下降，所以我们在考虑是否可以使用可穿戴的设备对患者的睡眠、活动量等方面进行长期的监测，据此推断患者实际的状况，但这也会涉及另一类伦理问题：医生是否有权利获取患者日常生活中的生活轨迹来进行病情监测？因此，我认为从宏观角度来看，医疗、个人、公共卫生的管理之间都可能存在一定的冲突和矛盾。

技术本身是向前发展的，但牵涉制约技术的因素很多，技术是否能运用到实际生活中需要考虑的因素还有很多。

随着AI技术的迅猛发展，您觉得未来语音领域会有怎样的突破？

吴梦玥：我们实验室之前毕业的一位博士现在在Google进行多语言语音识别的项目，这个项目就是希望做到多语言的语音识别，构建出可以对多个语言甚至100个不同语言进行识别的语音识别系统，这其中也利用了声音和文本间的对应关系，在说话过程中，音素（phoneme）和语言（character或letter）之间存在很强的对应，用音素+时长就可以实现文本和语音间的转换。

丰富音频的分析中也存在很强的对应关系，比如“鸟叫”和含有鸟叫声的一类音频间有很强的指向性，以逆向利用这种指向性来进行音频上的编码，因此，文字与语音的关系也可以帮助我们进行多模态的对声音的理解或分析。

所以我会认为未来的一个很有潜力的发展方向，就是将语言当成有更充分知识的线索来辅助研究，在与语音相关的任何研究领域里或许都会很有帮助。

在ChatGPT问世后，您认为AGI相关的通用人工智能下一个阶段将向哪个方向发展？最终人工智能是否能进化得如同真正的人类一样？

吴梦玥：很早之前有一部科幻电影《她》（her），在电影中每个人都有一个视觉系统，人与人之间可以通过耳机进行对话，机器和人之间不存在信息理解的差距，这是我对未来通用人工智能功能的一种初步预想；再比如波士顿动力（Boston Dynamics）想做的陪伴型的机器狗，这也是一个研究方向。能实现这些功能的信息处理肯定是多模态的，如果机器获得的信息和人类获得的信息中间有太大的差距，就没办法帮助人进行决策。因此，在技术上来说模型还存在需要继续修正的部分，只有探究到人与机器人之间的差距再弥补这个差距，才能让机器变得与人更相像。

▷图片来源：《她》电影。

主人公西奥多·托姆布雷与人工智能助手萨曼莎

现在在人与机器的交互过程中，机器本身更多是以工具的形式存在，当它可以不局限于受到刺激才能回答的形式，而是可以主动进行对话时，才能使人机交互（human machine interaction）变成更接近于人与人之间的互动（human to human interaction）。

此外，当我们知道对方是机器人的时候，你会不会对机器人说“谢谢”或者“抱歉”？

在我们做模拟的过程中发现，如果医生事先知道对方是由ChatGPT扮演的患者时，医生并不会产生对“患者”的共情，在诊断过程中会更多倾向于通过走完流程来确认ChatGPT是否演绎出一个合格的患者；而当ChatGPT扮演医生来应对患者时也是一样。所以，还需要了解人和人相处与人和机器相处之间存在哪些差距，探究这种差距同样是实现真正通用的人工智能的关键。

您认为试图让机器和人更相像，到底是一件好事还是一件坏事？

吴梦玥：我觉得让机器和人更相像，一方面能够帮助机器拥有更好的性能，另一方面，当机器拥有了与人相似的种种能力后，人才能与机器进行更自然的沟通，否则人与机器之间仍然存在着差距。至于我们的研究中是否希望机器人更像人，这是更大范围上的伦理上的讨论。比如流浪地球中的Moss可能已经开始出现自己的意识，意识的出现对机器人来说是一件好事还是坏事，机器人存在的价值和意义到底在哪，我想这些会由哲学的老师去讨论。

如果从技术上来说，我们肯定希望通用人工智能更像人，当机器人拥有了与人相似的能力对人而言会有很大帮助，人本身将能够从很多繁复的劳动中解脱出来。至于解脱出来之后的行为能力是会上升还是下降，这是现在谁都没有办法预计的结果。