钛媒体PRO专业版_钛媒体官方网站

第四课：语音合成技术的研究进展

温正棋 / 人机交互技术的发展

第四课：语音合成技术的研究进展

小欣：这节课，温老师会为我们讲解语音合成技术的研究进展。

温正棋：语音合成是建立文本参数到声学参数的影射模型，目前的方法有拼接合成、参数合成还有端对端的语音合成。

基于HMM统计参数的语音合成是在训练过程中建立文本参数，如韵律参数、普参数和基频参数的映射模型通过决策数聚类的方法对每一个上下文相关的文本特征构建GMM模型，训练其GMM模型。

在合成时对输入文本预测出GMM后通过参数生成算法，生成语音参数然后再输出语音。在这个过程中有三个地方会产生语音音质的下降：第一是决策树的聚类，第二是声码器，第三是参数生成算法。针对这三个问题我们接下来看看各位研究者提出的解决方法。

针对决策树聚类的问题，我们可以将里面的HMM决策树据类变成一个DNN模型。文本参数到语音参数的一个映射可以很容易通过DNN来实现，而且实验效果会比决策树好一点。

除了DNN，RNN也用到了统计参数语音合成中，而且RNN里单元采用LSTM模型。我们可以把这个参数生成算法模块从统计参数语音合成中去掉。

这样在基于LSTM-RNN中直接预测出语音参数通过声码器就可以合成语音，跟RNN-LSTM预测出一阶二阶统计量以后采用参数生成算法、生成语音参数合成语音的效果差不多，所以RNN-LSTM可以把里面的参数生成算法给去掉。

最近几年大家在声码器问题上做了很多工作。比如WaveNet其实也属于声码器的模型，建立一个现今预测的模型通过前面采样点预测出后面的采样点。但是存在几个问题比如刚开始速度比较慢，这个问题后期被很多公司都解决了。

而且它并不是一个传统的vocoder需要文本参数作为它的输入，它有好处是在输入过程中可以很容易的在后端控制说话人的特征，比如不同说话人情感特征这些属于外部特征我们都可以进行很好的加入。

下面两个端对端的语音合成。第一个是Char2Wav，这个模型是直接对输入的文本进行编码采用的模型。直接对输入的叫字母进行编码然后生成中间的一个编码信息放到解码器里进行最后的合成，合成采用SimpleRNN的合成器来合成语音，效果也是比较理想的而且是纯粹的End-To-End的语音合成模型。

语音合成前期工作主要放在前端文本分析上。因为我们在听感上可能更关注，但是如果有一些很好的End-to-End的模型出来以后文本分析的工作就并不是很重要。

我们也可以在后端中加入一些文本分析的结果进行预测，这即是一种尝试也是一种很好的办法。现有合成器的音质不再首先考虑我们采用哪种声码器，而是采用直接生成的方法在实域上直接进行合成。语音合成更重要的是一些音库，我们不能忽略音库在语音合成中所占据的位置以及它的重要性。

小欣：下节课，温老师会为我们讲解声纹识别技术的研究进展。

【版权归钛媒体所有，未经许可不得转载】

分享课程：

微信扫码

大家都在学

72问

精品小课

精品小课