第五课:声纹识别技术的研究进展
小欣:这节课,温老师会为我们讲解声纹识别的研究原理。
温正棋:说话人识别也就是声纹识别,简单介绍一下现有的I-vector系统以及如何将DNN应用到对应的I-vector系统,同时我们也跟踪了最近end to end的一种方法。
基于Ivector系统通过UBM模型来训练数据,然后训练得到混合高斯模型,通过统计量的提取比如零阶、一阶、二阶我们来训练它的差异空间T从而提取出它的Ivector。
最后考虑到不同的补偿方式进行信道补偿使性能更加完善,同时我们在合成端、最后识别端也可以考虑不同系统的融合提高最终的准确率。
将DNN用到说话人识别主要是针对Ivector的系统。UBM训练是一个无监督的训练方式不考虑音速相关的信息,因此就不考虑每个人说话音速在声学空间上的不同。
我们可以将这部分信息运用到说话人识别中,将前面提到的Ivector需要的临界统计量通过DNN模型的输出进行替换。在训练Ivector的过程中考虑每个人音速、发音音速相关的不同特征,这样会更好的对说话人进行识别。
DNN还有一种应用形式采用bottleneck特征替换掉原来的MFCC、PLP相关的特征,这也是从音速区分性、每个人发音音速不一样来考虑的。
小欣:下节课,温老师会为我们讲解未来人机交互的研究方向。
【版权归钛媒体所有,未经许可不得转载】
账号合并
经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。
Oh! no
您是否确认要删除该条评论吗?