违规提示

请您遵循相关法律法规,避免再次出现类似问题

如有任何疑问,请联系support@tmtpost.com

关闭
第五课:声纹识别技术的研究进展
温正棋 / 人机交互技术的发展
第五课:声纹识别技术的研究进展

第五课:声纹识别技术的研究进展

小欣:这节课,温老师会为我们讲解声纹识别的研究原理。

温正棋:说话人识别也就是声纹识别,简单介绍一下现有的I-vector系统以及如何将DNN应用到对应的I-vector系统,同时我们也跟踪了最近end to end的一种方法。

基于Ivector系统通过UBM模型来训练数据,然后训练得到混合高斯模型,通过统计量的提取比如零阶、一阶、二阶我们来训练它的差异空间T从而提取出它的Ivector。

最后考虑到不同的补偿方式进行信道补偿使性能更加完善,同时我们在合成端、最后识别端也可以考虑不同系统的融合提高最终的准确率。

将DNN用到说话人识别主要是针对Ivector的系统。UBM训练是一个无监督的训练方式不考虑音速相关的信息,因此就不考虑每个人说话音速在声学空间上的不同。

我们可以将这部分信息运用到说话人识别中,将前面提到的Ivector需要的临界统计量通过DNN模型的输出进行替换。在训练Ivector的过程中考虑每个人音速、发音音速相关的不同特征,这样会更好的对说话人进行识别。

DNN还有一种应用形式采用bottleneck特征替换掉原来的MFCC、PLP相关的特征,这也是从音速区分性、每个人发音音速不一样来考虑的。

小欣:下节课,温老师会为我们讲解未来人机交互的研究方向。

【版权归钛媒体所有,未经许可不得转载】

分享课程:
大家都在学
72问 有声书系列 / 中国经济2021
精品小课 揭秘黄金投资:2022年以来上涨表现最好的资产之一
精品小课 阿里人力资源体系课

Oh! no

您是否确认要删除该条评论吗?

全部课程 ( 6 )
倒序播放

00:00
/
00:00
X1.0

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。