复杂环境下说话人确认
鲁棒性研究
(申请清华大学工学博士学位论文)
培养单位 : 计算机科学与技术系
学 科 : 计算机科学与技术
研 究 生 : 王 军
指导教师 : 郑 方 研究员
二○一五年四月
Research on Robustness of Speaker
Verification under Complicated
Environments
Dissertation Submitted to
Tsinghua University
in partial fulfillment of the requirement
for the degree of
Doctor of Philosophy
in
Computer Science and Technology
by
Wang Jun
Dissertation Supervisor : Professor Thomas Fang Zheng
April, 2015
摘 要
摘 要
本文对说话人确认系统的鲁棒性进行了深入研究,论文主要工作包括:
1. 针对跨信道问题,提出了基于频带加权的特征提取算法,研究了其在不同
数据集及基于 i-vector 的说话人确认系统的推广性。本文依据 F-ratio 准则估计梅
尔频带在跨信道说话人确认任务中的频带区分度,依此进行频带加权,得到修正
的 MFCC 提取算法;分析了 F-ratio 的区分性监督学****与 i-vector 全变量空间映射
矩阵的非监督学****之间的差异,采用 LDA 区分性模型将 F-ratio 在特征域的说话人
信息突显出来;研究基于 i-vector 的说话人确认框架下 F-ratio 方法在不同数据
集合下的可扩展性。在 2008 年 NIST 核心评测集上的实验表明,相对于传统
MFCC 特征,基于频带加权的修正的 MFCC 特征在 NIST 核心评测的 8 种测
试条件下均有不同程度的提高,在核心评测全集上的 EER 相对下降达 %。
2. 提出了基于 DNN 区分性训练的说话人确认方法。本文首先研究了 DNN
区分性训练数据集的筛选准则;提出采用 i-vector 的余弦度量和对应维度的
幅值差值距离作为 DNN 区分性训练的输入,在说话人 i-vector 空间中构建基于
DNN 的区分性训练;最后,考虑到区分式模型与产生式模型的互补性,提出
将 PLDA 模型与基于 DNN 区分性训练方法进行融合。在 2008 年 NIST 核心
评测集上的实验表明,相对于 i-vector+PLDA 的基线系统,基于 DNN 区分
性训练的方法在 NIST 核心评测 8 种测试条件下均有不同程度的提高,在核
心评测全集上的 EER 相对下降达 %。
3. 提出了基于顺序自适应的模型动态更新算法。针对测试环境发生变化时说
话人确认系统性能会大幅下降的问题,提出了基于
复杂环境下说话人确认鲁棒性研究 来自淘豆网www.taodocs.com转载请标明出处.