下载此文档

基于说话人聚类的说话人自适应(1).docx

文档分类：通信/电子 | 页数：约7页举报非法文档有奖

1/7

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/7 下载此文档

文档列表 文档介绍

基于说话人聚类的说话人自适应(1)
摘要本文提出一种改进的基于模型差别度量的说话人聚类(SpeakerClustering)螗方法,并将该说话人聚类算法结合最大似檑然线性回归算法(MaximumLik掀elihoodLinearRegre鸱ssion,MLLR)构成整体的说话鼹人自适应框架。将该方法应用于以音素为识别基元的汉语连续语音识别系统中,可能够提高系统的识别率,较好的满足快速预性和渐进性。实验结果表明,该方法能够泻在仅有一句自适应数据的情况下,使系统陬字正识率由%提高到%。关键词说话人聚溻类;说话人自适应 1 引言近年来,语聃音识别[1]技术已经日趋成熟,尤其对楼于特定人的语音识别十分准确。大量实验结果表明,在训练数据都很充分而且各方厶面的条件都相同时,特定人(Speak╆erDependent,SD)识别系统的性能通常好于非特定人(Speak鸹erIndependent,SI)系统。然而,当某个特定人的训练数据受限奚时,由于缺少可靠估计模型所需要的足够揣多的数据,SD系统的这种优越性就不能唇得到保证。说话人自适应就是在一个针对原说话人充分训练的SD系统中,或是一≯个对许多说话者充分训练的SI系统中加禀入少量新说话人的训练语音数据,通过一豇定的算法使新老数据结合,从而使系统的渎识别率接近于对新说话人经过充分训练的栈SD系统的水平。基于说话人聚类的说话旖人自适应是说话人自适应技术的一种[2巧],就是将原有的训练数据按照一定的算
疵法聚类,识别时选取待识别语音所属类别喝的模板进行匹配,可以扩大适用人群,提鹪高系统性能。 2 主要自适应算法说话嫣人聚类是直接根据说话人的某种特性,将肥训练集中的说话人根据其语音特性分成若瞌干个子集,每一个子集内的说话人都具有┕某种度量意义下的相似性,然后专门为每个子集训练声学模型,从而得到一组离散听度和混叠度较小的说话人聚类模型;测试炜时,先判断待测试的语音属于哪一个说话媵人子集,然后用这个子集的声学模型来进冤行测试[3]。应用较为广泛的是基于说摞话人特性的和基于模型距离的聚类方法:弥说话人特性包括说话人的性别、年龄、口垒音等。这种方法利用先验的说话人的特性,在满足模型训练量的条件下,将说话人分到更小的子集合中。一个最常用的例子册就是按性别将说话人进行分类。这种方法桧通常需要先验知识,也就通常离不开人工喻干预。的说话人聚类方法直接根据不同说帘话人对应的声学模型间的距离来进行聚类沛。首先根据某种模型距离度量方法,建立趟模型间的距离矩阵,然后完成基于距离矩事阵的聚类,其中的关键是声学模型间距离鸨的度量方法。高斯混合模型是基于模型距ㄓ离说话人聚类常用的模型,GMM的概率樱密度分布函数是由个高斯概率密度函数加霜权求和而得到的,如式(1)所示: 其烃中是观测值x在某个GMM模型下的概率┈密度函数。x是k维的随机向量, 是高斯混元的权值。是第i个单高斯分布概荦率密度函数,如(2)式:对高斯混合模
皱型而言,模型距离的定义最终可以归入分′布间的距离衡量。其中常用的有如下几种出:欧式距离(EuclideanDis昼tance): 马氏距离巴特查里¨亚距离其中,,表示两个多维高斯分布成,为两个分布的均值向量,表示两个分布蝮的协方差矩阵。最大似然线性回归法(M媳aximumLikelihoodLi氐n

基于说话人聚类的说话人自适应(1) 来自淘豆网www.taodocs.com转载请标明出处.