下载此文档

基于说话人聚类的说话人自适应.doc

文档分类：通信/电子 | 页数：约22页举报非法文档有奖

1/22

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/22 下载此文档

文档列表 文档介绍

基于说话人聚类的说话人自适应.doc基于说话人聚类的说话人自适应
摘要本文提出一种改进的基于模型差别度量的说话人聚类 (Speakerclustering)方法,并将该说话人聚类算法结合最大似然线性回归算法(Max i mumL ikelihoodLi nearRegre ssion, MLLR)构成整体的说话人自适应框架。将该方法应用于以音素为识别基元的汉语连续语音识别系统中，可能够提高系统的识别率，较好的满足快速性和渐进性。实验结果表明，该方法能够在仅有一句自适应数据的情况下，使系统字正识率由40. 43%提高到50. 86%o
关键词说话人聚类；说话人自适应
1引言
近年来，语音识别［1］技术已经日趋成熟，尤其对于特定人的语音识别十分准确。大量实验结果表明，在训练数据都很充分而且各方面的条件都相同时，特定人(SpeakerDependent, SD)识别系统的性能通常好于非特定人(SpeakerIndependent, SI)系统。然而，当某个特定人的训练数据受限时，由于缺少可靠估计模型所需要的足够多的数据, SD系统的这种优越性就不能得到保证。说话人自适应就是在一个针对原说话人充分训练的SD系统中，或是一个对许多说话者充分训练的 SI系统中加入少量新说话人的训练语音数据，通过一定的算法使新老数据结合，从而使系统的识别率接近于对新说话人经过充分训练的SD 系统的水平。
基于说话人聚类的说话人自适应是说话人自适应技术的一种［2］, 就是将原有的训练数据按照一定的算法聚类，识别时选取待识别语音所属类别的模板进行匹配，可以扩大适用人群，提高系统性能。
2主要自适应算法
说话人聚类是直接根据说话人的某种特性(或者根据某种度量), 将训练集中的说话人根据其语音特性分成若干个子集，每一个子集内的说话人都具有某种度量意义下的相似性，然后专门为每个子集训练声学模型，从而得到一组离散度和混叠度较小的说话人聚类 (Speakerclustering, SC)模型；测试时，先判断待测试的语音属于哪一个说话人子集，然后用这个子集的声学模型来进行测试［3］。
应用较为广泛的是基于说话人特性的和基于模型距离的聚类方法：说话人特性包括说话人的性别、年龄、口音等。这种方法利用先验的说话人的特性，在满足模型训练量的条件下，将说话人分到更小的子集合中。一个最常用的例子就是按性别将说话人进行分类。这种方法通常需要先验知识，也就通常离不开人工干预。的说话人聚类方法直接根据不同说话人对应的声学模型间的距离来进行聚类。首先根据某种模型距离度量方法，建立模型间的距离矩阵，然后完成基于距离矩阵的聚类，其中的关键是声学模型间距离的度量方法。高斯混合模型(GaussianMixtureModel, GMM)是基于模型距离说话人聚类常用的模型，GMM的概率密度分布函数是由个高斯概率密度函数加权求和而得到的，如式(1)所示：
其中是观测值X在某个GMM模型下的概率密度函数。X是k维的随机向量，是高斯混元的权值。是第i个单高斯分布概率密度函数，如⑵式：
(2)
对高斯混合模型而言，模型距离的定义最终可以归入分布间的距离衡量。其中常用的有如下几种：
欧式距离(EuclideanDistance):
(3)
马氏距离(MahalanobisDistance)
(4)
巴特查里亚距离(EhattacharyyaDistance)
(5)
其中，，表示两个多维高斯分布，为两个分布的均值向量，表示两个分布的协方差矩阵。
最大似然线性回归法(MaximumLikelihoodLinearRegression, MLLR)是一种基于变换的方法，它采用一组变换描述从初始模型到说话人自适应(SpeakerAdaptation, SA)后模型的变换关系，另外MLLR还能对不同的信道及附加噪声有一定补偿作用。一般认为不同说话人之间的差异主要表现在均值矢量上，式(6)为均值转换的估计式。
(6)
其中是混合成份s的转移矩阵,是自适应后的均值后的均值向量,
是混合成分S的扩展均值向量，其定义如下：
(7)
3模型间的差别度量
可以将一个GMM的参数看作一组语音特征，考察这组特征在另一个GMM中的输出概率。用输出概率来衡量两个模型间的距离［4］。
其方法如下：把GMMA的M个混元的均值向量当作M个观测向量, 计算这M个观测矢量在GMMB下的概率。类似地，计算GMMB的M个混元的均值向量在GMMA下的概率。
定义GMMA和GMME的单边加权似然度为：
(8)
其中，CAi表示GMMA第i个混元的权值，uAi表示第i个混元的均值向量，表示GMMA第i个混元的均值向量在GMME下的概率，同理可得GMMB

基于说话人聚类的说话人自适应来自淘豆网www.taodocs.com转载请标明出处.

基于说话人聚类的说话人自适应.doc

基于说话人聚类的说话人自适应

基于说话人的音频分割与聚类

基于说话人聚类的说话人自适应

基于说话人聚类的说话人自适应

基于说话人聚类的说话人自适应

基于说话人聚类的说话人自适应(1)

基于说话人聚类的说话人自适应

基于说话人聚类的说话人自适应

基于说话人聚类的说话人自适应(1)

基于说话人模型聚类的说话人识别