下载此文档

基于说话人聚类的说话人自适应.doc

文档分类：通信/电子 | 页数：约3页举报非法文档有奖

1/3

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/3 下载此文档

文档列表 文档介绍

基于说话人聚类的说话人自适应
1 引言
近年来,语音识别[1]技术已经日趋成熟,尤其对于特定人的语音识别十分准确。大量实验结果表明,在训练数据都很充分而且各方面的条件都相同时,特定人(Speaker Dependent,SD)识别系统的性能通常好于非特定人(Speaker Independent,SI)系统。然而,当某个特定人的训练数据受限时,由于缺少可靠估计模型所需要的足够多的数据,SD 系统的这种优越性就不能得到保证。说话人自适应就是在一个针对原说话人充分训练的SD 系统中,或是一个对许多说话者充分训练的SI 系统中加入少量新说话人的训练语音数据,通过一定的算法使新老数据结合,从而使系统的识别率接近于对新说话人经过充分训练的SD 系统的水平。
基于说话人聚类的说话人自适应是说话人自适应技术的一种[2],就是将原有的训练数据按照一定的算法聚类,识别时选取待识别语音所属类别的模板进行匹配,可以扩大适用人群,提高系统性能。
2 主要自适应算法
说话人聚类是直接根据说话人的某种特性(或者根据某种度量),将训练集中的说话人根据其语音特性分成若干个子集,每一个子集内的说话人都具有某种度量意义下的相似性,然后专门为每个子集训练声学模型,从而得到一组离散度和混叠度较小的说话人聚类(Speaker Clustering, SC)模型;测试时,先判断待测试的语音属于哪一个说话人子集,然后用这个子集的声学模型来进行测试[3]。
应用较为广泛的是基于说话人特性的和基于模型距离的聚类方法:说话人特性包括说话人的性别、年龄、口音等。这种方法利用先验的说话人的特性,在满足模型训练量的条件下,将说话人分到更小的子集合中。一个最常用的例子就是按性别将说话人进行分类。这种方法通常需要先验知识,也就通常离不开人工干预。的说话人聚类方法直接根据不同说话人对应的声学模型间的距离来进行聚类。首先根据某种模型距离度量方法,建立模型间的距离矩阵,然后完成基于距离矩阵的聚类,其中的关键是声学模型间距离的度量方法。
自应用层组播的概念提出以来,已有很多各具特点的解决方案被提出。各个不同的应用层组播系统具有不同的设计目标及系统结构。如,ESM(End-System Multicast)[1]和ALMI[2]适合时延要求不高的小规模多对多通信,而Scattercast[3]和Overcasts[4]则支持大规模的数据递送系统。
在系统结构方面,根据建立应用层组播拓扑结构时采用的方案,将这些系统分为两种:网优先(Mesh First)和树优先(Tree First),网优先的系统会首先为覆盖节点建立一个网状的拓扑结构,然后按照某种路由协议来生成数据路由树,如ESM的Narada协议,会先构建一个网,然后通过修改后的DVMRP协议完成路由树的生成;而树优先的系统则是直接建立数据路由树,ALMI、 Overcast、 Host Multicastis[5]均属于这种系统。一般来说,网优先的系统稳定性更好,不会形成回路,树优先的系统则在效率上占优势。
在多源的应用层组播方案中,根据数据路由树的使用和维持,可以分为Shared Tree和Source-specific Tree两种。Shared Tree,就是所有的源使用同一棵树;Source-specific Tree,就是每个源维持一棵树

基于说话人聚类的说话人自适应来自淘豆网www.taodocs.com转载请标明出处.