下载此文档

语音信号特征参数提取方法.doc


文档分类:论文 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
阮雄飞微电子学与固体电子学摘要:在语音技术的发展过程中使用了大量的语音信号特征参数,好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了Hilbert-Huang这一新兴理论成果以及在特征提取中的应用。关键词:语音技术特征提取HHT1引言语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别[2]。后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。语音信号特征参数是分帧提取的,每帧特征参数一般构成一个矢量,所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧,每帧大小大约是20-30ms。帧太大就不能得到语音信号随时间变化的特性,帧太小就不能提取出语音信号的特征,每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大,帧之间就要有重叠,帧叠往往是帧长的1/2或1/3。帧叠大,相应的计算量也大[3]。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。(线性预测倒谱系数)、(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。2语音信号特征参数提取方法对语音信号的大量分析表明,语音信号中包含着持续的准谐波成分和瞬变的迁越成分[4],即语音信号是一种多分量、非线性、非平稳信号。诸如声门、声道以及辐射等影响因素很多,使得语音信号特征参数的准确提取和修正较为困难。这就需要一种精确的时频表示方法[5,6],来准确表现语音信号的各种特征。传统的语音信号处理都是基于语音信号的两个基本假设[7],即人的发声系统是线性的及语音信号是短时平稳的。这两个假定导出了各种“短时”处理方法,如:短时傅里叶变换、倒谱分析和线性预测分析等。这些“短时”处理方法虽然引入了时频局部化思想,但它们的“短时窗口”大小是固定不变的[8],不能敏感地反映信号的突变,从而忽略了语音信号的时变特征,所以提取出来的参数往往不够精确。随着小波分析理论[9]的发展,小波分析也逐渐应用于语音信号的分析和处理。虽然小波分析具有可调的时频窗口,但是也存在一定的局限性,主要表现在以下几个方面[9,10]:⑴难以选择的小波基。在小波分析中,可以根据不同的要求构造不同的小波基。但是对某一信号,依据什么原则、用什么判据选择小波基在理论上和实际应用中还是一个难点。⑵固定的基函数。小波基一旦选定就不能再更改,而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应性。⑶恒定的多分辨率。小波变换的多尺度特性使小波具有“

语音信号特征参数提取方法 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xunlai783
  • 文件大小79 KB
  • 时间2019-06-15