语音增强的发展
在二十世纪初期和中期语音增强领域的进步主要是在语音可懂度研究的声学领域,而近几十年来主要的进步是来自于数字信号处理和模式识别。六十到七十年代,关于语音可懂度方面的研究逐渐减少并转入沉寂。语音增强研究的另一个源动力信号处理开始显示其力量。这个源头也起源于第二次世界大战,其关键是自动机械的控制理论和电子计算机。维纳提出了平稳条件下的维纳滤波理论,而战后火箭和卫星等空间技术的迅速发展则导致了用状态变量进行递推滤波的卡尔曼滤波理论。但因为语音信号是非平稳的,而且无法用状态方程,当时没有将滤波理论用于语音增强。
七十年代中后期,半导体发展导致了通用电子计算机的进步,数字信号处理技术因此迅速发展起来,这是语音处理真正的转折点。快速傅利叶变换(FFT-Fast Fourier Transform)和线性系统理论的发展提出了语音发声的模型,见图1-3。
图1-3 语音信号的产生模型
其中Av和Au分别是浊音和清音的激励幅度,声道模型的传输函数V(z)用全极点模型(AR-Auto Regressive)近似表示为:
其中N是模型阶数,是各阶极点的系数,z是z变换域的自变量。此模型可等价为线性预测编码(LPC-Linear Predictive Code)模型,存在由输出信号求解模型系数的快速递推算法。
在上述模型的基础上,借助于计算机的强大计算能力,人们自七十年代末起开始提出基于数字信号处理的语音增强方法。这方面的进展主要反映在每年一届的国际声学、语音学和信号处理会议(ICASSP-International Conference onAcoustic,Speech and Signal Processing)上。
注意到浊音的周期性,人们首先提出用梳状滤波器加强周期性的语音而衰减非周期性的噪音。在自适应噪声抵消的思想指导下发展了自适应滤波的语音增强方案。估计带噪声语音的AR模型参数,就能够以迭代的方式进行维纳滤波。利用AR模型也能写出带噪语音的状态空间方程,从一组状态方程出发能够进行卡尔曼滤波。如果利用噪音的平均谱估计有语音期间的噪声,则加性的噪音能量可用频谱减法有效地抑制,此方法简单而实用,是非常重要的语音增强算法,并受到了研究者的一贯关注。
上述语音增强算法均是七十年代末八十年代初的研究成果。在八十年代,机器人和模式识别的研究推动了语音识别技术的发展,而在
语音增强的发展 来自淘豆网www.taodocs.com转载请标明出处.