下载此文档

Acoustic Modeling 声学模型.pptx


文档分类:汽车/机械/制造 | 页数:约50页 举报非法文档有奖
1/50
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/50 下载此文档
文档列表 文档介绍
Acoustic Modeling_声学模型 Variability in the speech signal
语音信号的变化
Signal Processing–Extracting Features
信号处理-特征提取
Phonetic Modeling–Selecting Appropriate Units
语音建模-选择合适的建模单元
Acoustic Modeling-Scoring Acoustic Features
声学建模-得分声学特征
Chapter 9 Acoustic Modeling
1
完整版课件
前言—语音识别
给定一个声音观测序列: ,语音识别的目标就是找到相应的单词序列 使得后验概率
最大,即:
由于在计算上式时,观测序列 已经固定,因此最大化上式也就相当于最大化下面的式子:
2
完整版课件
前言
由上式可以看出,语音识别中最主要的就是:



在建立声学模型 时,要考虑到说话人变化,发音变化,环境变化以及上下文对于发音的影响。并且,任何静态语音或者语言模型并不能满足实际应用。所以在应用识别系统时,还必须要动态的调节 来最大化

3
完整版课件
.1 Context Variability 上下文变化
词和句子水平,例:
should write to right away about his Ford or four door Honda.

wright ,write,right
,语义相关
Ford or 和Four Door
需要说话人在词之间停顿或利用语调来将这些语义模糊的短语分离。
音素水平,例:
peat和wheel 音素/ee/


4
完整版课件
.2 Style Variability 风格变化
在连续语音识别中,说话速率,说话的方式,低语或喊叫都会对识别性能有影响。
为了解决声学实现的变化性,在应用语音识别器时,可以添加一些限制。
例如,可以建立一个孤立词识别系统,使用者被要求在每个单词之间停顿。停顿的设置使得单词之间有了一个清晰的边界,这样我们就可以容易的消除像Ford or 和Four Door这样的错误。并且,孤立词也为每一个单词提供了一个正确的静音语境,这样,对语音进行建模和解码就会变得很容易,计算复杂性和错误率可以大大降低。
优点:单词识别错误率降低(相对连续识别系统降低2%到7%)
缺点:不自然、有限时长包含的语音量显著降低
5
完整版课件
Speaker Variability 说话人变化
每个说话人发出的声音反映了他(或她)的声道大小、长度、脖子宽度等一系列的物理特征以及年龄,性别,方言、健康、教育程度、个人风格等。即使是同一个说话人,也不能保证他说出两句完全相同的话。

一般利用500多个说话人来建立一个联合模型。因为由训练集中数据训练得到的模型可能与新说话人不匹配,系统性能就会出现波动。特别是带有口音的说话人错误率会明显提高2到3倍。
为了提高非特定说话人语音识别器性能,在应用时可以添加一些限制。例如,可以要求说话人说30分钟左右的话来进行“注册”,获得特定说话人的声学特征。
6
完整版课件
Speaker Variability 说话人变化

对于特定说话人的数据和训练,我们可以获得许多特定说话人的声学特征来显著提高语音识别器的性能。实际上,特定说话人语音识别不仅可以提高准确性还可以提高识别速度。因为这种情况下得到的声学和发音模型更准确,解码会更有效。在与非特定说话人语音识别系统相比,一个典型的特定说话人语音识别系统可以将单词识别错误率至少减少30%。
缺点:需要花费时间收集特定说话人的数据,对于一些实时的应用来说并不适用。当特定说话人的数据量被限制,需要利用说话人自适应训练技术对特定和非特定说话人数据进行处理。
7
完整版课件
Environment Variability 环境变化
背景噪音:环境噪音
发声者自身产生:咂嘴声、呼气声

Acoustic Modeling 声学模型 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数50
  • 收藏数0 收藏
  • 顶次数0
  • 上传人相惜
  • 文件大小360 KB
  • 时间2021-01-29