下载此文档

AcousticModeling声学模型PPT学习教案.pptx


文档分类:高等教育 | 页数:约49页 举报非法文档有奖
1/49
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/49 下载此文档
文档列表 文档介绍
会计学
1
AcousticModeling声学模型
前言
由上式可以看出,语音识别中最主要的就是:



在建立声学模型 时,要考虑到说话人变化,发音变化,环境变化以及上下文对于发音的影响。并且,任何静态语音或者语言模型并不能满足实际应用。所以在应用识别系统时,还必须要动态的调节 来最大化

第1页/共49页
.1 Context Variability 上下文变化
词和句子水平,例:
should write to right away about his Ford or four door Honda.

wright ,write,right
,语义相关
Ford or 和Four Door
需要说话人在词之间停顿或利用语调来将这些语义模糊的短语分离。
音素水平,例:
peat和wheel 音素/ee/


第2页/共49页
.2 Style Variability 风格变化
在连续语音识别中,说话速率,说话的方式,低语或喊叫都会对识别性能有影响。
为了解决声学实现的变化性,在应用语音识别器时,可以添加一些限制。
例如,可以建立一个孤立词识别系统,使用者被要求在每个单词之间停顿。停顿的设置使得单词之间有了一个清晰的边界,这样我们就可以容易的消除像Ford or 和Four Door这样的错误。并且,孤立词也为每一个单词提供了一个正确的静音语境,这样,对语音进行建模和解码就会变得很容易,计算复杂性和错误率可以大大降低。
优点:单词识别错误率降低(相对连续识别系统降低2%到7%)
缺点:不自然、有限时长包含的语音量显著降低
第3页/共49页
Speaker Variability 说话人变化
每个说话人发出的声音反映了他(或她)的声道大小、长度、脖子宽度等一系列的物理特征以及年龄,性别,方言、健康、教育程度、个人风格等。即使是同一个说话人,也不能保证他说出两句完全相同的话。

一般利用500多个说话人来建立一个联合模型。因为由训练集中数据训练得到的模型可能与新说话人不匹配,系统性能就会出现波动。特别是带有口音的说话人错误率会明显提高2到3倍。
为了提高非特定说话人语音识别器性能,在应用时可以添加一些限制。例如,可以要求说话人说30分钟左右的话来进行“注册”,获得特定说话人的声学特征。
第4页/共49页
Speaker Variability 说话人变化

对于特定说话人的数据和训练,我们可以获得许多特定说话人的声学特征来显著提高语音识别器的性能。实际上,特定说话人语音识别不仅可以提高准确性还可以提高识别速度。因为这种情况下得到的声学和发音模型更准确,解码会更有效。在与非特定说话人语音识别系统相比,一个典型的特定说话人语音识别系统可以将单词识别错误率至少减少30%。
缺点:需要花费时间收集特定说话人的数据,对于一些实时的应用来说并不适用。当特定说话人的数据量被限制,需要利用说话人自适应训练技术对特定和非特定说话人数据进行处理。
第5页/共49页
Environment Variability 环境变化
背景噪音:环境噪音
发声者自身产生:咂嘴声、呼气声
设备噪音:麦克风、A/D干扰噪声
对于环境变化,我们可以利用从多种环境下获得的数据来建立系统。利用适应技术来归一化不同环境条件。
第6页/共49页
Signal Processing-Extracting Features
Signal Acquisition 信号采集
在语音信号采集中,对于采样率为16khz,16bitA/D转换精度所需要的缓冲器范围一般为4到64KB。在实际中,对于8khz的语音带宽,16khz的采样率已经足够。
第7页/共49页
.2 End-Point Detection 端点检测
为了激活语音信号捕获,我们可以采用一些模型,例如对讲机(push to talk)或者连续监听(continuously listening)。
(Push to talk)
这种模式利用

AcousticModeling声学模型PPT学习教案 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数49
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小325 KB
  • 时间2021-07-04