下载此文档

Acoustic Modeling 声学模型.pptx


文档分类:汽车/机械/制造 | 页数:约50页 举报非法文档有奖
1/50
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/50 下载此文档
文档列表 文档介绍
Acoustic Modeling_声学模型–ExtractingFeatures信号处理-–SelectingAppropriateUnits语音建模--ScoringAcousticFeatures声学建模-得分声学特征Chapter9AcousticModeling前言—语音识别给定一个声音观测序列:,语音识别的目标就是找到相应的单词序列使得后验概率最大,即:由于在计算上式时,观测序列已经固定,因此最大化上式也就相当于最大化下面的式子:前言由上式可以看出,语音识别中最主要的就是:,要考虑到说话人变化,发音变化,环境变化以及上下文对于发音的影响。并且,任何静态语音或者语言模型并不能满足实际应用。所以在应用识别系统时,还必须要动态的调节来最大化。,例:,write,,语义相关Fordor和FourDoor需要说话人在词之间停顿或利用语调来将这些语义模糊的短语分离。音素水平,例:peat和wheel音素/ee/。,说话速率,说话的方式,低语或喊叫都会对识别性能有影响。为了解决声学实现的变化性,在应用语音识别器时,可以添加一些限制。例如,可以建立一个孤立词识别系统,使用者被要求在每个单词之间停顿。停顿的设置使得单词之间有了一个清晰的边界,这样我们就可以容易的消除像Fordor和FourDoor这样的错误。并且,孤立词也为每一个单词提供了一个正确的静音语境,这样,对语音进行建模和解码就会变得很容易,计算复杂性和错误率可以大大降低。优点:单词识别错误率降低(相对连续识别系统降低2%到7%)缺点:不自然、(或她)的声道大小、长度、脖子宽度等一系列的物理特征以及年龄,性别,方言、健康、教育程度、个人风格等。即使是同一个说话人,也不能保证他说出两句完全相同的话。。因为由训练集中数据训练得到的模型可能与新说话人不匹配,系统性能就会出现波动。特别是带有口音的说话人错误率会明显提高2到3倍。为了提高非特定说话人语音识别器性能,在应用时可以添加一些限制。例如,可以要求说话人说30分钟左右的话来进行“注册”,获得特定说话人的声学特征。,我们可以获得许多特定说话人的声学特征来显著提高语音识别器的性能。实际上,特定说话人语音识别不仅可以提高准确性还可以提高识别速度。因为这种情况下得到的声学和发音模型更准确,解码会更有效。在与非特定说话人语音识别系统相比,一个典型的特定说话人语音识别系统可以将单词识别错误率至少减少30%。缺点:需要花费时间收集特定说话人的数据,对于一些实时的应用来说并不适用。当特定说话人的数据量被限制,需要利用说话人自适应训练技术对特定和非特定说话人数据进行处理。:环境噪音发声者自身产生:咂嘴声、呼气声设备噪音:麦克风、A/D干扰噪声对于环境变化,我们可以利用从多种环境下获得的数据来建立系统。利用适应技术来归一化不同环境条件。-,对于采样率为16khz,16bitA/D转换精度所需要的缓冲器范围一般为4到64KB。在实际中,对于8khz的语音带宽,16khz的采样率已经足够。-PointDetection端点检测为了激活语音信号捕获,我们可以采用一些模型,例如对讲机(pushtotalk)或者连续监听(continuouslylistening)。(Pushtotalk)这种模式利用一个特别的推动事件来激活或者关闭语音捕获:按下代表语音开始,释放表示语音捕获的结束。要求使用者在讲话时按下并要持续按住。优点:不受潜在的背景噪声的影

Acoustic Modeling 声学模型 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数50
  • 收藏数0 收藏
  • 顶次数0
  • 上传人镜花水月
  • 文件大小397 KB
  • 时间2019-02-24