下载此文档

语音识别技术基础知识.docx


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
语音识别技术基础知识
6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。
与此同时,在日常生活中,我们已经****惯用Siri或者Cortana这样的语音助手在一些特定的情况下帮我们解决一些小问题,如在开车时制定本周的日常,简短地回复他人消息等等,然而,在大多数情况下语音助手的使用率并不高,据研究机构CreativeStrategies的调查-有62%的安卓用户从未使用过语音助手,而这个数字苹果用户中则是70%。是语音识别的技术还不够先进,还是人们不需要语音助手呢?Amazon Echo的成功或许能给我一些启示。
 
Amazon Echo是亚马逊公司于2014年11月推出的一款家庭语音助手,能够实现包括购物、控制智能家居、阅读Kindle、预约Uber、跟踪(亚马逊)快递、订披萨、计时、算术、放音乐、找手机、模仿雨声等等诸多功能,一经推出就点燃了市场的热情,据国外研究机构统计,2015年Echo的销量是170万台左右,2016年则增长至650万余台,而截至2017年1月,亚马逊Echo的全球销量已超过700万台,预计今年将突破1100万台。另据eMarketer的一份报告,在美国智能音箱市场,亚马逊Echo占据的市场份额超过70%。
同样是语音助手,为何Echo与Siri的境况如此不同呢,有研究者认为,这主要是两种产品使用环境不同而导致的。对于大多数人而言,在公共场合拿出手机,对着一个机器人说话不但缺乏隐私,同时多少有些不适;而在家庭中,面对家人和朋友,这点就能够有效避免,同时安静的环境更能有效提高机器识别的速度与精度,可以认为,Amazon Echo精准地切入了市场。然而,其他巨头也不甘人后,纷纷推出了自己的家庭智能语音助手:苹果推出了Home pod, 而google 也推出了google home. 看来,一场语音大战已经风雨欲来。
二、语音识别的基本原理
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
1.  声学信号预处理
作为语音识别的前提与基础,语音信号的预处理过程至关重要。在最终进行模板匹配的时候,是将输入语音信号的特征参数同模板库中的特征参数进行对比,因此,只有在预处理阶段得到能够表征语音信号本质特征的特征参数,才能够将这些特征参数进行匹配进行识别率高的语音识别。
首先需要对声音信号进行滤波与采样,此过程主要是为了排除非人体发声以外频率的信号与50Hz电流频率的干扰,该过程一般是用一个带通滤波器、设定上下戒指频率进行滤波,再将原有离散信号进行量化处理实现的;之后需要平滑信号的高频与低频部分的衔接段,从而可以在同一信噪比条件下对频谱进行求解,使得分析更为方便快捷;分帧加窗操作是为了将原有频域随时间变化的信号具有短时平稳特性,即将连续的信号用不同长度的采集窗口分成一个个独立的频域稳定的部分以便于分析,此过程主要是采用预加重技术;最后还需要进行端点检测工作,也就是对
输入语音信号的起止点进行正确判断,这主要是通过短时能量(同一帧内信号变化的幅度)与短时平均过零率(同一帧内采样信号经过零的次数)来进行大致的判定,具体可以参考文末【参考文献】。
 
2. 声学特征提取
完成信号的预处理之后,随后进行的就是整个过程中极为关键的特征提取的操作。将原始波形进行识别并不能取得很好的识别效果,频域变换后提取的特征参数用于识别,而能用于语音识别的特征参数必须满足以下几点:
特征参数能够尽量描述语音的根本特征;
尽量降低参数分量之间的耦合,对数据进行压缩;
应使计算特征参数的过程更加简便,使算法更加高效。基音周期、共振峰值等参数都可以作为表征语音特性的特征参数。
目前主流研究机构最常用到的特征参数有:线性预测倒谱

语音识别技术基础知识 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人neryka98
  • 文件大小108 KB
  • 时间2017-12-14