下载此文档

语音识别的现状与前景探讨.pdf


文档分类:研究报告 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
该【语音识别的现状与前景探讨 】是由【马克里思】上传分享,文档一共【7】页,该文档可以免费在线阅读,需要了解更多关于【语音识别的现状与前景探讨 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。语音识别的现状与前景探讨
前⾔
总结⽬前语⾳识别的发展现状,dnn、rnn/lstm和cnn算是语⾳识别中⼏个⽐较主流的⽅向。2012年,微软邓⼒和俞栋⽼师将前馈神经⽹络
FFDNN(FeedForwardDeepNeuralNetwork)引⼊到声学模型建模中,将FFDNN的输出层概率⽤于替换之前GMM-HMM中使⽤GMM计
算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆⽹络(LSTM,LongShortTermMemory)可以说是⽬前语⾳识别应⽤最⼴
泛的⼀种结构,这种⽹络能够对语⾳的长时相关性进⾏建模,从⽽提⾼识别正确率。双向LSTM⽹络可以获得更好的性能,但同时也存在训
练复杂度⾼、解码时延⾼的问题,尤其在⼯业界的实时识别系统中很难应⽤。
回顾近⼀年语⾳识别的发展,deepcnn绝对称得上是⽐较⽕的关键词,很多公司都在这⽅⾯投⼊了⼤量研究。其实CNN被⽤在语⾳识别中
由来已久,在12、13年的时候OssamaAbdel-Hamid就将CNN引⼊了语⾳识别中。那时候的卷积层和pooling层是交替出现的,并且卷
积核的规模是⽐较⼤的,CNN的层数也并不多,主要是⽤来对特征进⾏加⼯和处理,使其能更好的被⽤于DNN的分类。随着CNN在图像
领域的发光发热,VGGNet,GoogleNet和ResNet的应⽤,为CNN在语⾳识别提供了更多思路,⽐如多层卷积之后再接pooling层,减⼩卷
积核的尺⼨可以使得我们能够训练更深的、效果更好的CNN模型。
1语⾳识别为什么要⽤CNN
通常情况下,语⾳识别都是基于时频分析后的语⾳谱完成的,⽽其中语⾳时频谱是具有结构特点的。要想提⾼语⾳识别率,就是需要克服语
⾳信号所⾯临各种各样的多样性,包括说话⼈的多样性(说话⼈⾃⾝、以及说话⼈间),环境的多样性等。⼀个卷积神经⽹络提供在时间和空
间上的平移不变性卷积,将卷积神经⽹络的思想应⽤到语⾳识别的声学建模中,则可以利⽤卷积的不变性来克服语⾳信号本⾝的多样性。从
这个⾓度来看,则可以认为是将整个语⾳信号分析得到的时频谱当作⼀张图像⼀样来处理,采⽤图像中⼴泛应⽤的深层卷积⽹络对其进⾏识
别。
从实⽤性上考虑,CNN也⽐较容易实现⼤规模并⾏化运算。虽然在CNN卷积运算中涉及到很多⼩矩阵操作,运算很慢。不过对CNN的加速
运算相对⽐较成熟,如Chellapilla等⼈提出⼀种技术可以把所有这些⼩矩阵转换成⼀个⼤矩阵的乘积。⼀些通⽤框架如Tensorflow,caffe等
也提供CNN的并⾏化加速,为CNN在语⾳识别中的尝试提供了可能。
下⾯将由“浅”⼊“深”的介绍⼀下cnn在语⾳识别中的应⽤。
2CLDNN
提到CNN在语⾳识别中的应⽤,就不得不提CLDNN(CONVOLUTIONAL,LONGSHORT-TERMMEMORY,FULLYCONNECTEDDEEP
NEURALNETWORKS)[1],在CLDNN中有两层CNN的应⽤,算是浅层CNN应⽤的代表。CNN和LSTM在语⾳识别任务中可以获得⽐
DNN更好的性能提升,对建模能⼒来说,CNN擅长减⼩频域变化,LSTM可以提供长时记忆,所以在时域上有着⼴泛应⽤,⽽DNN适合将
特征映射到独⽴空间。⽽在CLDNN中,作者将CNN,LSTM和DNN串起来融合到⼀个⽹络中,获得⽐单独⽹络更好的性能。
CLDNN⽹络的通⽤结构是输⼊层是时域相关的特征,连接⼏层CNN来减⼩频域变化,CNN的输出灌⼊⼏层LSTM来减⼩时域变化,LSTM
最后⼀层的输出输⼊到全连接DNN层,⽬的是将特征空间映射到更容易分类的输出层。之前也有将CNNLSTM和DNN融合在⼀起的尝试,
不过⼀般是三个⽹络分别训练,最后再通过融合层融合在⼀起,⽽CLDNN是将三个⽹络同时训练。实验证明,如果LSTM输⼊更好的特征其
性能将得到提⾼,受到启发,作者⽤CNN来减⼩频域上的变化使LSTM输⼊⾃适应性更强的特征,加⼊DNN增加隐层和输出层之间的深度获
得更强的预测能⼒。
⽹络结构

⽹络结构图如图1,假设中⼼帧为,考虑到内容相关性,向左扩展L帧,向右扩展R帧,则输⼊特征序列为[,...,],特征向量使⽤
的是40维的log梅尔特征。
CNN部分为两层CNN,每层256个featuremaps,第⼀层采⽤9x9时域-频域滤波器,第⼆层为4x3的滤波器。池化层采⽤max-pooling策略,
第⼀层poolingsize是3,第⼆层CNN不接池化层。
由于CNN最后⼀层输出维度很⼤,⼤⼩为feature-mapstimefrequency,所以在CNN后LSTM之前接⼀个线性层来降维,⽽实验也证明降维减
少参数并不会对准确率有太⼤影响,线性层输出为256维。
CNN后接2层LSTM,每个LSTM层采⽤832个cells,512维映射层来降维。输出状态标签延迟5帧,此时DNN输出信息可以更好的预测当前
帧。由于CNN的输⼊特征向左扩展了l帧向右扩展了r帧,为了确保LSTM不会看到未来多于5帧的内容,作者将r设为0。最后,在频域和时域
建模之后,将LSTM的输出连接⼏层全连接DNN层。
借鉴了图像领域CNN的应⽤,作者也尝试了长短时特征,将CNN的输⼊特征作为短时特征直接输⼊给LSTM作为部分输⼊,CNN的输出
特征直接作为DNN的部分输⼊特征。

针对CLDNN结构,我们⽤⾃⼰的中⽂数据做了⼀系列实验。实验数据为300h的中⽂有噪声语⾳,所有模型输⼊特征都为40维fbank特征,
帧率10ms。模型训练采⽤交叉熵CE准则,⽹络输出为2w多个state。由于CNN的输⼊需要设置l和r两个参数,r设为0,l经过实验10为最优
解,后⾯的实验结果中默认l=10,r=0。
其中LSTM为3层1024个cells,project为512,CNN+LSTM和CNN+LSTM+DNN具体的⽹络参数略有调整,具体如下图,另外还增加⼀组
实验,两层CNN和三层LSTM组合,实验验证增加⼀层LSTM对结果有提⾼,但继续增加LSTM的层数对结果没有帮助。

methodWER

CNN+
CNN+
CNN+LSTM+
LSTM+
Table1测试集1结果
methodWER

CNN+
CNN+
CNN+LSTM+
LSTM+
Table2测试集2结果
3deepCNN
在过去的⼀年中,语⾳识别取得了很⼤的突破。IBM、微软、百度等多家机构相继推出了⾃⼰的DeepCNN模型,提升了语⾳识别的准确
率。Residual/Highway⽹络的提出使我们可以把神经⽹络训练的更深。尝试DeepCNN的过程中,⼤致也分为两种策略:⼀种是HMM框架
中基于DeepCNN结构的声学模型,CNN可以是VGG、Residual连接的CNN⽹络结构、或是CLDNN结构。另⼀种是近两年⾮常⽕的端到
端结构,⽐如在CTC框架中使⽤CNN或CLDNN实现端对端建模,或是最近提出的LowFrameRate、Chain模型等粗粒度建模单元技术。
对于输⼊端,⼤体也分为两种:输⼊传统信号处理过的特征,采⽤不同的滤波器处理,然后进⾏左右或跳帧扩展。
-
第⼆种是直接输⼊原始频谱,将频谱图当做图像处理。


百度将DeepCNN应⽤于语⾳识别研究,使⽤了VGGNet,以及包含Residual连接的深层CNN等结构,并将LSTM和CTC的端对端语⾳
识别技术相结合,使得识别错误率相对下降了10%(原错误率的90%)以上。
此前,百度语⾳每年的模型算法都在不断更新,从DNN,到区分度模型,到CTC模型,再到如今的DeepCNN。基于LSTM-CTC的声学
模型也于2015年底已经在所有语⾳相关产品中得到了上线。⽐较重点的进展如下:1)2013年,基于美尔⼦带的CNN模型;2)2014
年,SequenceDiscriminativeTraining(区分度模型);3)2015年初,基于LSTM-HMM的语⾳识别;4)2015年底,基于LSTM-CTC的端对端
语⾳识别;5)2016年,DeepCNN模型,⽬前百度正在基于DeepCNN开发deepspeech3,据说训练采⽤⼤数据,调参时有上万⼩时,做
产品时甚⾄有10万⼩时。
⾳识别发展
百度发现,深层CNN结构,不仅能够显著提升HMM语⾳识别系统的性能,也能提升CTC语⾳识别系统的性能。仅⽤深层CNN实现端对
端建模,其性能相对较差,因此将如LSTM或GRU的循环隐层与CNN结合是⼀个相对较好的选择。可以通过采⽤VGG结构中的3*3这种
⼩kernel,也可以采⽤Residual连接等⽅式来提升其性能,⽽卷积神经⽹络的层数、滤波器个数等都会显著影响整个模型的建模能⼒,在
不同规模的语⾳训练数据库上,百度需要采⽤不同规模的DeepCNN模型配置才能使得最终达到最优的性能。
因此,百度认为:1)在模型结构中,DeepCNN帮助模型具有很好的在时频域上的平移不变性,从⽽使得模型更加鲁棒(抗噪性)2)在此基础
上,DeepLSTM则与CTC⼀起专注于序列的分类,通过LSTM的循环连接结构来整合长时的信息。3)在DeepCNN研究中,其卷积结构的
时间轴上的感受野,以及滤波器的个数,针对不同规模的数据库训练的语⾳识别模型的性能起到了⾮常重要的作⽤。4)为了在数万⼩时的语
⾳数据库上训练⼀个最优的模型,则需要⼤量的模型超参的调优⼯作,依托多机多GPU的⾼性能计算平台,才得以完成⼯作。5)基于
DeepCNN的端对端语⾳识别引擎,也在⼀定程度上增加了模型的计算复杂度,通过百度⾃研的硬件,也使得这样的模型能够为⼴⼤语⾳识
别⽤户服务。

2015年,IBMWatson公布了英语会话语⾳识别领域的⼀个重⼤⾥程碑:系统在⾮常流⾏的评测基准Switchboard数据库中取得了8%的词
错率(WER)。到了2016年5⽉份,%的词错率新纪录,其解码部分采⽤
的是HMM,语⾔模型采⽤的是启发性的神经⽹络语⾔模型。声学模型主要包含三个不同的模型,分别是带有maxout激活的循环神经⽹络、
3*3卷积核的深度卷积神经⽹络、双向长短期记忆⽹络,下⾯我们来具体看看它们的内部结构。

⾮常深的卷积神经⽹络的灵感来⾃2014ImageNet参赛的VGG⽹络,中⼼思想是使⽤较⼩的3*3卷积核来取代较⼤的卷积核,通过在池化层之
前叠加多层卷积⽹络,采取ReLU激活函数,可以获得相同的感知区域,同时具备参数数⽬较少和更多⾮线性的优点。
如上图所⽰,左1为最经典的卷积神经⽹络,只使⽤了两个卷积层,并且之间包含⼀个池化层,卷积层的卷积核也较⼤,99和43,⽽卷积的
特征⾯也较多,512张卷积特征⾯。
左2、左3、左4均为深度卷积神经⽹络的结构,可以注意到与经典的卷积神经⽹络所不同的是,卷积的特征⾯由64个增加到128个再增加到
256个,⽽且池化层是放在卷积的特征⾯数增加之前的;卷积核均使⽤的是较⼩的33卷积核,池化层的池化⼤⼩由21增加到2*2。
最右边10-conv的参数数⽬与最左边的经典卷积神经⽹络参数数⽬相同,但是收敛速度却⾜⾜快了5倍,尽管计算复杂度提⾼了⼀些。

2016年9⽉在产业标准Switchboard语⾳识别任务上,%的词错率(WER)。基于神经⽹络的声学和语
⾔模型的发展,数个声学模型的结合,把ResNet⽤到语⾳识别。
⽽在2016年的10⽉,微软⼈⼯智能与研究部门的团队报告出他们的语⾳识别系统实现了和专业速录员相当甚⾄更低的词错率(WER),达
%。%的词错率已经等同于⼈速记同样⼀段对话的⽔平,⽽且这是⽬前⾏Switchboard语⾳识别任务中的最低记录。这个⾥程
意味着,⼀台计算机在识别对话中的词上第⼀次能和⼈类做得⼀样好。系统性地使⽤了卷积和LSTM神经⽹络,并结合了⼀个全新的空间平
滑⽅法(spatialsmoothingmethod)和lattice-freeMMI声学训练。
虽然在准确率的突破上都给出了数字基准,微软的研究更加学术,是在标准数据库——⼝语数据库switchboard上⾯完成的,这个数据库只
有2000⼩时。

根据MaryMeeker年度互联⽹报告,Google以机器学****为背景的语⾳识别系统,2017年3⽉已经获得英⽂领域95%的字准确率,此结果逼
近⼈类语⾳识别的准确率。如果定量的分析的话,从2013年开始,Google系统已经提升了20%的性能。
⾳识别性能发展
从近⼏年google在各类会议上的⽂章可以看出,google尝试deepCNN的路径主要采⽤多种⽅法和模型融合,如Network-in-Network
(NiN),BatchNormalization(BN),ConvolutionalLSTM(ConvLSTM)⽅法的融合。⽐如2017icassp会议中google所展⽰的结构
Fig8.[5]
layerandoneconvolutionallayer.
⼤讯飞DFCNN
2016年,在提出前馈型序列记忆⽹络FSMN(Feed-forwardSequentialMemoryNetwork)的新框架后,科⼤讯飞⼜提出了⼀种名为深度全序列
卷积神经⽹络(DeepFullyConvolutionalNeuralNetwork,DFCNN)的语⾳识别框架,使⽤⼤量的卷积层直接对整句语⾳信号进⾏建模,
更好地表达了语⾳的长时相关性。
DFCNN的结构如下图所⽰,它输⼊的不光是频谱信号,更进⼀步的直接将⼀句语⾳转化成⼀张图像作为输⼊,即先对每帧语⾳进⾏傅⾥叶
变换,再将时间和频率作为图像的两个维度,然后通过⾮常多的卷积层和池化(pooling)层的组合,对整句语⾳进⾏建模,输出单元直接
与最终的识别结果⽐如⾳节或者汉字相对应。

⾸先,从输⼊端来看,传统语⾳特征在傅⾥叶变换之后使⽤各种⼈⼯设计的滤波器组来提取特征,造成了频域上的信息损失,在⾼频区域的
信息损失尤为明显,⽽且传统语⾳特征为了计算量的考虑必须采⽤⾮常⼤的帧移,⽆疑造成了时域上的信息损失,在说话⼈语速较快的时候
表现得更为突出。因此DFCNN直接将语谱图作为输⼊,相⽐其他以传统语⾳特征作为输⼊的语⾳识别框架相⽐具有天然的优势。其次,从
模型结构来看,DFCNN与传统语⾳识别中的CNN做法不同,它借鉴了图像识别中效果最好的⽹络配置,每个卷积层使⽤3x3的⼩卷积核,
并在多个卷积层之后再加上池化层,这样⼤⼤增强了CNN的表达能⼒,与此同时,通过累积⾮常多的这种卷积池化层对,DFCNN可以看到
⾮常长的历史和未来信息,这就保证了DFCNN可以出⾊地表达语⾳的长时相关性,相⽐RNN⽹络结构在鲁棒性上更加出⾊。最后,从输出
端来看,DFCNN还可以和近期很热的CTC⽅案完美结合以实现整个模型的端到端训练,且其包含的池化层等特殊结构可以使得以上端到端
训练变得更加稳定。
4总结
由于CNN本⾝卷积在频域上的平移不变性,同时VGG、残差⽹络等深度CNN⽹络的提出,给CNN带了新的新的发展,使CNN成为近两年语
⾳识别最⽕的⽅向之⼀。⽤法也从最初的2-3层浅层⽹络发展到10层以上的深层⽹络,从HMM-CNN框架到端到端CTC框架,各个公司也在
deepCNN的应⽤上取得了令⼈瞩⽬的成绩。
总结⼀下,CNN发展的趋势⼤体为:
1更加深和复杂的⽹络,CNN⼀般作为⽹络的前⼏层,可以理解为⽤CNN提取特征,后⾯接LSTM或DNN。同时结合多种机制,如attention
model、ResNet的技术等。
2EndtoEnd的识别系统,采⽤端到端技术CTC,LFR等。
3粗粒度的建模单元,趋势为从state到phone到character,建模单元越来越⼤。
但CNN也有局限性,[2,3]研究表明,卷积神经⽹络在训练集或者数据差异性较⼩的任务上帮助最⼤,对于其他⼤多数任务,相对词错误率的
下降⼀般只在2%到3%的范围内。不管怎么说,CNN作为语⾳识别重要的分⽀之⼀,都有着极⼤的研究价值。
参考⽂献:
[1]Sainath,,Vinyals,O.,Senior,O.,SakH:CONVOLUTIONAL,LONGSHORT-TERMMEMORY,FULLYCONNECTEDDEEP
NEURALNETWORKS
[2]Sainath, ,Mohamed, ,Kingsbury ,B.,Ramabhadran,B.:DEEPCONVOLUTIONALNEURALNETWORKSFOR
:,SpeechandsignalProcessing(ICASSP),-8618(2013)
[3]Deng,L.,Abdel-Hamid,O.,Yu,D.:ADEEPCONVOLUTIONALNEURALNETWORKUSINGHETEROGENEOUSPOOLINGFOR
:,Speechandsignal
Processing(ICASSP),-6673(2013)
[4]Chellapilla,K.,Puri,S.,Simard,P.::TenthInternational
WorkshoponFrontiersinHandwritingRecognition(2006)
[5]Zhang,Y.,Chan,W.,Jaitly,N.:VERYDEEPCONVOLUTIONALNETWORKSFOREND-TO-:Proc.
InternationalConferenceonAcoustics,SpeechandsignalProcessing(ICASSP2017)

语音识别的现状与前景探讨 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人马克里思
  • 文件大小583 KB
  • 时间2023-03-13