南开大学
硕士学位论文
基于AMEMM的汉语韵律短语预测系统的设计与实现
姓名:赵廷健
申请学位级别:硕士
专业:计算机应用技术
指导教师:朱耀庭
20090601
摘要生活的各个方面。其中合成自然度不够高的问题一直困扰着语音合成的发展。文引入一种应用于最大熵马尔可夫模型的主动学习方法,并实现了一个汉语韵目前,对于汉语韵律短语边界的预测最成功的当属最大熵模型。本文采用在使用传统的机器学习方法进行分类时,为了得到好的训练结果就需要一并将该方法应用于汉语韵律短语边界的预测,从而实现了一个原型系统。本系统通过人机协作的方式,在一个部分标注的训练集的基础上由计算机寻找出最需要被标注的数据,然后由人工来标注,如此迭代直到训练出的模型达到用户随着计算机智能技术的飞速发展,语音合成已经越来越广泛地应用于社会本文在对汉语韵律结构预测研究的历史和现状做了较为完整调研的基础上,采用统计机器学习的方法,提出了一种基于最大熵马尔可夫模型的汉语韵律短语边界预测方法;与此同时,为减少制作韵律标注库时的手工工作量,本律短语边界标注及预测的原型系统。的最大熵马尔可夫模型琈结合了最大熵模型和隐马尔可夫模型的优点。目前,已被应用于自然语言处理的一些方面,例如:词性标注,文本分割等。本文实验比较了最大熵模型和最大熵马尔可夫模型的预测效果,指出在使用相同特征模板的情况下,最大熵马尔可夫模型更适合于汉语韵律短语的预测。个很大的训练集。而对训练集的人工标注是一件很费时费力的工作,尤其是针对语音合成所使用的汉语韵律语料库,迄今为止可利用的资源又很有限。本文基于主动学习的原理,引入一种应用于最大熵马尔可夫模型的主动学习方法,满意。多组实验证明应用该方法可以较好地解决韵律标注的主动学习问题,从而达到在大大降低人工工作量的基础上,利用部分已标注数据,仍然可以较好地完成汉语韵律短语边界预测的目的。关键词:韵律短语预测最大熵马尔可夫模型主动学习摘要
,.甌..甅.,甌..,甀..,.,:Ⅱ
图目录图河镌下刹慵督峁辜坝锓ń峁苟员韧肌!与图经过特征抽取后的例句⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。与的测试结果对比图パ盗芳⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图喔鲅盗芳醒盗返恼仿释臣仆肌腉算法流程示意⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯耐暾盗饭獭图标注过的原始语料⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图适用于人机协作标注对比的语料⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图河镌下啥逃镌げ庠拖低持鞫傲鞒掏肌图鞫肮δ芙缑妗图打开训练数据后的主界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图主动学习的人工标注过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图测试结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图不同初始标注量的测试结果对比图ナ菁⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图煌跏急曜⒘康牟馐越峁员韧多数据集!ā图煌牍け曜⒘康牟馐越峁员韧单数据集图煌斯け曜⒘康牟馐越峁员韧多数据集图煌拿柯直曜⒋问牟馐越峁员韧肌图嗤跏急曜⒘肯轮鞫坝敕侵鞫靶Ч员取图图莸谋曜ⅰ图主动学习的过程示意⋯⋯⋯图显示出标注后结果的界面⋯⋯⋯⋯。目录⋯⋯.
表目录表糜贛脑犹卣髂0濉表用于的混合特征模板⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表多个训练集进行训练的正确率统计表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表煌跏急曜⒘康牟馐越峁员单数据集表不同初始标注量的测试结果对比嗍菁⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。表煌斯け曜⒘康牟馐越峁员单数据集表煌斯け曜⒘康牟馐越峁员多数据集表不同的每轮标注次数的测试结果对比⋯.表侵鞫坝胫鞫笆辈煌曜⑹萘垦盗方峁员取表用于韵律短语预测的特征表与的正确率测试结果对比パ盗芳⋯⋯⋯⋯⋯⋯⋯⋯⋯。牟问目录⋯⋯⋯⋯⋯.⋯⋯⋯⋯..
南开大学学位论文原创性声明研究工作所取得的成果。除文中已经注明引用的内容外:本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:年月日
南开大学学位论文使用授权书术期刊馀电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。年月日南开大学研究生学位论文作者信息注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写皇搅椒签字后交校图书根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子
基于AMEMM的汉语韵律短语预测系统的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.