山东大学
硕士学位论文
基于短语的汉英统计机器翻译系统的设计与实现
姓名:何晓峰
申请学位级别:硕士
专业:软件工程
指导教师:付树军
20090301
摘要们开发了基于服务器一客户端模式的邮政专用词条汉英机器翻译系统软件——邮本文主要介绍了统计机器翻译系统,并对当前统计机器翻译的主流方法——统计机器翻译系统——法老勾蠹叶曰诙逃锏耐臣苹鞣胂低设计了基于短语的邮政专用词条领域的汉英机器翻译系统——邮译通系统。基于短语的统计机器翻译系统进行了探讨。首先向大家介绍了第~个基于短语的有了一个比较形象的认识。文中通过数据模型和图表样例介绍了基于短语的统计机器翻译系统的设计过程。对训练语料的对齐、短语抽取,以及对自动抽取的短语进行解码翻译和不同约束规则下的语序调整模型进行了说明介绍,对基于短语的统计机器翻译的具体实现做了充分的理论设计。通过建立数据模型,以及对系统模块的划分,利用国内国际上目前已有的一些资源,包括一些开放的源代码工具和一些可以公开获得的授权工具给出了基于短语的统计机器系统的整合实现。其中包括汉语分词工具、词语对齐模块、英文分词工具、语言模型工具等,并对训练语料库、词语对齐语料库、短语翻译概率表格式、语言模型格式、输入/输出文件格式和参考答案格式进行了定义。实现了各模块间的匹配,规范了数据在整个系统运行中的可操作性。评测环节从语料库中抽取出~部分作为开发集和测试集,利用现有的评测工具对集成的基于短语的统计机器翻译系统的准确度和值进行评测。综合以上的开发理念和利用现有的开源资源,同时辅以记忆库、词典等模块,我译通,该系统可为用户提供方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译。基于短语的统计机器翻译方法能够取得较好的翻译效果,值得做更深一步的研究。关键词:统计机器翻译:短语:翻译模型山东大学硕士学位论文
—⋯瑆—琹,.,,.,—,瑆甀,琣琲瑆痮琤狤
山东大学硕士学位论文簊籶籺瑄畉,..
甾逝掌冢呼论文作者签名:缅遣莲导师签名:原创性声明关于学位论文使用授权的声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑
刖统计机器翻译【浚直怀莆J萸—幕鞣搿K乃枷其实并不新鲜。早在年,韦佛发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已。当我在阅读时,我是在进行解码。”这实际上就是早期的基于信源信道思想的统计机器翻译方法的萌芽。早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法。后来以乔姆斯基;簧捎锓ㄎ4淼睦硇灾饕宸法兴起后,统计机器翻译方法渐渐不再被人使用。上世年代初期,牟祭热颂岢隽嘶谛旁葱诺浪枷氲耐臣苹鞣肽P吞逑担⑶以谑笛橹获得了初步的成功,引发了研究者广泛的关注和争议。不过由于当时计算能力等诸多方面的限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。但是,进入世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。无论是习语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切和苛刻的要求。而另一方面,计算能力也获得了突飞猛进的发展,互联网的发展和普及,双语国家、联合国的多语存档等,为我们提供了数以千万句的双语平行语料,语料库的不断扩充,为统计机器翻译方法奠定了必要的基础。于是,越来越多的研究人员陆续投入到统计机器翻译的研究中,并在许多领域取得了成功诿拦冶曜己图际跹芯克畔⒉坑镆糇橹鞒值幕鞣牍际评测中,从年到年,统计机器翻译连续四年取得好成绩臣品椒也逐渐成为国际上机器翻译研究的主流方法之一。统计机器翻译在短时期能够得以迅速发展,除了技术进步外,很大一方面要归功于很多开放源码的统计机器翻译工具,有些时候,正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。开源软件类似已经浇注好的整块墙壁和柱子,利用它们我们可以像搭积木一样搭建一个统计机器翻译系统,而且还可以山东大学硕士学位论文舌.●上●一
对这些零件进行改造和更
基于短语的汉英统计机器翻译系统的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.