下载此文档

统计机器翻译基于赫夫曼编码的解码算法.doc

文档分类：通信/电子 | 页数：约4页举报非法文档有奖

1/4

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/4 下载此文档

文档列表 文档介绍

统计机器翻译基于赫夫曼编码的解码算法.doc统计机器翻译基于赫夫曼编码的解码算法
［摘要］赫夫曼树编码是信息论中重要的数据编码方式。根据赫夫曼编码的算法构造最优二叉树，可以得到总长最短的二进制编码。本文首次依据赫夫曼编码的思想设计机器翻译中的解码算法，基本思想是: 在栈解码的基础上，不再是在原有结点上扩展新的假设，而是合并原有的假设，最后构造一棵完整的二叉树。这种方法开辟了机器翻译解码的新途径，有望提高机器翻译解码的效率，节约存储空间。［关键词］统计机器翻译；解码；赫夫曼编码；二叉树［中图分类号］H059 ［文献标识码］A ［文章编号］1671- 511X(2011)06-0093-04
、引言
解码(Decoding)是在统计机器翻译系统中与模型训练同等重要的模块。所谓解码，是指给定从语料中学****到的模型参数和待翻译的源语言句子，搜索使目标语言句子概率最大(或代价最小)的翻译结果的过程。
主要的解码方法有栈解码、A*算法、贪心爬山算法和动态规划等。由于同一个源语言词语可能对应与不同
的目标语言翻译，即使单个词语相同，词语的次序也有大量的组合方法，所以解码的全部搜索空间异常庞大，已被证明是一个NP完全问题。如果不引入优化方法，凭借目前计算机的速度和内存远不可能在有限时间和空间内完成整个解码过程。栈解码等主要解码方法并不是在全部空间上搜索，而是利用启发函数对搜索空间进行剪枝，在有限搜索空间中找到近似最优解。然而剪枝策略过早地舍弃了一些潜在的合理的翻译，Och等人的研究结果表明译文中近70%的错误都是来源于简化的解码算法“J。
赫夫曼编码算法是信息论中重要的数据编码理论。给定元素的权值，利用赫夫曼树可以快速地产生一种编码方案。本文将这种理论应用于机器翻译的解码，改变了以往在原有假设上不断增加新的词语的传统，首次通过合并构造翻译结果。
二、统计机器翻译研究概况
1949年，美国洛克菲勒基金会自然科学部门的负责人Warren Weaver发表了一份以《翻译》为题的备忘录，正式提出了机器翻译的问题，并首次提出使用统计技术实现自然语言的自动翻译。在这种翻译思想的指导下，1954年美国的乔治敦大学和IBM公司研制出了世界上第一个机器翻译系统。
上个世纪90年代以前，机器翻译的主流方法一直是传统的基于规则的翻译方法。规则以词汇、句法或语义转换为中心，通过双语词典确定原语的译词。由于自然语言的歧义性，规则方法生成的译文质量无法适应错综复杂的语言

统计机器翻译基于赫夫曼编码的解码算法来自淘豆网www.taodocs.com转载请标明出处.

统计机器翻译基于赫夫曼编码的解码算法.doc

统计机器翻译基于赫夫曼编码的解码算法

赫夫曼编码译码

赫夫曼编码译码

统计机器翻译基于赫夫曼编码的解码算法

统计机器翻译基于赫夫曼编码的解码算法

赫夫曼编码译码器

赫夫曼编码译码器

统计机器翻译基于赫夫曼编码的解码算法

赫夫曼编码与译码器设计

统计机器翻译基于赫夫曼编码的解码算法.pdf