机器翻译讨论班之四初探词对齐大纲?词对齐的定义?词对齐的分类?词对齐常用方法什么是词对齐?定义 (Bitext Word Alignment ) –在双语文本中的互译关系的词之间建立对应关系(可能是多个词)?重要性–解决翻译成什么的第一步?表示方法– a: i ? j 表示将位置为 i的目标单词对应到位置为 j的源单词词对齐示例(中译英) 他将访问新西兰。 He will Zealan d. visit New 中文一对多 a: { 1 ? 1, 2 ? 2, 3 ? 3, 4? 4, 5 ?4 , 6? 5} 12345 123456中文多对一 a: {1 ? 1, 2 ? 2, 3 ? 3, 4? 4, 4 ? 5, 4 ?6 , 5? 7} 他个是岁六的孩子 Six-year- old a is He boy 1234567 12345词对齐示例(续) ?更一般的词语对齐情况–一对多–多对一–多对多–对空–交叉– a: { … , 3?0 , …} 毕竟他只是个六岁的孩子 after all, he is only a boy of six 012345678 123456789 10 NULL 词对齐的方法?分类–有监督的方法?有标注好的训练数据–无监督的方法?没有标注好的训练数据–启发式的?基于相似度函数–统计式的?基于概率模型,从语料库中学****基于词典的词对齐方法?出发点–词典含有较高质量的词汇互译信息?示例–他? he; him –将? will; be able to; general; …–访问? visit; call on; interview; …–新西兰? New Zealand; Nz; . –。?没找到他将访问新西兰。 He will Zealan d. visit New 词典的问题?不是完全匹配– The amount of one hundred yuan is written in Chinese capital numeral characters . – 100 元人民币要用大写的中国数字填上. – Chinese ?? n. 中文,汉语;中国人; ? adj. 中国的,中国人的;中国话的?解决方法:模糊匹配– Dice 系数: –相似度函数: |||| ||2),( 21 cc Sim ????]*)1)),(( [( )],( max [),( 1??????hcd Sim Count cd Sim ce DTSim DTe d DTe d词典的问题(2) ?词典的数据稀疏问题– The mother gave the boy a sweater. –那位母亲给她儿子一件毛线衣。– Boy ? n. 男孩; [美口]男人– A ? art. 一;任一;每一?解决方法:语义信息、词性信息–男孩?儿子–语义相似度: – a(冠词) ?一件(数词)–词性相似度: ),( max ),( )( )( 21 2 1Sn Sm SenseSim c classOf Sn c classOf Sm ???))( ),((),(c pos e pos Sim ce PosSim ?词典的问题(3) ?位置问题–这个问题是应由中国人自己解决的问题– This issue is up to the Chinese themselves to resolve ?解决办法–位置相对形变距离–根据左右比较确定的对齐关系来进行选择????????????4 j) Dis(i, if,4 3,4 j) Dis(i, if,3 1,2 j) Dis(i, if,2 0 j) Dis(i, if,1),(d d d dceD
词对齐-课件(PPT演示稿) 来自淘豆网www.taodocs.com转载请标明出处.