基于统计方法的蒙古语依存句法分析模型(可编辑)基于统计方法的蒙古语依存句法分析模型第卷第期中文信息学报.,.,年月文章编号:???基于统计方法的蒙古语依存句法分析模型斯?劳格劳,华沙宝,萨如拉内蒙古大学蒙古学学院,内蒙古自治区呼和浩特摘要:蒙古语文信息处理已初步完成字、词处理阶段的基本任务,正在步入句处理阶段,并且在国家自然科学基金的资助下构建了蒙古语依存树库。该文以为训练和评测数据,设计实现了一种基于词汇依存概率的蒙古语依存句法分析模型。目前,该模型的无标记准确率、有标记准确率和核心词准确率分剐达到了.、.和.。关键词:蒙古文;依存语法;句法分析;概率模型中图分类号:文献标识码:.,,,,,,:,.,.,?.?.。.,.%.,,.:;;;纵观各种语言以往的句法标注及分析情况不难发现短语结构语法占据着主流地位,但近年来,依存引言语法由于其形式简洁、易于标注、便于应用等特点受蒙古语文信息处理工作始于世纪年代,到了研究人员的重视,并在英语、汉语、德语、捷克语等语言句法分析中得到了广泛应用,在应用的过虽然起步较晚,但发展很快。经过余年的努力,语料库、语法信息词典等基础性建设初具规模,编辑程中依存语法本身也得到了发展和完善。排版系统、办公软件等已实用化,各种蒙古文网络资国际源也正在稳步增长。从处理层面上看,初步完成了会议从~年连续四次把依存句法分析的字、词处理阶段的基本任务,现已步入句处理阶段。评测列入其共享任务,由此可以看出句法分析和目前,通过国家自然科学基金项目《现代蒙古语树库标注采用依存语法是未来的研究热点和发展趋势。的构建》,正在进行树库资源的建设和自动句法分析研究。收稿日期:一?定稿日期:??基金项目:国家自然科学基金项目;国家社科基金项目;教育部人文社会科学研究项目作者简介:斯?劳格劳一,男,博士,主要研究方向为蒙古文信息处理;华沙宝,男,教授,博士生导师,主要研究方向为蒙古文信息处理;萨如拉一,女,博士,主要研究方向为蒙古语言文学。中文信息学报年有关,不受其他节点和弧的影响。具有个词的句子,其依存树由一条依存弧构成,按上述独立假基于统计的依存句法分析模型设,其依存树的概率为一条依存弧的概率的乘句法分析的思想是能够根据某种语法给出积,表示如下:一个句子的句法分析树。在很多情况下,对于一,.一个句子会有超过一种句法分析树,我们用表示其中,为两个词,?,?;之一个句子所有可能的分析树。在统计句法分析中,间的依存弧,其方向由支配词和从属词的位置所确建模的目的是寻找一种评价函数,用概率值的大小定,如果依存于,用“”表示其方向,如果训,依排列分析结果,并输出最有可能的结果。分析树存于,则用“”表示其方向。的概率表示为:,其中:,一依存概率计算基于统计的句法分析模型把歧义的消解问题转蒙古语具有丰富的形态变化,另外我们在机器化为一个最优化的过程,即计算每种分析结果的概词典中设置了词类和细分类特征,消歧算法可以采率,找出一棵概率最大的分析树,该过程可以表用词汇本身,也可以采用词类信息、子类信息、语义示为:信息以及结构信息等。独立假设后,每一条依存弧一的概率由两个端点和硼,唯一确定。为了缓解,?树库资源规模不足导致的词汇信息数据稀疏问题,随着机器学****方法的快速发展和数据资源的不本文在利用词汇本身的基础上充分利用了支配词和断丰富,基于统计的依存句法分析也在不断地变化
基于统计方法的蒙古语依存句法分析模型(可编辑) 来自淘豆网www.taodocs.com转载请标明出处.