汉语指代消解及相关技术研究摘要⑻岢隽艘恢只诠嬖虻暮河锘久识逃锸侗鹚惴ā!;诶┱大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、机器学习等进行了深入系统的分析和研究,主要取得的成果如下:词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识⑻岢隽艘恢只诠嬖蚝屯臣葡嘟岷系暮河锘久识逃锸侗鹚惴ā规则方法和统计方法存在一定的互补性。本文将两种方法进行融合,先利用统计方法标注,再利用扩展词性模板纠正。实验结果表明,该方法在一定程度上弥补了规则方法和统计方法的不足,识别的甘锏.%,均高于单纯一种方法得到的结果。⒃诮杓⒂镏复馑惴ǖ幕∩希岷虾河镒陨硖氐悖岢隽基于机器学习算法的汉语人称代词指代消解方法。现今指代消解技术正在由单一的基于规则的技术向采用机器学习方向发展。基于机器学习方法将指代消解问题转化为分类问题,通过分类器判断照应语与每个候选项之间是否存在指代关系,实现指代消解。该方法具有实现简单、扩展性好、抗噪声能力强的特点。本文分别将决策树、最大熵、条件随机场三种机器学习模型应用于该方法,均收到了良好的效果,通过对结果的分析比较,条件随机场模型在性能上优于其它两种模型。域中发挥着重要作用。别的正确率达到.%。北京邮电大学博士学位论文
知识水坝***@pologoogle为您整理
⑻岢隽艘恢只谕臣坪凸嬖蛳嘟岷系暮河锶顺拼手复馑惴ā基于机器学习的方法实质上属于统计的方法,统计方法在某些情况下的结果并不理想。针对这一问题,新算法将过滤规则引入指代消解,先利用规则过滤掉属性冲突的实例,去除掉实例中的“噪音”,再采用统计方法消解指代。实验结果显示,新算法消解的消解成功率为.%,与单纯采用统计方法相比,成功率提高了ァ⑻岢鲆恢只谒ê蜓∧P偷暮河锶顺拼手复馑惴āO钟械基于机器学习的指代消解算法都属于单候选模型,单候选模型割裂了各个候选项之间的联系,因此这种模型并不完善。针对这一问题,本文提出了双候选模型算法,该算法每次从候选项集合中取出两个候选项与照应语构成实例,通过分类器判断这两个候选项哪个“获胜”,将获胜次数最多的候选项判定为先行语。实验结果显示,双候选模型的消解的成功率为.%,优于单候选模型算法。关键词:指代消解基本名词短语条件随机场最大熵双候选模型北京邮电大学博士学位论文摘要
知识水坝***@pologoogle为您整理
薄痵咖岫琤锄蒭衄∽蜘齩甒甌甅曲甒色甒蛾錼馏叫,觥閚廿,琿.,,,也頰琺址.%.琽猰.%,甀絘,Ⅱ.:屺.,.琭琲琫瓺琧,饪,簍琣:—甀Ⅱ甌瑃北京邮电大学博士学位论文缸
锄鷒曲丘瑃衄猙礹甒,,矗琺琭緄琣緄阤瞐鮨ィィ,也也甌丘畐痮也.%,—甧】仃,,‘‘眎,.洫Ⅵ,.甀,甤琣甤,Ⅳ北京邮电大学博士学位论文乳叮.
隰型型绅鞋确强邀』:厶£独创性虼葱滦声明关于论文使用授权的说明保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注叮本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:日期
技术文献中就把这一研究领域称为“自然语言处理,綥第一章绪论自然语言处理阶段,信息的传递与交流已经成为整个现代社会生活运作的重要基础,电子可读文本本质意义的核心内容是“自然语言理解”。自然语言理解是人工智能的重要研究方向,机器翻译、人机自然语言对话、基于自然语言的人机合作等,都是自然语言理
汉语指代消解及相关技术研究(可复制论文) 来自淘豆网www.taodocs.com转载请标明出处.