下载此文档

半监督算法在自然语言处理中应用研究.pdf


文档分类:办公文档 | 页数:约64页 举报非法文档有奖
1/64
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/64 下载此文档
文档列表 文档介绍
硕士学位论文半监督算法在自然语言处理中应用的研究RESEARCH ON THE APPLICATION OF SEMI-SUPERVISEDLEARNINGIN NATURAL LANGUAGE PROCESSING周鑫哈尔滨工业大学2014年7月万方数据国内图书分类号::10213国际图书分类号::公开工学硕士学位论文半监督算法在自然语言处理中应用的研究硕士研究生:周鑫导师:李生教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2014年7月授予学位单位:哈尔滨工业大学万方数据Classified Index: : for the Master Degree in EngineeringRESEARCH ON THE APPLICATION OF SEMI-SUPERVISED LEARNINGIN NATURAL LANGUAGE PROCESSINGCandidate:ZhouXinSupervisor:Prof. LiShengAcademic Degree Applied for:Master of puter Science and TechnologyAffiliation:School puter Science and TechnologyDate of Defence:July,2014Degree-Conferring-Institution:Harbin Institute of Technology万方数据哈尔滨工业大学工程硕士学位论文-I-摘要自然语言处理技术的发展给人们生活带来了很多方便。有监督学****方法在自然语言处理领域取得了巨大成功,然而由于其依赖大量的标注语料,很难扩展到标注语料缺乏的情况。自然语言处理领域有很多任务缺乏标注语料,但是未标注语料却很容易获得,此时,半监督学****是一个好的选择。半监督学****主要研究内容是如何同时利用标记数据和无标记数据,获得比仅能利用标记数据的有监督学****方法更好的性能。目前,半监督学****受限于高昂的计算代价,不能很好的应用与规模较大的自然语言处理任务中。本文主要研究了如何将基于主动学****active learning)以及基于图(graph based)的半监督机器学****算法更好的应用于自然语言处理任务中。首先,本文提出了一种基于主动学****策略的半监督支持向量机框架,使用平均随机梯度下降(ASGD)方法做模型求解,并重点研究了合理的主动学****策略,将时间和空间复杂度都降到了线性。在文本分类和情感分类的实验结果证明我们的方法能够和其他主流的半监督支持向量机达到相当的效果,并且大幅的提升了训练速度。同时,该学****框架也可以推广到其他半监督学****模型中。然后,本文研究了基于图的半监督算法在词性标注上的应用,将基于锚图的标记传播算法应用到了词性标注任务中,重点研究了自然语言处理中数据稀疏的解决办法,探讨了词向量的使用方式。实验结果表明基于图的半监督算法结合词向量的上下文特征表示方式可以有效提高词性标注准确率。本文又对上述两种机制的算法进行了深入的分析比较,从理论和实验上分析了两种方法的原理,基本假设,时间空间复杂度和适合的特征,并给出了面对实际问题时如何选择两种方法的建议。最后,本文将基于图的半监督算法应用于跨语言词性标注任务中,解决未登录词的词性估计问题,实验结果证明,相比于传统的标记传播算法,基于锚图的标记传播算法结合词向量特征的表示方式可以更有效的利用语料的信息,提高跨语言词性标注的准确率。关键词主动学****半监督学****半监督支持向量机;跨语言词性标注;标签传播万方数据哈尔滨工业大学工程硕士学位论文-II-ABSTRACTDevelopment of natural language processing techniques has broughta lot of convenience to people's learning approaches have achieved great ess in natural language processing, but it is difficult to extend to the tasks whichhave scarce labeled data because it relies on huge amount of labeled corpora. There are many natural language processing tasks lack labeled corpus

半监督算法在自然语言处理中应用研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数64
  • 收藏数0 收藏
  • 顶次数0
  • 上传人tswng35
  • 文件大小0 KB
  • 时间2016-02-16