下载此文档

面向自由文本信息抽取方法研究.pdf


文档分类:IT计算机 | 页数:约49页 举报非法文档有奖
1/49
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/49 下载此文档
文档列表 文档介绍
广西大学
硕士学位论文
面向自由文本的信息抽取方法研究
姓名:袁璐
申请学位级别:硕士
专业:计算机应用技术
指导教师:蒙祖强
20110629
面向自由文本的信息抽取方法研究摘要随着互联网的广泛应用以及各种办公系统的无纸化,各种电子形式的文本文档正以指数级的速度迅速增长,如何从这些海量的文本文档中快速有效的找到有用的信息,成为信息检索领域的重要研究方向。信息抽取正是一个有效的解决方法,是具有较高实用价值的关键技术,因此它成为自然语言处理的一个重要研究问题。目前,在中文信息抽取已有的研究中,大多数都是集中在基于分词和文本分块的研究上,面向的对象也多为结构化和半结构化的文本。针对上述研究存在的不足,本文以自由文本为研究对象,通过对大量文本的观察、分析和总结,确定关键句在文本中的特征以及与文本中非关键句之间的关系。本文提出一种面向自由文本的关键句抽取算法,该算法运用语义在自然语言处理中的优势对文本进行句子的语义相似度计算,再结合文本分析中总结的关键句特征,实现对自由文本的关键句抽取。本算法对于主题比较鲜明的文本文档可以达到较好的抽取效果。在此基础之上,本文还研究了对非结构化的句子或者标题句的抽取算法,该算法在运用依存分析对句子进行浅层句法分析的基础上制定相应规则,形成输入序列,再结合子诮ⅰ⑹视π院谩⒊槿【ǘ冉细叩挠攀疲迪肿杂晌谋镜信息抽取。实验表明,新的算法在召回率、准确率和正确率指标上均有良好的性能,这说明了算法的有效性,同时该算法减少了转移状态,从而使
抽取的效率也能获得提高。本文在研究中,灵活运用依存分析在浅层句法分析中的优势以及语义的相关计算在句子相似度计算中更高的准确度,为信息抽取工作打开了新思路,因此本文的研究具有一定的理论和实践意义。关键词:信息抽取自由文本语义相似度依存分析隐马尔可夫模型
曲慨韆锄。眦鷒锄锄仔肌巧劬舰琭斟地她曲癳癳Ⅱ:.⒀..巧,、№餷印瓻,“.Ⅸ培量缸仔甌仃,総
、,着餾閏蒩琺廿,.,產,
第滦髀研究背景及意义球能索引到的网页数是至少亿个。每天网页数目都在以一个惊人的数目迅速增长。这就给信息检索工作带来了非常大的困难,在这个庞大信息量的基础上,有些文档中又广西大掣明甄士掌位论文随着互联网的普及,网络资源及网络信息已经成为人们与外界沟通、获取信息的重要方式。甚至在我们的日常研究、学****工作和生活中,处理的文件以及各项工作都已经离不开以电子文档形式出现的信息资源,在这个无纸化办公的时代,网络信息资源以秒为单位,随时会更新并出现在我们的眼前。但是互联网给我们提供便利的同时也带来了巨大的困扰。根据提供的统计数据【浚刂月日,全包含了垃圾信息和无用信息,再加上信息的非有序性,我们在获取信息的时候只能通过“完全检索约啊叭脑亩的方式得到有效信息,造成了资源的极大浪费。面对这个难题,提高信息检索的效率,成为解决问题的关键环节。信息抽取技术的出现不但可以提高准确获取有效信息的效率,而且可以提高网络文本信息的实用性。信息抽取指的是从一个文本段落中抽取出预期指定的一系列信息如人物、时间、地点、事件等⒔庑┦菪畔已经形成的结构化数据迦氲揭个数据库中,以方便用户查询和使用的一种方式和过程【俊P畔⒊槿〉淖钪漳康氖谴雍量大篇幅的无序的文本中直接获得用户感兴趣的事实信息,实现了信息的自动查找、理解和抽取,它把文本里包含的信息进行结构化处理,得到的结构化数据将以统一的形式存储在一起,这也是信息抽取工作的主要任务【俊6嗍榭鱿滦畔⒊槿∠低秤墒奔洹⒌点、人物、事件等模板信息构成,对文本中相对应的内容进行抽取,得到正确的槽值。信息抽取的研究是非常具有现实意义的,例如,从各种突发事件新闻报道的文本中可能找到并判断恐怖分子的活动方向和范围;对于商业和销售部门,对客户和市场信息进行有效的调查分析,可以发掘潜在客户和市场动态;而对于自然灾害方面的文本信息,可以抽取出灾害发生的时间、地点、伤亡人数、经济损失等,以判断受灾级别,做出相应的应对策略,等等。可见,在各行各业,信息抽取都有很大的应用空间。因此作为应用性较强的自然语言处理技术,近年来信息抽取正受到越来越多的重视。面向自由文本的信忠抽取方法研究
吮嵋椋矗鹤远目培胷的举办,对信息抽取领域的研究发挥了积极的推动作用,使疵会议,⒊槿〉墓庋芯肯肿文本理解作为信息抽取的前身,最早的研究开始于二十世纪六十年代,作为信息抽取的起始研究,其主要工作是从自然语言文本中获取结构化的数据信息。之后,随着在线和离线文本数量的急剧增加以及“信息理解会议簿褪荕会议得相关专业对信息抽取的研究从二十世纪八十年代末迅速发展起来。嵋椋年至年问共举行了七届会议,它是由美国国防高级研究计划委

面向自由文本信息抽取方法研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数49
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2982835315
  • 文件大小0 KB
  • 时间2014-07-26