下载此文档

面向领域的文本信息抽取方法分析研究.pdf


文档分类:IT计算机 | 页数:约65页 举报非法文档有奖
1/65
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/65 下载此文档
文档列表 文档介绍
Research of Domain-Oriented Extraction Method of Text Information-ThesisSubmitted to Nanjing University of Posts and munications for the Degree of Master of EngineeringByZhou FankunSupervisor: Prof. Wu Jia-gaoMarch 2014万方数据南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。南京邮电大学学位论文使用授权声明本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名:_____________ 日期:____________研究生签名:____________导师签名:____________ 日期:的迅猛发展,越来越多的事件信息是以电子文档的形式在计算机中存储和处理。互联网正在慢慢的成为人类信息的主要载体和交流平台,成为各种信息最大的收藏地。大数据时代逐步来临,其中80%的信息数据是以非结构化的数据形式(自然语言、图像、视频等)存储在网络上的。由于中文文本事件信息表述的非结构化、不规范化和不确定性等特点,采取了“文本描述-规范化表达-结构化抽取-模式挖掘”的技术路线,重点研究突发事件领域的事件时空属性信息的结构化表达、事件类型的分类方法、事件时空信息的解析和事件属性信息的抽取方法,为文本事件信息抽取方法的研究打下了坚实的理论基础,为国家地理信息的基础性服务建设提供了可行的解决方案。本文首先在对突发事件领域文本事件的结构化表达方式研究的基础上,提出了对中文文本事件属性信息抽取的几种方法,使得中文文本属性信息能够更加准确的抽取出。针对中文文本的分类,本文通过采用SVM模型对中文文本进行文本分类,并取得了良好的效果。针对突发事件的非时空属性信息,本文分别利用规则模型方法和统计模型方法对非时空属性信息进行了研究,研究表明,规则模型和统计模型在自然语言处理领域都能带来不同的效果,采用两者相结合的方式可以更有效实现中文文本中特定领域事件属性信息的抽取。本文最终采用HMM模型和句法分析相结合的方法对文本属性进行抽取,实验表明,该方法能得到很好的效果。最后,通过对该原型系统进行了实现,证明了该方法的可行性。关键词:中文文本事件属性信息抽取,HMM模型,SVM模型,自然语言处理,句法分析万方数据IIAbstractAs computers are widely used in variousdomain and the rapid development of ,more and more event information are stored and processed as the form of an electronic document in puter. The is slowly ing the main carrier of information munication platform, it has e the largest collections of the various informations. As the times of big ing, 80% of the information data is stored on work as unstructured data (natural language, images, videos, etc.).As the chinese text has the characteristics of unstructure,untandardize and uncertainties,it adoptes the technology roadmap of “text description - normalized expression -structur

面向领域的文本信息抽取方法分析研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数65
  • 收藏数0 收藏
  • 顶次数0
  • 上传人dp4537
  • 文件大小0 KB
  • 时间2016-02-12