下载此文档

基于icvsm的摘要抽取算法分析based on the analysis of icvsm extraction algorithm.docx

文档分类：行业资料 | 页数：约55页举报非法文档有奖

1/55

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/55 下载此文档

文档列表 文档介绍

第1章绪论
课题背景及意义
随着计算机和互联网的普及,越来越多的电子文档、电子信息出现在人们的日常生活及科学研究当中,而那些对人们有价值的信息同时也被淹没在这信息的海洋之中。如何从这浩瀚的信息海洋中获得人们所需要的内容,已成为人们日益关注的问题。文摘可以用简明、准确、概括性强的少量语句表达文章的主要内容[1],但使用人工进行文摘的编写不但费时、费力,而且仁者见仁、智者见智, 使得文摘在质量和表达形式上的差别也比较大,并且对于一些专业性强的文章, 更需要有专业人员参于到文摘的编制当中去,这样人工编制文摘的难度就更大了,而且时效性也不好。
鉴于此,人们提出用机器来代替人进行文摘编制,自动文摘就是解决此问题的有效途径[2,3],它是用计算机通过一定的算法,实现从大量文本中抽取一定数量的能够反映文章中心意思的句子,按一定顺序生成文章内容梗概的技术[4]。最早的自动文摘研究始于 1952 年,到现在已经有半个世纪之久,并且国际上和国内也取得了一定的研究成果,但这些还远远不能满足现代高度信息化社会的需求,其主要原因是,现在已有的四种主要的摘要抽取算法生成的摘要在速度、准确率以及可读性上均无法达到令人十分满意的程度。由于国内的中文自动文摘的研究开始的比较晚,始于上个世纪八十年代末,所以,国内自动文摘的研究在技术上更落后于国外先进水平,这也使得对自动文摘的研究成为我国今后的重点研究领域之一。目前,自动文摘已经成为一个国际性的研究课题,受到了越
来越多的国家和学者们的重视。在理论方面上[5],研究自动文摘技术,有助于人类对自然语言文本特别是电
子文本的理解和认知,从而有助于为其它信息处理领域的相关研究提供有力的理论依据。在实用性方面上,自动文摘的有效使用,既可以大大的提高文摘编制的速度和质量,也可以使人们在面对海量电子文本信息时,能在短时间内获取对自身更为实用的信息,提高人们阅读的速度和获取有价值信息的效率,而无需花费大量的时间去通篇阅读[6]。
自动文摘的研究拥有极大的理论价值和现实意义,因此获取质量更好、准确率更高的自动文摘已成为当今的研究热点,并且也将成为未来自然科学的重点研究领域之一[7-10]。
自动文摘研究现状
1952 年 Luhn 最早提出自动文摘的研究,并于 58 年发表首篇机器摘要论文[4],这一论文的发表,预示着人们用计算机编制文摘时代的开始,并为基于统计的自动文摘方法打下基础。
人们对自动文摘的研究主要经历了两个时期:机械自动文摘时期和理解自动文摘时期。
机械摘要时期,主要是依据文本的词频、位置等表层物理特征信息进行摘要抽取,这一时期主要是从研究一开始到七十年代初。如 Luhn 将词汇分为功能词和内容词,功能词是指那些对揭示文章主题意义不大的虚词,例如代词、连接词等,内容词是指对揭示文章中心内容有着重要作用的实词,如名词、动词等除功能词以外的词。只对内容词进行词频统计,根据词频大小确定主题词,根据主题词的词频和位置来计算句子对于文章主题表达的重要度。
美国的 Baxendale 研究发现[11],可以揭示文章主题的句子出现在段首的概率是 85%,出现在段尾的概率是 7%,所以应适当地加大这两处句子的权重,她同时也指出,词语的组合比单个的词语对反映文章的主题所发挥的作用更大。
60 年代,H. P. Edmundson 提出用 4 种方法进行文摘句的选择[12]。题名法是指在文章的标题中出现的词应被赋予较大的权值;指示词法是指当一些总结性的词出现时,那么它后面的词应有更高的权值;关键词法是指根据内容词词频的高低可以确定句子反映文章主题的能力强弱;位置法是指句子出现在文章中的不同位置拥有不同的权值。自动文摘综合使用这四种方法比单一的使用其中一种方法生成的文摘效果明显要好。
理解摘要时期,主要是在对文章内容进行分析、推理、理解的前提下进行摘要抽取,这一时期主要是从七十年代初到目前。R. Schank[13]采用脚本技术进行自动文摘研究,但是脚本结构的不灵活性导致其应用领域严重受限。
1979 年,美国的 DeJong 研制了面向故事文本的 FRUMP 系统。该系统中的算法,首先根据语法知识预测一些可能出现在文章中的词语、短语;然后通过句法分析,在整篇文章中进行查找、确认那些已标记的脚本短语;最后生成摘要。由于 FRUMP 系统受到所存储文章梗概的限制,所以导致当在文章中没有查找到预期的内容时,就无法生成摘要。
1982 年,美国的 J. I. Tait 改进 FRUMP 系统研制了 Scrable 系统。它是先将待处理文本转换成 CD,然后对被预测信息和未被预测信息之间的关系进行分析和推测,最后生成文章的摘要,最后,因为概念依存结构极为复杂,以至于系统难于实现。
同一年,意大利的

基于icvsm的摘要抽取算法分析based on the analysis of icvsm extraction algorithm 来自淘豆网www.taodocs.com转载请标明出处.