下载此文档

web页面文本信息的抽取与挖掘方法研究.doc


文档分类:IT计算机 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
web页面文本信息的抽取与挖掘方法研究
摘要本文针对web页面作为研究对象,从庞大的web数据中抽取所需的文本信息,然后利用这些文本信息进行挖掘,并且详细的讨论了web页面文本中的抽取和挖掘理论及其方法,对基于正则表达式和包装器的抽取以及分类、聚类挖掘进行详细讲解。
关键字 web文本信息;web挖掘;正则表达式;聚类;
1引言
随着科技水平的不断发展,计算机网络得到了普及,其规模也变得越来越大,网络用户的行为变得更加复杂,伴随着产生的web数据也以指数级增长。信息日益丰富,网络上的web文本信息量也在极速壮大,为此通过网页获取文本信息也已经成为人们获取文本信息的主要渠道,然而面对海量的网上页面文本信息,使用一个普通手段如搜索引擎是无法快速将文本信息进行大量抽取,也无法有效寻找到自身所需求的文本信息。为此,需要进行一个web页面文本信息的抽取与挖掘方法研究,通过这项研究去认识一些技术并推广使用、改变现状。
2 基础知识
web页面文本信息
web页面文本指的是web网页的HTML文本内容。 文本以文档形式和简单的词条内容形式存在,而web页面文本信息指的是网页上的文本文档以及文本内容。网页的标志语言一般有多种,但目前上大部分数据是以HTML(超文本标志语言)形式出现,为此本文讨论的是web页面信息都是以HTML格式的文本抽取与挖掘。
web页面文本信息抽取
web页面文本信息抽取就是将web页面作为信息源对文本信息进行抽取,从页面文本中抽取特定的目标信息,让信息点从各种各样的文档中被抽取出来,然后将这些无结构化或半结构化的信息转化为结构化的文本信息并以统一的形式储存起来,以供用户后期处理使用。
web页面文本信息挖掘
Web页面文本信息挖掘是数据挖掘的一种新兴类型,是以web文本为对象的一种数据挖掘技术,其基本原理是使用技术进行文本信息抽取后,利用聚类、分类和关联分析等技术挖掘方法得到数据对象间的内在特性,提取用户感兴趣的信息,获得更高层次的知识和规律,是发现蕴含的未知的有潜在应用价值的非平凡的模式的过程,可以广义地定义为发现和分析有用的信息。


该页面文本抽取与挖掘的工作流程安排如下:
信息抽取过程:在web页面中文本的信息抽取出来并一定形式集合在一起。
文本挖掘过程:用挖掘算法对web页面文本信息进行挖掘处理。
结果评价:将挖掘结构进行相关性的评价并将所得到的知识呈现出来。[2]


常见的web文本网页抽取方法有:基于正则表达式的Web文本信息抽取,基于包装器的Web文本信息抽取,基于自然语言处理的Web文本信息抽取,基于CSS选择器的Web文本信息抽取等。

基于正则表达式的Web页面文本信息抽取目前主要用在各大统计网站中,通过对用户评论的抽取,实现用户的反馈统计。
正则表达式是提供给计算机操作和检验所要抽取的字符串数据的一种强大的工具,是一串由特定意义的字符组成的字符串,它表示某种匹配的规则,具有匹配、替换、过滤、提取等功能。匹配功能用于把设定的匹配表达式与数据文件和 Web 页面的表达输入等目标对象进行比较,根据比较结果,执行相应的程序;提取指的是根据模式匹配,从字符串中提取子字符串,如提取网页中的图片、超链接和文本等。它提供了全方面的模式匹配,可以快速得分析文本并且找到用户想要得到的信息,对待处理的文本进行字符串的抽取和编辑功能,或将抽取的字符串添加到集合以生成报告。在此我们将正则表达式应用到web页面上也是同样道理。HTML文本本身就是一系列字符串组成的数据,在信息抽取的过程中完全适合正则表达式的特点,因此,能够利用正则表达式快速匹配文本的特点进行信息抽取。

整个Web文本信息抽取过程可以分成以下五个阶段。
一、数据采集,获取Web页面,保存起来。通过网络爬虫工具可以下载网页,网络爬虫的工作原理是从一个或多个初始网页的URL中获得初始网页上的URL,在抓取网页的过程中,连续不断地从当前页面上抽取新的URL放入队列,直到满足系统的停止条件。URL 由 http:∥和零个或多个“/”或“.”组成,具有固定的表示形式。用正则表达式的匹配功能就可以容易地抽取URL。正则表达式的匹配模式表示为 http:∥( \\w + ( - \\w + ) * ) ( \\. ( \\w + ( - \\w + ) * ) ) * ( \\? \\ S* ) ? 它表示凡是含有 http:∥和零个或多个“/”或“.”等符号的都是所需要的URL。网络爬虫通过这种正则匹

web页面文本信息的抽取与挖掘方法研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人260933426
  • 文件大小175 KB
  • 时间2017-08-10