下载此文档

基于页面分类的web 信息抽取方法研究.pdf

文档分类：IT计算机 | 页数：约5页举报非法文档有奖

1/5

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/5 下载此文档

文档列表 文档介绍

计算机技术与发展
第 23 卷第 1 期 Vol. 23 No. 1
年月
2013 PUTER TECHNOLOGY AND DEVELOPMENT Jan. 2013
基于页面分类的 Web 信息抽取方法研究
成卫青,于静,杨晶,杨龙
( 南京邮电大学计算机学院,江苏南京 210003)
,
摘要通过对现有 Web 信息抽取方法和当前 Web 网页特点的分析发现现有抽取技术存在抽取页面类型固定和抽取结
, , ,
果不准确的问题为了弥补以上两个不足文中提出了一种基于页面分类的 Web 信息抽取方法此方法能够完成对互联网
,
上主流信息的提取。通过对页面进行分类和对页面主体的提取分别克服传统方法抽取页面类型固定和抽取结果不够准
,
确的问题。文中设计了一个完整的 Web 信息抽取模型并给出了各功能模块的实现方法。该模型包含页面主体提取、页
, ,
面分类和信息抽取等模块并利用正则表达式自动生成抽取规则提高了抽取方法的通用性和准确性。最后用实验证实
了文中方法的有效性与正确性。

关键词 Web 信息抽取正则表达式页面分类 HTMLParser 结点树
中图分类号 TP31 文献标识码 A 文章编号 1673 - 629X 2013 01 - 0054 - 05

doi 10. 3969 /j. issn. 1673 - 629X. 2013. 01. 014
Web Information Extraction Research Based on Page Classification
, , ,
CHENG Wei - qing YU Jing YANG Jing YANG Long
, , ,
School puter Science & Techn. Nanjing University of Posts and m. Nanjing 210003 China
,
Abstract By means of analysis of existing Web information extraction and the current Web page characteristics current extraction tech-
niques are found to have problems that the types of extract page fixed and the extract results are not accurate. In order to make up for the
,
deficiency mentioned above propose a Web information extraction method based on page classification. This method is able plete
the extraction of the mainstream of information on the page. By classifying the Web page and extracting the main body of the

基于页面分类的web 信息抽取方法研究来自淘豆网www.taodocs.com转载请标明出处.