计算机技术与发展
第 23 卷第 1 期 Vol. 23 No. 1
年月
2013 PUTER TECHNOLOGY AND DEVELOPMENT Jan. 2013
基于页面分类的 Web 信息抽取方法研究
成卫青,于静,杨晶,杨龙
( 南京邮电大学计算机学院,江苏南京 210003)
,
摘要通过对现有 Web 信息抽取方法和当前 Web 网页特点的分析发现现有抽取技术存在抽取页面类型固定和抽取结
, , ,
果不准确的问题为了弥补以上两个不足文中提出了一种基于页面分类的 Web 信息抽取方法此方法能够完成对互联网
,
上主流信息的提取。通过对页面进行分类和对页面主体的提取分别克服传统方法抽取页面类型固定和抽取结果不够准
,
确的问题。文中设计了一个完整的 Web 信息抽取模型并给出了各功能模块的实现方法。该模型包含页面主体提取、页
, ,
面分类和信息抽取等模块并利用正则表达式自动生成抽取规则提高了抽取方法的通用性和准确性。最后用实验证实
了文中方法的有效性与正确性。
关键词 Web 信息抽取正则表达式页面分类 HTMLParser 结点树
中图分类号 TP31 文献标识码 A 文章编号 1673 - 629X 2013 01 - 0054 - 05
doi 10. 3969 /j. issn. 1673 - 629X. 2013. 01. 014
Web Information Extraction Research Based on Page Classification
, , ,
CHENG Wei - qing YU Jing YANG Jing YANG Long
, , ,
School puter Science & Techn. Nanjing University of Posts and m. Nanjing 210003 China
,
Abstract By means of analysis of existing Web information extraction and the current Web page characteristics current extraction tech-
niques are found to have problems that the types of extract page fixed and the extract results are not accurate. In order to make up for the
,
deficiency mentioned above propose a Web information extraction method based on page classification. This method is able plete
the extraction of the mainstream of information on the page. By classifying the Web page and extracting the main body of the
基于页面分类的web 信息抽取方法研究 来自淘豆网www.taodocs.com转载请标明出处.