第 卷第 期 计 算机 应 用与软 件 ..
年 月 .
基 于 多特 征 融 合 的 网页 正 文 信 息 抽 取
刘 利 戴齐 尹红风贾 真 胡万亭
西南 交通 大学信息科学 与技术学 院,思维与智慧研究所 四川 成都
摘 要 当今 主流 网页分 为单正文体 网页和多正文体 网页。这些 网页 的正文信息都具 有多个正文特征。想要准确定位正文信 息
所在位置 ,可 以从 其所具 有的多个特征和 网页设计者 的设计****惯 着手。鉴于此 ,融合这些特征提 出一种基于多特征融合 的网页正 文
信息抽取方法。实验结果表 明,该 方法对单正文体 网页和 多正 文体 网页的正文抽取具有较高 的准确率和通用性 ,很好地适应 了风格
多样的 网页。
关键词 单正文体 多正文体 多特征 信 息抽取
●
中图分 类号 文献标识码 :./..—...
, ,,,,
,.
.,
.,,
.
,.
基于多特征融合的网页正文信息抽取 来自淘豆网www.taodocs.com转载请标明出处.