长江大学学报 自科版 年 月 第 卷 第 期 理工上旬刊
( ) 2015 4 12 10 ( )
· 63 · Journal of Yangtze University (Natural Science Edition) Apr.2015,Vol.12No.10
引著格式 余伟 陶皖 徐京 等 基于领域本体的微博用户信息抽取方法 长江大学学报 自科版
[ ] , , , . [J] . ( ),2015,12 (10):36~40.
基于领域本体的微博用户信息抽取方法
余伟 陶皖 徐京 刘成满 安徽工程大学计算机与信息学院 安徽 芜湖
, , , ( , 241000)
摘要 传统基于本体的 页面信息抽取以单个信息项为最小抽取单位 抽取出的实体语义关联性较差
[ ] Web ,
和抽取准确率不理想。针对上述问题,以微博领域本体 为 基 础,提出了一种两层次匹配的用户信息抽取
方法:将微博中具有语义关联的不同层次的用户信息划分成对应信息块,以信息块作为最小抽取单位分
别抽取其中包含的用户各属性信息 (包含个人信息、关注的好友信息和所发文本微博信息)。试验结果证
明,与传统信息抽取方法相比,设计的抽取规则算法能够有效地提高信息的准确率和召回率,对 微 博 页
面结构复杂以及信息量大的 网页有良好的抽取效果
Web 。
[关键词]领域本体;两层次匹配;信息抽取;微博;抽取规则
中图分类号 文献标志码 文章编号
[ ]TP391;TP18 [ ]A [ ]1673-1409 (2015)10-0036-05
网络技术飞速发展,导致 了 信 息 量 超 载, 所需要的信息容易被一些无关项所干扰,
基于领域本体的微博用户信息抽取方法 来自淘豆网www.taodocs.com转载请标明出处.