下载此文档

2021年SEWM中文Web信息检索评测.ppt


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
任 务
使用CWT100G测试数据(约570万个中文网页),完成以下两个任务:
主题提取
 对于一个特定主题发现一组关键资源,要求在前十个结果中寻找尽可能多的不同站点
主页/指定页面查询
返回最符合用户特定查询的那个网页,此网页在结果排序中越靠前越好
2021/1/15
1
SEWM中文Web信息检索评测
系统设计
以开源工具Lucene/Nutch为基础进行扩展
索 引:使用Lucene的API,是倒排索引,但引入了Field的概念,索引时将网页划分为url, title, content, anchor等不同的field,这样可以进行有针对性的匹配及排序优化。
存储结构:使用Nutch基于二进制文件的webdb来存储关键资源,包括:网页文本,超链,anchor等  
中文分词:使用我们自己开发的中文分词系统BUAASEISEG
2021/1/15
2
SEWM中文Web信息检索评测
相关排序算法
把document划分为url,title,入链anchor,content等field,检索时按field分别匹配,在任意一个field中匹配上了,就算匹配成功。对每个field的匹配情况分别计算similarity得分(TF*IDF*Norm),最后把所有field的匹配得分相加。
 对不同的field赋予不同的得分权重: url: anchor: title: content: 
为防止恶意的anchor及title,限制两者的最大长度,将超过长度的字符忽略。
2021/1/15
3
SEWM中文Web信息检索评测
相关排序算法(续1)
增加文档长度规格化。长文档通常会有高的TF值,检索时匹配上的概率也更高,这样不利于短文档。可根据文档长度(文档所含token个数)计算规格化因子,抑制长文档的得分。
计算时区分field:
对于content:DocLengthNorm= / (numTokens)
对于anchor: DocLengthNorm=(+numTokens)
对于url:DocLengthNorm= / numTokens
SimScore=SimScore*DocLengthNorm
2021/1/15
4
SEWM中文Web信息检索评测
相关排序算法(续2)
链接分析:只考虑入链的数目,不考虑入链的质量。
PR=( + backlinkNum);
最终得分=SimScore*PR
2021/1/15
5
SEWM中文Web信息检索评测
中文分词系统与Nutch的集成
Nutch对中文仅进行单字切分,需扩充中文分词功能
基于JavaCC重写Nutch的词法分析器,以可置换,易扩充的方式在Nutch中引入繁简转换、智能中文分词等中文处理功能
可灵活使用各类中文分词算法/系统,只需实现一个统一的JAVA接口ISpliter即可。除了我们自己的BUAASEISEG中文分词器外,我们还集成过计算所开源版的ICTCLAS
2021/1/15
6
SEWM中文Web信息检索评测
中文分词系统与Nutch的集成(续)
2021/1/15
7
SEWM中文Web信息检索评测
Word-segmentation
Create Word segmentation system that
Can handle large scale data(>90G, ICTCLAS fail on this)
Can recognize more new words (adaptive to domains)
Can do disambiguation based on context
Favor on Information Retrieval and Feature selection
2021/1/15
8
SEWM中文Web信息检索评测
Word-segmentation: BUAASEISEG
2021/1/15
9
SEWM中文Web信息检索评测
Word-segmentation cont.
编号
中文字数
词数
新词数(未包含两者识别一致的新词)
BUAASEISEG
准确率
ICTCLAS
准确率
1
467
218
14
%
%
2
514
267
8
%
%
3
859
383
8
%
%
4
598

2021年SEWM中文Web信息检索评测 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人书犹药也
  • 文件大小223 KB
  • 时间2021-01-15