下载此文档

SEWM 2007 中文web检索评测报告.ppt


文档分类:IT计算机 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
第五届全国搜索引擎和网上信息挖掘学术研讨会
SEWM 2007 中文web检索评测报告
dae_meng
内容提纲
评测目标
系统设计
实验结果
未来工作
dae_meng
评测目标
主题提取(TD)
查找主题相关的关键资源的入口
导航搜索(HPNP)
HP 查找指定名字的网站的首页
NP 查找指定名字的页面
dae_meng
主题提取
TD 任务分析
不能按照网页相似度大小来判断
站点是从一组相关网页的入口
网页深度一般不会大于4
dae_meng
导航搜索
导航搜索(HPNP)
主页查找
检索返回的相关网页可能只来源于某几个网站
主页大部分是以“/”结尾,或者结尾包含“index”,“default”单词
指定页面查找
一般可以按照网页的检索评分得到结果
查询任务和网页的title基本一致
dae_meng
系统设计
解压缩
查询任务分析
CWT200g
分析网页
分词
预处理
TD/HPNP
初次排序结果
检索
建立索引
二次检索
dae_meng
系统设计
分析网页
去掉冗余信息,只保留title和body的标签内容
分词
北大天网提供的CHSeg分词程序
统计词频
dae_meng
提交结果
RUN1
firtex工具
RUN2
用title和body检索
RUN3
只用title进行检索
dae_meng

SEWM 2007 中文web检索评测报告 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wangzhidaol
  • 文件大小493 KB
  • 时间2018-08-31