下载此文档

用户可定制桌面搜索系统的设计与实现.pdf


文档分类:IT计算机 | 页数:约52页 举报非法文档有奖
1/52
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/52 下载此文档
文档列表 文档介绍
用户可定制桌面搜索系统
的设计与实现
(申请清华大学工程硕士学位论文)

培 养 单 位 : 电子工程系
工 程 领 域 : 电子与通信工程
研 究 生 :闵钰麟
指 导 教 师 : 黄永峰教授


二○一四年五月
Design and implementation of
user-customized desktop search engine
Thesis Submitted to
Tsinghua niversity
in partial fulfillment of the requirement
for the degree of
Master of Engineering
in
Electronic and Communication Engineering
by
Min yulin
Thesis Supervisor: Professor Huang yongfeng

May, 2014
摘 要
随着互联网信息的爆炸式增长,用户的个性化需求也越来越高。在实际应用
场景下,用户通常希望在特定领域进行定制化的搜索。主题爬虫是定制化搜索的
基础,传统的主题爬虫方法需要对应主题训练集的支持,如果缺乏相应主题训练
集则无法进行工作。因此,传统的垂直搜索引擎只能提供一个或少数主题的搜索
服务,无法完全满足用户的个性化需求
本论文的研究工作针对上述问题展开,主要贡献如下:
提出了面向自适应主题爬行的网页解析技术。自适应主题爬行需要能够准确
地解析出一个网页的主题文本,已有的方法对 topic 类型网页的效果较好,但是通
用性不高,而且没有考虑如何提取 hub 类型网页的主题文本。论文中的提出的方
法是一个通用的解析算法(EATI),通过该算法在主题爬行中的表现证明了算法
的有效性。
提出了自适应主题爬行策略。该策略不依赖主题训练集,通过用户提供的一
组相同主题的初始链接完成主题建模和爬行,在相同初始链接的情况下,达到了
和使用主题训练集的最佳优先策略水平相当的收获率。
设计并实现了用户可定制桌面搜索系统。该系统向用户提供一个可以灵活定
制的爬虫,用户根据需求对爬虫进行简单配置后即可完成定制化的爬行。系统在
后台自动完成下载网页的索引,并通过 web 向用户提供检索服务。

关键词:主题爬行;个性化搜索;自适应主题爬行;用户可定制
I
Abstract
With the explosive growth of Internet information, the personalized needs of users
is increasing. In practical scenario, user often wants to do customized search in specific
fields. Focused crawler is the base of customized search. The traditional focused crawl
strategy needs the support of the corresponding topic of train set. They can not work
with train set. Therefore, traditional vertical search engines only provide search service
for one or some topics. They can not fully meet the personalized needs of users.

用户可定制桌面搜索系统的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数52
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小1.11 MB
  • 时间2021-09-28