下载此文档

周恒搜索引擎原理.ppt


文档分类:IT计算机 | 页数:约26页 举报非法文档有奖
1/26
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/26 下载此文档
文档列表 文档介绍
搜索引擎原理 ——使用Perl
周 恒
1
搜索引擎原理(使用Perl) -主要目的
介绍典型的Web搜索引擎原理
使用Perl,来和大家一起完成一个简单Web搜索引擎的主要部分(perlBEE)
和大家一起交流,共同探讨Perl、推广Perl
2
搜索引擎原理(使用Perl) -主流搜索引擎
3
搜索引擎原理(使用Perl) -PerlBEE搜索引擎
假设在学校内部,不同组织维护着多个Http及Ftp服务器,向校内提供服务。
使用perl,编写一个简单的搜索引擎,检索这些服务器内的资源。
Linux+Apache + MySQL + Perl
(old version)
4
搜索引擎原理(使用Perl) -基本要求
接受用户提交的关键字(q)
在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L)
可以接受的时间:
匹配:
列表:
5
搜索引擎原理(使用Perl) -三段式工作流程
网页搜集:
预处理:
提供服务:
6
搜索引擎原理(使用Perl) -网页搜集
网页数据库的基本策略:
1)定期搜集:
2)增量搜集:
网页的抓取策略:
1)“爬取”策略:
2)维护URL:
7
搜索引擎原理(使用Perl) -定期搜索
定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。
优点:实现起来较简单
缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高
8
搜索引擎原理(使用Perl) -增量搜索
开始时搜集一遍,然后:


,则从库中删除
9
搜索引擎原理(使用Perl) - “爬取”策略
将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。
这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)
10

周恒搜索引擎原理 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sxlw2014
  • 文件大小216 KB
  • 时间2021-05-19