1/26
文档分类:IT计算机

周恒搜索引擎原理.ppt


下载后只包含 1 个 PPT 格式的文档,里面的视频和音频不保证可以播放,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
周恒搜索引擎原理.ppt
文档介绍:
搜索引擎原理 ——使用Perl
周 恒
1

搜索引擎原理(使用Perl) -主要目的
介绍典型的Web搜索引擎原理
使用Perl,来和大家一起完成一个简单Web搜索引擎的主要部分(perlBEE)
和大家一起交流,共同探讨Perl、推广Perl
2

搜索引擎原理(使用Perl) -主流搜索引擎
3

搜索引擎原理(使用Perl) -PerlBEE搜索引擎
假设在学校内部,不同组织维护着多个Http及Ftp服务器,向校内提供服务。
使用perl,编写一个简单的搜索引擎,检索这些服务器内的资源。
Linux+Apache + MySQL + Perl
(old version)
4

搜索引擎原理(使用Perl) -基本要求
接受用户提交的关键字(q)
在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L)
可以接受的时间:
匹配:
列表:
5

搜索引擎原理(使用Perl) -三段式工作流程
网页搜集:
预处理:
提供服务:
6

搜索引擎原理(使用Perl) -网页搜集
网页数据库的基本策略:
1)定期搜集:
2)增量搜集:
网页的抓取策略:
1)“爬取”策略:
2)维护URL:
7

搜索引擎原理(使用Perl) -定期搜索
定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。
优点:实现起来较简单
缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高
8

搜索引擎原理(使用Perl) -增量搜索
开始时搜集一遍,然后:
1.搜集新出现的网页
2.搜集更新了的网页
3.发现有网页已经不存在,则从库中删除
9

搜索引擎原理(使用Perl) - “爬取”策略
将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。
这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)
10
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sxlw2014
  • 文件大小216 KB
  • 时间2021-05-19