搜索引擎原理——使用Perl
周 恒
1
搜索引擎原理(使用Perl)-主要目的
介绍典型的Web搜索引擎原理
使用Perl,来和大家一起完成一个简单Web搜索引擎的主要部分(perlBEE)
和大家一起交流,共同探讨Perl、推广Perl
2
搜索引擎原理(使用Perl)-主流搜索引擎
3
搜索引擎原理(使用Perl)-PerlBEE搜索引擎
假设在学校内部,不同组织维护着多个Http及Ftp服务器,向校内提供服务。
使用perl,编写一个简单的搜索引擎,检索这些服务器内的资源。
Linux+Apache + MySQL + Perl
(old version)
4
搜索引擎原理(使用Perl)-基本要求
接受用户提交的关键字(q)
在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L)
可以接受的时间:
匹配:
列表:
5
搜索引擎原理(使用Perl)-三段式工作流程
网页搜集:
预处理:
提供服务:
6
搜索引擎原理(使用Perl)-网页搜集
网页数据库的基本策略:
1)定期搜集:
2)增量搜集:
网页的抓取策略:
1)“爬取”策略:
2)维护URL:
7
搜索引擎原理(使用Perl)-定期搜索
定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。
优点:实现起来较简单
缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高
8
搜索引擎原理(使用Perl)-增量搜索
开始时搜集一遍,然后:
,则从库中删除
9
搜索引擎原理(使用Perl)- “爬取”策略
将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。
这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)
10
周恒搜索引擎原理 来自淘豆网www.taodocs.com转载请标明出处.