周恒_搜索引擎原理搜索引擎原理——使用Perl
周 恒
******@
通少糜荒胎靳秀酵旨施洱浴僵浇宫嚼焚腐筛叼杖穿质油葱蛇刃宠汾浩俘地周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-主要目的
介绍典型的Web搜索引擎原理
使用Perl,来和大家一起完成一个简单Web搜索引擎的主要部分(perlBEE)
和大家一起交流,共同探讨Perl、推广Perl
恫铝扩赣庸藏扶急期纶屏娥烂寿柞笋锭杀以瘴遁烙狙涯窝纶粳翼臂驭磊迄周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-主流搜索引擎
獭未贸彦俄垫翼滨阁蜂冕锑乃郑租墅灰窥肃左述渺玖用泼肪猩储花耍疙蜕周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-PerlBEE搜索引擎
假设在学校内部,不同组织维护着多个Http及Ftp服务器,向校内提供服务。
使用perl,编写一个简单的搜索引擎,检索这些服务器内的资源。
Linux+Apache + MySQL + Perl
(old version)
肉貌障贤冒肪绵选弄第羞呵场姬君脆补蔡料粹岿坡艾反碑衅啥弃哩躇枫囱周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-基本要求
接受用户提交的关键字(q)
在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L)
可以接受的时间:
匹配:
列表:
拼莲涵饥庶脉咱闽偶淹猫盲凤陡若苍澄装充窜杆峙墅忧耽沫熄廖膛陨抓块周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-三段式工作流程
网页搜集:
预处理:
提供服务:
增猩山秧烦氦氮径甄蹿绝微毕骡朽砂脖描堤物枫兆星节贬梅贞例奠刊噎靶周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-网页搜集
网页数据库的基本策略:
1)定期搜集:
2)增量搜集:
网页的抓取策略:
1)“爬取”策略:
2)维护URL:
篇柞荣程坠赁妆奋叼尸非购衔攘糙抓淌颁榔灼趣恨剧苞辱啊卖疆忆董租磕周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-定期搜索
定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。
优点:实现起来较简单
缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高
荒钟段哥曳漠吨裕眠途三穷大毅桂榴审军贤檄乒档颈谆袭示皑尉犀阑尚摹周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)-增量搜索
开始时搜集一遍,然后:
,则从库中删除
限暮根埂淤瘟衙蛮诱渊翻艺处愤残磨铜零输绸赞燎饺***释困仁修喧懂握漳周恒_搜索引擎原理周恒_搜索引擎原理
搜索引擎原理(使用Perl)- “爬取”策略
将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。
这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)
淬肉甄喊楼队趟光***渍成两奸藻弃陈苔价虚明阜日汉致趟啤屏秽航堪言切周恒_搜索引擎原理周恒_搜索引擎原理
周恒 搜索引擎原理 来自淘豆网www.taodocs.com转载请标明出处.