下载此文档

搜索引擎及搜索引擎优化(SEO)实验.docx


文档分类:IT计算机 | 页数:约46页 举报非法文档有奖
1/46
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/46 下载此文档
文档列表 文档介绍
实验三 搜索引擎及SEO实验
一、实验目的 研究并学****几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正 文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运 用所学SEO技术对网的瓶颈。网 络爬虫无法遍历所有的网页;二 是存储技术和处理技术的问题。 因此,网络爬虫在抓取网页时。 尽量先采集重要的网页,即采用 网页优先抓取策略。
网页选择策略是给予重要 程度、等级较咼的Web页以较咼 的抓取优先级,即Web页越重 要,则越应优先抓取。其实质上 是一种使网络爬虫在一定条件 下较快地锁定互联网中被用户 普遍关注的重要信息资源的方 法。而实现该策略的前提是正确 评测Web页的重要程度bj,目 前评测的主要指标有PageRank
李志义《网络爬虫的优化策略探略》, 广东广州510631
值、平均链接深度等。
重访策略
依据Web站点的更新频率确 定重访频率
此法符合实际情况,能够更有效 地管理和利用网络爬 虫。例如,门户网站通常每天要 不断地更新信息和添加新 的信息,重访的频率则以天或小 时为周期进行网页的重访。
不关心Web站点的更新频率 问题,而是间隔一段
时间重访已被抓取的冈页。其弊 端是重复抓取的概率大, 容易造成不必要的资源浪费。
根据搜索引擎开发商对网页 的主观评价,提供个
性化的服务
网页的重访需要搜索引擎开发 商对主要的站点进行网 页更新频率的主观评价,可以根 据需求提供个性化的服务。
李志义《网络爬虫的优化策略探略》, 广东广州510631
并行策略
实施并行策略的核心是在增加 协同工作的爬虫数量的同时,科 学合理地分配每个爬虫的任务, 尽量避免不同的爬虫做相同的 Web信息抓取。一般通过两种方 法来分配抓取任务,一是按照 Web站点所对应的m地址划分任 务,一个爬虫只需遍历某一组地 址所包含Web页即可;另一种方 法是依据Web站点的域名动态分 配爬行任务,每个爬虫完成某个 或某些域名段内Web信息的搜 集。
李志义《网络爬虫的优化策略探略》, 广东广州510631
2. 研究两种中文分词算法并填写如下表格:
算法名称
基本原理
参考资料
算法一:最大匹配算法
最大匹配算法是一种有着广泛应用的机 械分词方法,该方法依据一个分词词表和 “长词优先” 原则,来进行分词
张玉茹肇庆526070
《中文分词算法之最 大匹配算法的研究》
算法二:基于无词典的
分词算法
基于汉字之间的互信息和t-测试信息的 分词算法。汉语的词可以理解为字与字之 间的稳定结合,因此。如果在上下文中某
刘红芝徐州医学院图 书馆江苏徐州221004
几个相邻的字出现的次数越多,那么,这 《中文分词技术的研 几个字成词的可能性就很大。根据这个道究》 理引入互信息(Mutual information)和t- 测试值(t—score)的概念,用来表示两个 汉字之间结合关系的紧密程度。该方法的 分词原理是:对于一个汉字字符串,计算 汉字之间的互信息和t-测试差信息,选择 互信息和t-测试差信息大的组成词。该方 法的局限性是只能处
理长度为2的词,且对于一些共现频率高 的但并不是词的字组,常被提取出来,并 且常用词的计算开销大,但可以识别一些 新词,消除歧义。对于一个成熟的 分词系统来说,不可能单独依靠某一个算 法来实现,都需要综合不同的算法,在实 际的应用中,要根据具体的情况来选择不 同的分词方案。
:
算法名称
基本原理
参考资料
算法一基于相似度的 中文网页正文提取算 法
正文文本在HTML源文件中有两种修饰方 式:有标签提示和无标签提示。有标签文 本中标签的作用一般包含分块信息、表格 信息、或者文本的字体颜色信息等。这种 文本采用基于分块的方法能有不错的效 果。而无标签信息的正文文本处理之后不 在分块中,也不在表格内。米用先分块后 提取放入网页正文提取方法,无法达到理 想的精度。本文提出根据相似度来提取网 页正文的算法。算法分为两个步骤:首先 取出网页中包含中文最多的行,然后利用 鉴于此余弦相似度匹配和标签相似度来 提取网页正文。该算法最大的特点是 避免了上述的分块步骤。
熊子奇张晖林茂松 (西南科技大学计算机 科学与技术学院四川 绵阳 621010)
《基于相似度的中文 网页正文提取算法》
算法二基于FFT的网页 正文提取算法研究与 实现
给定一个底层网页的HTML源文件, 求解最佳的正文区问。对于任何字符串区 间(b,e),(0W6〈eWs
),都有一 个评价值,问题转化
为求评价函数的最大

搜索引擎及搜索引擎优化(SEO)实验 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数46
  • 收藏数0 收藏
  • 顶次数0
  • 上传人niupai11
  • 文件大小806 KB
  • 时间2022-07-28