下载此文档

搜索引擎及搜索引擎优化(SEO)实验.doc


文档分类:IT计算机 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
1 实验三搜索引擎及 SEO 实验一、实验目的研究并学****几种常见的搜索引擎算法, 包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、 PageRank 和 MapReduce 算法,了解它们的基本实现原理;运用所学 SEO 技术对网页进行优化。二、实验内容 1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理; 2. 研究至少两种中文分词算法,了解其实现原理; 3. 研究至少两种网页正文提取算法,了解其实现原理; 4. 研究至少两种网页去重算法,了解其实现原理; 5. 研究 Google 的 PageRank 和 MapReduce 算法,了解它们的实现原理; 6. 使用所学的 SEO 技术, 对实验二所设计的网站静态首页实施 SEO , 在实施过程中需采用如下技术: (1) 网页标题(title) 的优化; (2) 选取合适的关键词并对关键词进行优化; (3) 元标签的优化; (4) 网站结构和 URL 的优化; (5) 创建 文件,禁止蜘蛛抓取网站后台页面; (6) 网页内部链接的优化; (7) Heading 标签的优化; (8) 图片优化; (9) 网页减肥技术。 7. 使用 C++ 、 C# 和 Java 等任意一种编程语言, 设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页 URL 之后能够实现网页搜索,输出包含关键词的网页的 URL 和网页标题。【注:实验 7 为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求 1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整; 2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整; 3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整; 4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整; 2 5. 研究 PageRank 算法和 MapReduce 算法,填写相应的表格,表格必须填写完整; 6. 提供实施 SEO 之后的网站静态首页界面和 HTML 代码,尽量多地使用所学 SEO 技术; 7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法; 8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤 1. 通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格; 2. 通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格; 3. 通过使用搜索引擎并查阅相关资料, 研究并整理两种网页正文提取算法的基本原理, 填写相应的表格; 4. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格; 5. 通过使用搜索引擎并查阅相关资料,研究并整理 PageRank 算法和 MapReduce 算法的基本原理,填写相应的表格; 6. 对实验二所设计的网站静态首页实施 SEO ; 7. 使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。五、实验报告要求 1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格: 策略名称基本原理参考资料深度优先策略深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点( 即那些不包含任何超链的 HTML 文件)。在一个 HTML 文件中, 当一个超链被选择后, 被链接的 HTML 文件将执行深度优先搜索, 即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着 HTM L 文件上的超链走到不能再深入为止,然后返回到某一个 HTM L 文件,再继续选择该 HTML 文件百度百科深度优先搜索: http://baike./view/ 3 中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。广度优先策略宽度优先搜索算法( 又称广度优先搜索) 是最简便的图的搜索算法之一, 这一算法也是很多重要的图的算法的原型。 Dijkstr a 单源最短路径算法和 Prim 最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫 BFS ,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点, 以找寻结果。换句话说,它并不考虑结果的可能位址, 彻底地搜索整张图, 直到找到结果为止。百度百科广度优先搜索: http://baike./view/ 网页选择策略对搜索引擎而言, 要搜索互联网上所有的网页几乎不可能, 即使全球知名的搜索引擎 google 也只

搜索引擎及搜索引擎优化(SEO)实验 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人utuhlwwue61571
  • 文件大小904 KB
  • 时间2017-04-20