下载此文档

浅谈基于C#的网络类垂直搜索引擎 数据采集技术.doc


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
浅谈基于C#的网络类垂直搜索引擎 数据采集技术.doc浅谈基于C#的网络类垂直搜索引擎数据采集技术
浅谈基于C#的网络类垂直搜索引擎数据采集技术
(一)研究背景。互联网发展十余年,在这十余年的市场培育,,但是获取具有相对性高的信息是比较费时间和人力的,因此采集引擎发挥了很大的作用并得到广泛的应用。
(二)可行性分析。现在大多数的信息的采集主要是为手工处理,很多重复操作,而且是容易找到许多不相关的信息,该网络类垂直搜索引擎数据采集软件的使用是否可以解决以上问题,就要对软件进行可行性分析。一般软件的可行性分析会对以下方面进行:(1)技术可行性:程序运行采集信息时采用的是多线程处理,使处理速度更快。(2)经济可行性:在设计该软件时不需要太多的成本,也不需要太多的人力投入,需要连接网络。(3)运行上可行性:虽然本软件使用的是多线程处理,消耗的相对比较大,但是现在一般的电脑都可以运行。(4)从社会需求上分析:更新信息本来是个工作量大的工作,该软件就可以避免这个问题,可以降低工作强度,提高工作效率。
三、系统相关技术简介
(一)垂直搜索引擎。随着互联网信息的日益发展、不断庞大,精确获取信息的难度越来越大,那么怎样在大量的信息中找到自己想要的信息,成为了一个迫在眉睫的问题,需要新的技术、新的理念来解决这个棘手的问题,因此搜索引擎的出现成为了必然,同时也开始影响着我们的需求,影响着我们的生活。由于普通的、通用的搜索引擎有着查询的信息量很大、但目标不够准确、有许多重复的内容或根本无关紧要的内容,而且搜索出的信息深度不够等缺点,所以为精确的搜索出需要的信息,满足用户的需求,从而诞生了垂直搜索引擎。
(二)搜索引擎爬虫。搜索引擎爬虫是一种按照一定网页资源无关性、覆盖率数据结构型、语义检索等自动抓取网络资源的程序,它的执行过程和网络爬行很相似。
现在的网络信息都是以网页的形式加载信息,如果这个网页没有被搜索引擎爬虫收录,这个网页在互联网上是很难找不到的,这只能通过连接直接打开,通过搜索引擎查找是不可能找到的。因为搜索引擎爬虫采集时有URL去重功能,所以提供给用户的都是一些很有价值的信息。
(三)数据采集。网络基本上所有网站都分为三大模板:首页模板、内容页模板,列表页模板、所以一个网站的列表页、文章的HTML代码的结构基本相同,这就便于去根据规律采集文章信息,采集网页内容方式主要有两种:智能提取和正则提取。
(四)站群。站群是目前比较挣钱的网赚项目之一,为了维护这些网站每天都得给网站发布一定数量的信息,如果一个网站发10篇,就得准备至少100篇文章,这样的工作量不可能让人工来操作,必须要有具备采集数据功能的软件协助,这样就可以大大提高工作效率。
四、系统总体设计分析
(一)系统需求分析。在庞大的Inter信息宝库中,怎样精确获取信息的难度越来越大,用户也迫切的需要一个简便的检索工具去得到自己想要的信息,因此搜索引擎的产生成为了必然。搜索引擎的数据采集模块主要是对网络上原创性的网页信息采集下来保存在数据库中。如果该网页发生了更新,数据采集模块会检测到后下载并对本地的旧信息进行替换更新。因此通过剖析网络垂直搜索引擎中数据采集的基本方法和运行机制,再通过软件来现实数据采集,从而可以快速解决许多重复性的劳动问题。
(二)系统实现的目标。本系统主要实现的目标有以下几

浅谈基于C#的网络类垂直搜索引擎 数据采集技术 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小博士
  • 文件大小50 KB
  • 时间2017-08-06