下载此文档

浅谈基于C的网络类垂直搜索引擎 数据采集技术.doc


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
浅谈基于C的网络类垂直搜索引擎 数据采集技术.doc浅谈基于C#的网络类垂直搜索引擎数
据采集技术
浅谈基于C#的网络类垂直搜索引擎数据采集技术
(-)研究背景。互联网发展十余年,在这十余年的市场培育,发展的方向始 终跟随者web用户的脚步,用户希望能有一种软件能在一定区域上对信息的智 能采集和加工,从而来提高工作效率,因此采集技术在不断的更新,采集软件也 随之备受欢迎。
(二) 开发背景。如今的互联网,遍及全球,发展迅猛,信息在不断 的更新,Internet信息库变得十分庞大。Web信息都是以网页的形式,通过浏览 器被用户查看。目前搜索引擎技术发达,Web用户都会通过搜索引擎搜索关键 词来查找自己想要的信息,但查到的结果不尽人意,包含了很多不相关的页面, 还要自己认真查找,因此要直接查找自己想要的精确信息非常困难。
(三) 研究意义。网络上的信息非常丰富,数据类型多样,不断更新、 不断变化,如何迅速的、准确的获取到自己需要的数据,有价值的信息,变得越 来越难。如何充分的利用网络信息资源进行方便快速的检索,从而引岀搜索引擎 技术,它们与网络技术和信息技术一起,在发展和使用中逐步完善。企业及个人 网站需要在百度上有个好的排名,就必须运用到SEO相关的技术,其中更新网
站信息是最主要的,但这需要太多的时间与人力,该网络类数据采集引擎就可以 避免公司及个人的成本,并且可以提高工作效率。
二、 系统调研与可行性分析
(-)现状调研。随着网络的发展,网络创业也成了现在的主流。但 这些离开不了搜索引擎的作用,因为要有流量就得要排名,要有排名就得跟着各 大搜索引擎的步法走,走偏了,就得受罚。不管做网站还是做推广少不了信息的 获取,但是获取具有相对性高的信息是比较费时间和人力的,因此采集引擎发挥 了很大的作用并得到广泛的应用。
可行性分析。现在大多数的信息的采集主要是为手工处理,很 多重复操作,而且是容易找到许多不相关的信息,该网络类垂直搜索引擎数据采 集软件的使用是否可以解决以上问题,就要对软件进行可行性分析。一般软件的 可行性分析会对以下方面进行:(1 )技术可行性:程序运行采集信息时采用的是 多线程处理,使处理速度更快。(2)经济可行性:在设计该软件时不需要太多的 成本,也不需要太多的人力投入,需要连接网络。(3)运行上可行性:虽然本软 件使用的是多线程处理,消耗的相对比较大,但是现在一般的电脑都可以运行。
(4)从社会需求上分析:更新信息本来是个工作量大的工作,该软件就可以避 免这个问题,可以降低工作强度,提高工作效率。
三、 系统相关技术简介
(-)垂直搜索引擎。随着互联网信息的日益发展、不断庞大,精确 获取信息的难度越来越大,那么怎样在大量的信息中找到自己想要的信息,成为 了一个迫在眉睫的问题,需要新的技术、新的理念来解决这个棘手的问题,因此 搜索引擎的出现成为了必然伺时也开始影响着我们的需求,影响着我们的生活。
由于普通的、通用的搜索引擎有着查询的信息量很大、但目标不够准确、有许多 重复的内容或根本无关紧要的内容,而且搜索出的信息深度不够等缺点,所以为 精确的搜索出需要的信息,满足用户的需求,从而诞生了垂直搜索引擎。
(二) 搜索引擎爬虫。搜索引擎爬虫是一种按照一定网页资源无关性、 覆盖率数据结构型、语义检索等自动抓取网络资源的程序,它的执行过程和网络 爬行很相似。

浅谈基于C的网络类垂直搜索引擎 数据采集技术 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人蓝天
  • 文件大小86 KB
  • 时间2021-06-29