下载此文档

关于搜索引擎及其开发.doc


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
关于搜索引擎及其开发作者:xwjbs来自:http://blog./xwjbs 转载的时候请注明作者和出处。没有作者的允许,严禁用于商业利益。 托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也已经工作了三年、四年。不过我估计,或者说是猜想,是不是做应用做的时间太长了,把数据结构、算法,时间、效率都扔到一边去了;然后平时的工作又太忙,平时自己工作的做的可以,但对工作相关的、稍微扩展的知识没有时间或者说是懒得去看了。。。。。  我的想法是,如果有兄弟姐妹要进入这个行业,最好对这个行业流行的想法、做法了解一些,如果不了解这些,就把数据结构和算法的基础课好好看看,或者说好好练练编程的基本功。搜索引擎开发涉及到了我们上学时学到的所有的东西。而且有些特别新的东西是没有书可以看得,有的只是经验,经过传承到了后进入者的手里;好的话,就是有论文,不过有价值的都是英文论文,国内的都是抄来抄去,不如直接去看他的原文(比如,也不知道哪个神仙把robust翻译成鲁棒性,放着健壮性之类的已经有的好词不用,非得翻译成这么一个上下不着地的词,而且现在还有逐渐流行的趋势。。。。)。不过,有本书叫做<<现代信息检索>>(MODERNINFORMATIONRETRIEVAL),写的挺好。 呵呵。其实我在搜索引擎领域做的时间也不是多长,从进中搜到现在有两年多一点。我把我的所学到的一点经验和平时的思考的东西写出来,与大家共同的切磋。写到哪里算是哪里,您就将就去看。 首先声明:我不是牛人,离我所认为的牛人还差不少,大家一块讨论,口下留人,大家拍砖头肯定可以把我拍死^_^。 按照目的的不同,搜索引擎分了两种:通用搜索(业内称为大搜索)和垂直搜索。网页搜索是大搜索,新闻搜索、论坛搜索是垂直搜索,酷讯的生活搜索之类的都是垂直搜索。 有人问我,现在google,baidu都在做搜索,而且做的很成功,他的胳膊伸长一点,哪还有其他的小厂商生存的余地?其实不光是搜索这个行业,其他的行业也存在、我们也可以提出相同的问题。但是,每年都有新的公司冒起来—即便是它所做的领域已经有了成功的公司,但是走在前边的成功公司并没有挡住后边新兴公司的路。我认为,市场的容纳能力和瞄准的市场不一样决定了这个。单纯以搜索领域来讲,google国外做的很成功并且不断扩张的的时候,中国的市场做的不是很好,百度抓住这个时间差让“百度更懂中文“成功占据了大部分的份额;当大搜索起来的时候,众多的垂直搜索已经开始兴起,特别是本地搜索部分,这是有每个人的日常生活密切相关的部分,是一个很大的市场。搜索领域的领头羊会把全部的精力都放在垂直搜索方面吗?我看不会。他们的任务是把自己在搜索领域的优势继续保持下去,君不见后来者居多,竞争非常激烈,特别是大搜索,搜狐的搜狗,QQ的,网易的有道。如果他们保持不了这个在行业内的领先地位,他们离着关门不远了。这是他们的已得市场,已得利益。这当然不是说他们不会扩张,他们会买很多的公司补充自己的不足,像google为了和百度的贴吧和百度知道竞争,投资迅雷,和天涯合作,花钱买来流量;百度忍受不了自己的用户在看着自己的贴吧的时候却在用QQ和msn交流,据说要做自己的即时通了。呵呵。而且,现在各个巨头也在开始做本地搜索,手机搜索。。。。不管行业如何,留给各个后来者的机会还有很多,市场很大,永远都有新想法诞生的可能。前提只有一个:不要跟巨头面对面的竞争,跟他们在他们的优势领域竞争不是找死吗?我们的老祖宗早就有以己之长,攻彼之短,只要你能跑在大船的前面,被收购也算是一个不错的选择,况且还有很多成为巨头的机会!巨头的优势在于资金和技术积累;劣势在于,庞大了以后掉头不易,要做的太多,还要小心翼翼的保持第一不被超越。而且,行业的繁荣才能有巨头的繁荣。珠穆朗玛峰只能出现在青藏高原上。 一般说,搜索引擎包括这几部分:下载(爬虫)子系统,数据预处理子系统,搜索服务,控制(及监控)部分。搜索引擎是一个比较新的行业,国内也掌握了核心的技术。所以,和做OA,做工作流,做核心层上的应用有些不同,系统无论是从规模还是性能上讲都有比较高的要求。咱们一个一个的说。 下载。互联网通过超链,每一个网页是一个点,然后点和点之间有关联,关联的注释就是链接文本,所有的链接组成了一个巨大的网。大搜索下载的任务就是把这些网的每一个点都保存到本地(当然这是说理论上,现在互联网的规模,恐怕google也无法把所有的东西都保存到本地)。这带来几个问题:。网络带宽资源是有限的,本地硬盘资源也是有限的,下载的时间也是有限制的,重复的下载系统受不了。,这种更新需要反映到本地硬盘上的数据。如何尽量及时的

关于搜索引擎及其开发 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wxc6688
  • 文件大小147 KB
  • 时间2020-02-27
最近更新