2020年python爬虫.doc

文档分类：IT计算机 | 页数：约85页举报非法文档有奖

文档列表 文档介绍

第一章零基础入门0×00介绍爬虫技术是数据挖掘,测试技术的重要的组成部分,是搜索引擎技术的核心。但是作为一项普通的技术,普通人同样能够用爬虫技术做很多很多的事情,比如:你想了解一下FreeBuf所有关于爬虫技术的文章,你就能够编写爬虫去对FreeBuf的文章进行搜索,解析。比如你想获得淘宝某类商品的价格,你能够编写爬虫自动搜索某类商品,然后获取信息,得到自己想要的结果,每天定时爬一下自己就能够决定在什么时候低价的时候买下心仪的商品了。或者说自己想收集某类信息集合成自己的数据库,但是手动复制粘贴特别的麻烦,这时候爬虫技术就能够帮上大忙了对不对?0×01要求那么本系列文章旨在普及爬虫技术,当然不是那种直接拿来爬虫框架来说明的。在本系列文章中,笔者尽力从简到难,简明地介绍爬虫的各种要素,怎么样快速编写对自己有用的代码。但是对读者有一定小小的要求:看得懂python代码,然后自己能动手实践一些,除此之外,还要对html元素有一定的了解。0×02你能学到什么?当然爬虫的文章在网上很容易找到,但是精致,系统地讲解的文章还是比较少,笔者在本文和今后的文章将介绍关于爬虫的各种各样的知识:大致上,本文的写作顺序是单机爬虫到分布式爬虫,功能实现到整体设计,从微观到宏观。1. 简单模块编写简单爬虫2. 相对优雅的爬虫3. 爬虫基本理论以及一般方法4. 简单Web数据挖掘5. 动态web爬虫(能够处理js的爬虫)6. 爬虫的数据存储7. 多线程与分布式爬虫设计如果有读者想找一些爬虫的入门书籍来看,我推荐《webscrapingwithpython》,这本书是英文版当前没有中文译本,但是网上有爱好者在翻译,有兴趣的读者能够了解一下。0×03知识补充在这里的知识补充我其实是要简单介绍当前主流的几种爬虫编写用的模块:Htmllib(sgmllib),这个模块是非常古老的一个模块,偏底层,实际就是简单解析html文档而已,不支持搜索标签,容错性也比较差,这里指的提醒的是,如果传入的html文档没有正确结束的话,这个模块是不会解析的,直到正确的数据传入或者说强行关闭。BeautifulSoup,这个模块解析html非常专业,具有很好的容错性,能够搜索任意标签,自带编码处理方案。Selenium,自动化web测试方案解决者,类似BeautifulSoup,但是不一样的是,selenium自带了js解释器,也就是说selenium配合浏览器能够用来做动态网页的爬取,分析,挖掘。Scrapy框架:一个专业的爬虫框架(单机),有相对完整的解决方案。API爬虫:这里大概都是需要付费的爬虫API,比如google,***的解决方案,就不在介绍。笔者在文章中只会出现前三种方式来做爬虫编写。0×04最简单的开始最开始的一个例子,我将会先介绍最简单的模块,编写最简单的单页爬虫:Urllib这个模块我们这里用来获取一个页面的html文档,具体的使用是,Web=(url)Data=()要注意的是,这是py2的写法,py3是不一样的。Smgllib这个库是htmllib的底层,但是也能够提供一个对html文本的解析方案,具体的使用方法是:1. 自定义一个类,继承sgmllib的SGMLParser;2. 复写SGMLParser的方法,添加自己自定义的标签处理函数3. (data)把要解析的数据传入解析器,然后自定义的方法自动生效。importurllibimportsgmllib classhandle_html(): #unknown_starttag这个方法在任意的标签开始被解析时调用 #tag为标签名 #attrs表示标签的参赛 defunknown_starttag(self,tag,attrs): print"-------"+tag+"start--------" printattrs #unknown_endtag这个方法在任意标签结束被解析时被调用 defunknown_endtag(self,tag): print"-------"+tag+"end----------" web=("")web_handler=handle_html()#数据传入解析器(())短短十几行代码,最简单的单页面爬虫就完成了,以下是输出的效果。我们能够看到标签开始和结束都被标记了。然后同时打印出了每一个参数。接下来我们能够使用这种底层的解析方式来做个基础的小例子:下面这个小例子在标签开始的时候检查标签中的attrs属性,解析出所有的参数的href属性,知道的读者都知道这基本是被一个爬虫的必经之路。importurllibimportsgmllib classhandle_

2020年python爬虫来自淘豆网www.taodocs.com转载请标明出处.