添加QQ群【878253767】进双11攻略群、漏洞群,教你如何省省省
淘宝APP搜【补贴打工人788】领双11【超级红包】
京东APP搜【红包到手966】领双11【惊喜红包】
学习python有一点时间了,在我的公众号上也发布了好几篇关于python学习的文章,也讲了下爬虫的基础知识,但是阅读量和推广量却让人很失望。。。后来我想了好多办法,想抓住用户的痛点,想知道用户到底喜欢什么东西。所以这次我换了一种办法来希望大家更好的更有兴趣的去学习python这个好玩的语言。
那就是通过爬一些网站,对其数据进行分析总结和输出,来发布一些用户喜爱的东西,都感兴趣的事情。
这次的素材是爬一个美图网站的美女图片,然后作为福利分享给大家。这个美图网站应该也不是很出名的,我是偶尔发现的美图网站,所以图片不一定多,但是原理都一样,大家可以爬一些有名的美图网站。
1.资源库的准备
资源库的准备这次用到的是requests+BeatifulSoup是比urlib和urlib2更先进的封装库,用起来也比较方便。需要的安装库有requests、BeatifulSoup、lxml,安装方法:在cmd下直接使用pip install requests即可,安装pip可参看跟我一起学python系列之python环境搭建
2.可能用到的一些知识讲解:
①int型数据转换成str数据:str(i)即可
②range(1,6) #代表从1到6(不包含6)
③for j in range(10) #表示从0循环到9
④Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3 哦!
④BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间
了解这些基本知识,剩下的就是对着源代码进行学习了,话不多说,主要是进行源代码进行敲一遍,然后观看结果。
3.代码截图如下,代码不长,30行搞定。
这次代码中起的名字有点low,简单对爬虫效率进行了优化,但是没有进行多线程以及更换IP等高层次的操作,代码会进行持续更新。
4.先说效果吧,不一会儿爬到600多张性感美女图片
为防止违规,我已经对其进行缩小化然后再进行模糊处理。如果想要美图的小伙伴可以私信找我哦。
5.先放一个爬出来的美女图片吧
PS:因为爬出来的图太污,小编不敢放上去,怕挨揍,想要的可以通过源码自己来取哈
总结:获取对应demo的源码和详细注释,可以公众号下回复“meitu”或者“美图”获取,想获得3.6万人体艺术美照+7万张漂亮美女照片+4万张模特照片,就关注我们的公众号进行留言哦