如前面所述,我们上手写了空姐网爬虫,糗百爬虫,先放一下传送门:
Python网络爬虫requests、bs4爬取空姐网图片
Python爬虫框架Scrapy之爬取糗事百科大量段子数据
Python爬虫框架Scrapy架构和爬取糗事百科段子结果
还有Python爬虫框架Scrapy解密的文章:
Python爬虫框架之Scrapy详解
这几篇文章都是即时编写代码并且发布文章的,代码百分百能运行起来。
接下来,我们看一下这几个爬虫运行的结果与源码。
结果:
糗百段子数据结果
糗百爬虫使用了Scrapy,把爬取的段子数据存入到了MongoDB中。核心代码如下:
qiubai Spider
我们看一下上面糗百爬虫的运行结果:
qiubai结果
源码
糗百爬虫源码放在我的github上:https://github.com/ychenracing/Spiders/tree/master/qiubai
喜欢的可以给个star,源码有问题的话或者建议,欢迎提issue或者pull request。
空姐网图片结果
空姐网的爬虫足够简单,使用了Python第三方库requests和BeautifulSoup 4,代码也足够简洁,适合学习。核心代码如下:
kongjie Spider
爬取的图片保存在本地文件夹中:
kongjie结果
源码
空姐爬虫源码放在我的github上:https://github.com/ychenracing/Spiders/tree/master/kongjie
喜欢的可以给个star,源码有问题的话或者建议,欢迎提issue或者pull request。
XXX爬虫
不说了,自己去github上看。有惊喜。
最终源码地址:
https://github.com/ychenracing/Spiders
代码有问题的话或者建议,欢迎提issue或者pull request,互相学习。
之后会发出更多的爬虫学习文章!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.