网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

杭州Python爬虫好学吗？

2019-03-28 14:43:03　来源: 杭州千锋举报

0

分享至

Python爬虫好学吗？看你怎么学了。如果是自学，会难一些，毕竟有难题很难找到人帮你解答，很容易半途而废。要是你找到了一家靠谱的学校，就会容易很多。不过，这里我想教你入门Python爬虫。

一：爬虫准备（在安装好Python的前提下）

1.爬虫首先需要做的事情就是要确定好你想要爬取数据的对象，这里我将以百度主页logo图片的地址为例进行讲解。

2.首先，是打开百度主页界面，然后把鼠标移动到主页界面的百度logo图标上面，点击鼠标右键，然后点击审查元素，即可打开开发者界面。

3.然后再下面的界面里面，可以看到该logo图标在HTML里面的排版模式，<img hidefocus="true" src="//百度/img/bd_logo1.png" width="270" height="129">，这里百度我用字替换了。

二：开始爬虫

1.爬虫主要分为两个部分，第一个是网页界面的获取，第二个是网页界面的解析；爬虫的原理是利用代码模拟浏览器访问网站，与浏览器不同的是，爬虫获取到的是网页的源代码，没有了浏览器的翻译效果。

2.首先，我们进行页面获取，python爬虫的话很多模块包提供给开发者直接抓取网页，urllib，urllib2，requests（urllib3）等等，这里我们使用urllib2进行网站页面的获取；首先导入urllib2模块包（该包是默认安装的）：import urllib2

3.导入模块包之后，然后调用urllib2中的urlopen方法链接网站，代码如下repr = urllib2.urlopen("XXXXXX"),XXXXXX代表的是网站名称。

4.得到网站的响应之后，然后就是将页面的源代码读取出来，调用read方法，html = repr.read()

5.获取到页面的源代码之后，然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来，解析界面的模块包有很多，原始的re，好用的BeautifulSoup，以及高大上的lxml等等，这里我就简单的用re介绍介绍，首先导入re模块包：import re

6.然后进行利用re进行搜索，这里我有使用正则表达式，看不懂的同学需去补充点正则表达式方面的知识。

7.然后，我这里就实现了一个简单的爬虫流程，打印url，可以看见刚好就是之前我们看见的百度主页logo的地址。

8.源代码：

import urllib2

repr = urllib2.urlopen("URL")

html = repr.read()

import re

省略一行代码

print url

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

伊朗伊斯兰革命卫队：所有基地处于最高级别战备状态

环球网 2024-04-19 11:16:06
11847 跟贴 11847
马斯克：贪婪的最高表现是独载，权利才是剥削的最大根源！

世态言凉 2024-04-19 14:52:52
13457 跟贴 13457

广交会只来了一帮挑剔的贫穷国家

君子天道 2024-04-19 21:04:12
1191 跟贴 1191

朝鲜全新国家宣传曲公布：片中演员将金正恩称为父亲

青蛙视频 2024-04-19 18:33:24
19581 跟贴 19581
乌军用S-200导弹首次击落俄军Tu-22战略轰炸机，俄飞行员面临挑战

山河路口 2024-04-19 16:01:46
5529 跟贴 5529

欧盟泼脏水：中国在俄乌冲突中坐山观虎斗还下场了

观察者网 2024-04-19 10:43:11
6938 跟贴 6938

一女子站在桥边哭泣留下手机，随后跳下河！

爆料视频 2024-04-19 13:37:25
6099 跟贴 6099
农业农村部：正会同有关部门编制逐步把永久基本农田全部建成高标准农田实施方案

人民资讯 2024-04-19 14:08:53
1978 跟贴 1978

上海首个市中心地下19层停车场迎来新进展

新闻坊 2024-04-19 08:13:40
392 跟贴 392
以总理执意要对伊朗强硬回应背后:整个以色列陷入困境

中国新闻周刊 2024-04-19 21:03:12
1538 跟贴 1538
哈尔的移动炒粉摊，正炒着粉城管来了摊主边炒边走

青梦白话 2024-04-19 15:09:40
2943 跟贴 2943
广交会吸引12万名境外采购商，俄罗斯客流显著增加

界面新闻 2024-04-19 13:59:28
550 跟贴 550
两大家族开撕？菲第一夫人公开指责副总统：不道歉，这事就没完

鲁中晨报 2024-04-19 22:29:07
397 跟贴 397
中国人民解放军信息支援部队成立大会在京举行

央视新闻客户端 2024-04-19 18:50:27
509 跟贴 509
拜登自称的家族三件事，是否三大瞎话，逗你玩！

新民晚报 2024-04-19 08:44:24
953 跟贴 953
渣打在香港挂出10%的存款利率，以吸引内地资金

南方都市报 2024-04-19 15:12:10
1688 跟贴 1688
这段视频看得生气！浙江一越野车驶入麦田来回碾压，车主找到了，他竟这样说

都市快报橙柿互动 2024-04-19 21:15:56
2384 跟贴 2384
证监会：支持内地行业龙头企业赴港上市

中国证监会网站 2024-04-19 18:39:53
1756 跟贴 1756
中国人为了争取双休日，花了40年

解释 2024-04-19 18:44:29
1313 跟贴 1313
联合国安理会上，不满美以霸道行径，阿拉伯国家代表愤然离席

中国国情 2024-04-19 10:51:55
1116 跟贴 1116
国奥0-2不敌韩国U23遭2连败，提前1轮出局，连续5届亚洲杯不出线

中超伪球迷 2024-04-19 23:03:24
1006 跟贴 1006

挑衅郭麒麟5年后，再看朱亚文在内娱的处境，黄渤全说对了

挑衅郭麒麟5年后，再看朱亚文在内娱的处境，黄渤全说对了

小米亚的故事

2024-04-19 20:32:13

一个理发都要预约的国家，居然敢谈制度和文化自信？

一个理发都要预约的国家，居然敢谈制度和文化自信？

小刀99

2024-04-18 15:08:58

昏迷6年，妻子拒绝让舒马赫安乐死，身高缩水至1米6，花20亿保命

昏迷6年，妻子拒绝让舒马赫安乐死，身高缩水至1米6，花20亿保命

南风西洲

2024-04-19 22:42:09

母子情深！28年来每晚与母亲共枕，他们的亲密举动让人瞠目结舌！

母子情深！28年来每晚与母亲共枕，他们的亲密举动让人瞠目结舌！

户外阿崭

2024-04-11 22:37:39

澳门世界杯20日赛程：张本兄妹挑战国乒6人，孙颖莎陈梦争决赛权

澳门世界杯20日赛程：张本兄妹挑战国乒6人，孙颖莎陈梦争决赛权

宝哥精彩赛事

2024-04-19 23:58:45

又一房企兜不住了！大面积商票逾期、多项目延期

又一房企兜不住了！大面积商票逾期、多项目延期

青岛优选

2024-04-19 11:38:21

主动投案！黑龙江一国企党委书记、董事长涉嫌严重违纪违法！

主动投案！黑龙江一国企党委书记、董事长涉嫌严重违纪违法！

喜哈生活

2024-04-19 21:28:15

ESPN专家团预测太阳VS森林狼：太阳遭淘汰一半人认为会抢七！

ESPN专家团预测太阳VS森林狼：太阳遭淘汰一半人认为会抢七！

直播吧

2024-04-20 05:08:12

以色列攻击伊朗，我国的米波雷达莫名“躺枪”！什么情况？

以色列攻击伊朗，我国的米波雷达莫名“躺枪”！什么情况？

科普大世界

2024-04-19 22:42:34

娃哈哈的"后宗庆后时代"：宗馥莉、宗婕莉、宗继昌首次交集被关注

娃哈哈的"后宗庆后时代"：宗馥莉、宗婕莉、宗继昌首次交集被关注

财经九号

2024-04-19 18:14:24

一天下完一年雨！迪拜洪水滔天，但更揪心的是联合国预测的上海

一天下完一年雨！迪拜洪水滔天，但更揪心的是联合国预测的上海

北国向锡安

2024-04-19 07:09:09

丁真北京出发，打扮时髦气质爆表，不愧是全网公认的异域美男子！

丁真北京出发，打扮时髦气质爆表，不愧是全网公认的异域美男子！

独特的文史

2024-04-19 21:55:44

33岁羽毛球奥运冠军荣升副厅级领导，亮相发布会，还是大学副教授

33岁羽毛球奥运冠军荣升副厅级领导，亮相发布会，还是大学副教授

米修体育

2024-04-19 12:40:21

范冰冰泰国三轮车上站1天600万？落魄吗？给你600万你做吗？

范冰冰泰国三轮车上站1天600万？落魄吗？给你600万你做吗？

阿SIR观察

2024-04-17 10:26:14

全球同时收到坏消息！泽连斯基宣布爆炸性消息，俄乌局势要变天了

全球同时收到坏消息！泽连斯基宣布爆炸性消息，俄乌局势要变天了

诉人世间

2024-04-17 03:00:03

商务部：贸易保护主义势头上升，外贸企业普遍反映有的国家把贸易问题政治化

商务部：贸易保护主义势头上升，外贸企业普遍反映有的国家把贸易问题政治化

澎湃新闻

2024-04-19 16:36:54

4名韩国人在泰国泼水节偷东西，被抓后自称“中国人”企图逃跑

4名韩国人在泰国泼水节偷东西，被抓后自称“中国人”企图逃跑

这里是东京

2024-04-19 15:45:27

“老虎”被诉！国开行原副行长王用生被控“非法收受财物，数额特别巨大”

“老虎”被诉！国开行原副行长王用生被控“非法收受财物，数额特别巨大”

政知新媒体

2024-04-19 15:30:31

热议国奥：整体踢得不错；能接受输，但不接受被这水平的韩国击溃

热议国奥：整体踢得不错；能接受输，但不接受被这水平的韩国击溃

直播吧

2024-04-19 22:04:50

谷歌华裔女职工在抖音狂炫公司福利，结果一觉醒来被裁员瞬间泪崩

谷歌华裔女职工在抖音狂炫公司福利，结果一觉醒来被裁员瞬间泪崩

惊喜连连娱乐

2024-04-19 05:54:30

IT行业技术交流

1329文章数 75关注度

往期回顾全部

科技要闻

最沉默的李想，最便宜的理想

头条要闻

媒体：以色列对伊朗的反报复刀刀见血要真的打痛伊朗

头条要闻

媒体：以色列对伊朗的反报复刀刀见血要真的打痛伊朗

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜，内娱女星千娇百媚

财经要闻

新华资管香港的秘密：猛投地产或致巨亏

汽车要闻

风神L7预售东风汽车北京车展阵容公布

态度原创

手机

本地

房产

旅游

公开课

手机要闻

一加Ace3 Pro再次被确认：骁龙8 Gen3+1TB，家族式设计也改了！

本地新闻

春色满城关不住｜千阳春日限定美景上线了！

房产要闻

国企下场，海口疯狂抢地！

旅游要闻

西宁“下南关”：高原老街的烟火气

公开课

睡前进食会让你发胖吗？

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版