网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Day03一步步教你爬取上市公司数据实例（上）—Python爬虫基础

2019-07-07 19:14:29　来源: 学点新技能举报

0

分享至

此文基于前几天的内容所讲，如果中间遇到看不懂的，请参阅之前三篇文章： Python环境配置 、 Requests和Post基础 、 Xpath基础 。

目的：获取股票的基本信息和详情页的部分信息。

一、导入库

打开Jupyter Notebook，新建一个Python 3文件，先导入需要的库文件。

二、数据平台

上市公司，顾名思义，就是有可公开交易股票的公司，这些信息肯定是在某个网站摆着的。

我们选取这个网站上的数据，点击大数据—>上市大数据。

点击深沪股票—>按市场分类。

默认为沪市A股，有1435个股票，每页显示200个。

总共8页，但你会发现网址竟然是一样的，也就意味着这不是真正的网址。

三、获取某个股票信息的某个内容

先返回到第1页（也可以不返回），右键检查，右边点击Network，左边点击第2页，右边在XHR—>Name里找到文件点击，可以看到Request URL（网址）和Method（方法）。

你可以点击左侧不同的市场（上图红色）和页码（上图紫色）来验证看看Request URL的不同；黄色部分是访问序号，每次刷新（F5）都是不一样的，可以忽略。

有了Request URL和Method，我们就可以写出以上代码，实例化后，就可以进行网页源代码解析了。

我们把刚才的网址在浏览器打开，在其中一个股票代码上右键检查，把鼠标移到右侧打开的元素Elements列表里淡蓝底显示的内容上，右键选择Copy点击Copy XPath。

点击打开浏览器插件Xpath Helper，在左侧方框内粘贴，右边就显示了刚才点选的股票代码，这样能够快速的得到路径表达式。

如果你看了前面的文章没忘的话，text()函数是提取元数据的；上一篇文章提过一次，加上[0]输出为字符串，不加是列表，因为此列表元素是从零开始，且只有这一个元素，这次把不同的结果显示出来，一定要注意。

四、获取当前页面的200个股票信息

我们往上回两级（回一级td是每个股票的不同内容），每一个tr对就代表着一个完整的股票信息，总共有200个，上图中获取了其中一个tr的路径表达式。

通过xpath函数获取200个股票的tr标签，后面的一长串是16进制的内存地址。

为了把每个tr对里的内容提取出来，我们用for循环，把相对应的内容（键值）放到字典的键名中。

for循环第一次：tr（for循环一般用i当自变量，这里用tr为了和标签同）相当于 //*[@id="tblBody1"]/tbody/tr[1] ，到股票代码等号右边的时候相当于 //*[@id="tblBody1"]/tbody/tr[1]/td[5]//text()。tr后面数字从1到200变化，td后面的数字从2到11，分别对应股票代码、股票名称、公司全称、所属省市、上市日期、成立日期、企业法人、注册资金(万元)、员工人数、主营产品。

五、获取某个股票详情页的内容

点击股票代码或名称进入详情页。

对比一看，网址最后部分就是该股票的代码。

还是和上面一样操作，点击某个需要的信息，右键检查，拷贝Xpath，忘了往上翻看第三部分，写出如上代码（依然在for循环里，仅循环了前三个）。

结尾

至此，此次目的完成，之后是如何导出的问题，因为不能每次都频繁的爬取吧，服务器会嫌弃你的，明天见！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

大象新闻 2024-04-24 23:13:48
2055 跟贴 2055
美参议院投票通过向乌克兰和以色列援助法案

央视新闻客户端 2024-04-24 09:46:12
44425 跟贴 44425

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

澎湃新闻 2024-04-24 14:56:28
7523 跟贴 7523

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

鹰眼Defence 2024-04-24 16:47:10
15595 跟贴 15595
沉默的日本，衰落的国运

枫冷慕诗 2024-04-24 19:57:46
1221 跟贴 1221

我国居民居住条件处于欧洲60年前水平，未来高层住宅必定都会被拆除

西虹市电台 2024-04-24 14:52:04
2442 跟贴 2442

美国首条"真正意义上的"高铁开工交通部长感慨

新民周刊 2024-04-24 12:12:17
3623 跟贴 3623
上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

椒点资讯 2024-04-24 19:16:33
21941 跟贴 21941

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

云姐闲聊 2024-04-24 17:15:35
9907 跟贴 9907
东契奇32分独行侠险胜快船1-1 欧文23分

网易体育 2024-04-24 12:59:28
4130 跟贴 4130
成都二环高架公交车道能否开放？已初步拟定方案

四川发布 2024-04-24 15:33:02
2147 跟贴 2147
太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

上观新闻 2024-04-24 17:26:26
6449 跟贴 6449
大v称"上海人民广场下面的店全关完了" 记者实地走访

新民晚报 2024-04-24 13:34:39
2499 跟贴 2499
19连跌！沪牌竞拍人数逐月下降，原因何在？

澎湃新闻 2024-04-25 06:56:30
259 跟贴 259
中部三省外贸失速，河南一季度手机出口减少1000万台

界面新闻 2024-04-24 16:04:27
2044 跟贴 2044
新疆群众向马兴瑞投诉“房屋质量导致出现的漏水”问题，官方这样给回复

西域故事 2024-04-24 22:32:36
0 跟贴 0
“准00后”的她，破格提拔为副镇长

鲁中晨报 2024-04-25 07:37:04
1 跟贴 1
利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

侃球熊弟 2024-04-25 04:59:32
4 跟贴 4
杨利伟获得钱学森最高成就奖

澎湃新闻 2024-04-24 13:11:49
3841 跟贴 3841
被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

财联社 2024-04-24 19:20:13
7974 跟贴 7974
NBA官宣年度奖项：里德当选最佳第六人击败蒙克波蒂斯成功捧杯

罗说NBA 2024-04-25 06:36:38
9 跟贴 9
为中小学教师减负官方部署专项整治工作

澎湃新闻 2024-04-24 11:34:31
6469 跟贴 6469
特斯拉在国内取消所有应届毕业生offer

南方都市报 2024-04-24 17:32:11
7702 跟贴 7702
庚欣：布林肯此次访华，可用4句话概括

直新闻 2024-04-24 19:17:33
1 跟贴 1
多地“天然气顺价”提速，居民用气价格确实在涨

第一财经资讯 2024-04-24 15:58:25
5082 跟贴 5082
捍卫王者地位决胜千里之外售价35.99万元 - 41.99万元全新GL8陆尊PHEV重磅发布

武汉交通广播 2024-04-25 09:40:02
135 跟贴 135
热火23三分灭绿军创纪录：队史第1+历史第3 无巴特勒仍冲黑八

醉卧浮生 2024-04-25 09:33:19
31 跟贴 31
文旅订单大增，北京领衔“五一”热门目的地

北京日报客户端 2024-04-25 10:37:42
81 跟贴 81
砥砺前行，携手共建美好未来

民间胡扯老哥 2024-04-25 06:25:05
901 跟贴 901
"铁娘子"史美伦辞任港交所新任主席定了年薪超400万

每日经济新闻 2024-04-25 07:29:35
0 跟贴 0

官方澄清！死得不冤！乔治续约哈登爆发？

官方澄清！死得不冤！乔治续约哈登爆发？

柚子说球

2024-04-25 12:04:56

4-2！曼联神逆转！奥纳纳送礼马奎尔连场破门+造点 B费2球1助

4-2！曼联神逆转！奥纳纳送礼马奎尔连场破门+造点 B费2球1助

念洲

2024-04-25 04:56:07

布林肯落地上海就摆架子，包也不拎了，越过中方人员与伯恩斯拥抱

布林肯落地上海就摆架子，包也不拎了，越过中方人员与伯恩斯拥抱

票姚校尉

2024-04-24 20:16:42

大搞政商勾连、权钱交易，安徽芜湖市发展和改革委员会原副主任凤海飞被“双开”

大搞政商勾连、权钱交易，安徽芜湖市发展和改革委员会原副主任凤海飞被“双开”

界面新闻

2024-04-25 11:22:10

曝盐城发改委处长勾引已婚妇女！辣眼聊天流出，女方曾手写保证书

曝盐城发改委处长勾引已婚妇女！辣眼聊天流出，女方曾手写保证书

飘飘视角

2024-04-24 17:35:52

曾宣称不再生产纯净水的农夫山泉又要卖纯净水？知情人士称初期出货几千万瓶

曾宣称不再生产纯净水的农夫山泉又要卖纯净水？知情人士称初期出货几千万瓶

第一财经资讯

2024-04-25 11:11:26

演绎电动豪华，全新奥迪Q6L e-tron强势登陆2024北京车展

演绎电动豪华，全新奥迪Q6L e-tron强势登陆2024北京车展

电动邦

2024-04-25 10:57:40

贾跃亭回应被周鸿祎吐槽：虽然只交付11台车，但却是原创！周鸿祎：先送辆车到360大厦

贾跃亭回应被周鸿祎吐槽：虽然只交付11台车，但却是原创！周鸿祎：先送辆车到360大厦

每日经济新闻

2024-04-24 17:46:19

SGA33+5！雷霆32分痛宰鹈鹕2-0，霍姆格伦26+7英格拉姆仅18分

SGA33+5！雷霆32分痛宰鹈鹕2-0，霍姆格伦26+7英格拉姆仅18分

湖人崛起

2024-04-25 12:02:43

纪云浩被免职后续：央媒发声，其家庭情况被扒，跨级提拔引热议

纪云浩被免职后续：央媒发声，其家庭情况被扒，跨级提拔引热议

180°视角

2024-04-24 12:00:10

“他闯红灯，凭什么要我负责？”交警的处罚引众怒，车主当场翻脸

“他闯红灯，凭什么要我负责？”交警的处罚引众怒，车主当场翻脸

吾爱纪实

2024-04-24 10:11:12

都跑了？继苹果、富士康后，特斯拉正式官宣，外媒：彻底不回头了

都跑了？继苹果、富士康后，特斯拉正式官宣，外媒：彻底不回头了

大卫聊科技

2024-04-24 22:00:03

19连跌！沪牌竞拍人数逐月下降，原因何在？

19连跌！沪牌竞拍人数逐月下降，原因何在？

澎湃新闻

2024-04-25 06:56:30

62岁老头将29岁女子带回家，当着其丈夫的面和她睡觉，结果被活活打死

62岁老头将29岁女子带回家，当着其丈夫的面和她睡觉，结果被活活打死

胖胖侃咖

2024-04-25 08:00:09

NBA官宣年度奖项：里德当选最佳第六人击败蒙克波蒂斯成功捧杯

NBA官宣年度奖项：里德当选最佳第六人击败蒙克波蒂斯成功捧杯

罗说NBA

2024-04-25 06:36:38

老美不敢干的事德国先做了？柏林宣布：将永久停止向中国提供优惠

老美不敢干的事德国先做了？柏林宣布：将永久停止向中国提供优惠

世态言凉

2024-04-24 16:07:26

轰6挂载神秘飞行器，美媒：与任何已知的解放军飞行器都不一样

轰6挂载神秘飞行器，美媒：与任何已知的解放军飞行器都不一样

空天力量

2024-04-24 14:15:03

反转！遭强奸的西班牙女网红回国后，揭露印度丑行：身上都是J液，被警方强行隔离

反转！遭强奸的西班牙女网红回国后，揭露印度丑行：身上都是J液，被警方强行隔离

不掉线电波

2024-04-24 17:58:59

苹果手机输入“发现石油”会自动定位？记者实测：安卓也这样

苹果手机输入“发现石油”会自动定位？记者实测：安卓也这样

南方都市报

2024-04-25 08:08:16

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

古希腊掌管松饼的神

2024-04-24 10:03:40

学点新技能

介绍本人学到的技能

338文章数 5643关注度

往期回顾全部

财经要闻

先涨价再降价，特斯拉“打脸”只用20天？

头条要闻

"陌生人"闯民进党记者会狂批4分多钟民进党切断直播

头条要闻

"陌生人"闯民进党记者会狂批4分多钟民进党切断直播

体育要闻

足智多谋的哈姆，温水里的青蛙

娱乐要闻

心疼！伊能静曝儿子曾被狗仔追到洗手间

科技要闻

美总统拜登签署剥离法案 TikTok发声明反对

汽车要闻

这灯效我能看半小时奥迪Q6L e-tron有备而来

态度原创

游戏

艺术

旅游

数码

时尚

《剑星》已偷跑数天！GameStop一位员工提前放货

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

旅游要闻

“宝总同款”？布林肯入住上海和平饭店总统套房

数码要闻

Linux 补丁表明 AMD 将推更多 Zen 5 Strix Point CPU

夏天，更适合穿蓝色呀

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版