不慌, 带你透彻了解爬虫类型

x
用微信扫描二维码
分享至好友和朋友圈

  

  爬虫

  大数据时代下,数据采集推动着数据分析,数据分析推动发展。爬虫作为获取数据最基础最简单的手段被广泛应用。但是你真的了解爬虫吗?在运作过程中应该选择哪种类型的爬虫?这些决策建立在你对爬虫的了解以及自己的需求之上。

  1.深层网络爬虫(Deep Web Crawler)

  表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页

  深层网页:隐藏在表单后面,不能通过静态链接直接获得,是需要提交一定的关键词之后才能够获取得到的网页。

  深层网络爬虫最重要的部分即为表单填写部分

  深层网络爬虫的基本构成:URL列表,LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)爬行控制器,解析器,LVS控制器,表单分析器,表单处理器,响应分析器等

  深层网络爬虫表单填写有两种类型:

  基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写)

  基于网页结构分析的表单填写(一般是领域只是有限的情况下使用,这种方式会根据网页结构进行分析,并自动的进行表单填写)

  2.增量式网络爬虫(Incremental Web Crawler)

  增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方则不更新

  只爬取内容发生变化的网页或者新产生的网页,

  一定程度上能保证所爬取的网页,尽可能是新网页

  3.通用网络爬虫(General Purpose Web Crawler)

  爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。

  通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。

  通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。

  4.聚焦网络爬虫(Focused Crawler)

  将爬取目标定位在与主题相关的页面中

  主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务

  聚焦网络爬虫的基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成

  聚焦网络爬虫的爬行策略:

  基于内容评价的爬行策略

  基于链接评价的爬行策略

  基于增强学习的爬行策略

  基于语境图的爬行策略

  关于聚焦网络爬虫具体的爬行策略

  但无论何种爬虫,在抓取数据的过程中都会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP极光软件访问网站等一系列问题。

  极光IP代理,助力大数据时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

跟贴 跟贴 4 参与 104
© 1997-2020 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

极光头条

专业的全局ip代理。

头像

极光头条

专业的全局ip代理。

103

篇文章

36

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码