爬虫触犯了我的底限 我要告你去

x
用微信扫描二维码
分享至好友和朋友圈

  前言:我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的。

  爬虫要违法了吗?告诉大家:守住规则,大胆去爬!

  爬虫要违法了吗?告诉大家:守住规则,大胆去爬!

  但不知为什么,抓取别人网站数据时,总会产生莫名恐慌生怕自己一不小心就侵权了,然后被关在小黑屋摩擦

  

  所以在这个时候,非常有必要仔细研究一下有关网络爬虫的规则和底线。

  我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的。

  哪些情况下网络爬虫采集数据后具备法律风险?

  当采集的站点有声明禁止爬虫采集或者转载商业化时;

  比如淘宝网,大家来看淘宝的声明。

  

  当网站声明了rebots协议时

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。

  robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

  如何查看采集的内容是的有rebots协议?

  其实方法很简单。你想查看的话就在IE上打http://你的网址/robots.txt要是说查看分析robots的话有专业的相关工具 站长工具就可以!

  爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

  举个例子:像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。但是像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次,铁总并不觉得很开心,这种就被定义为“恶意爬虫”。

  爬虫所带来风险主要体现在以下3个方面:

  违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;

  爬虫干扰了被访问网站的正常运营;

  爬虫抓取了受到法律保护的特定类型的数据或信息。

  解释一下爬虫的定义:网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。

  网络爬虫抓取的数据有如下规则:

  数据完全公开

  不存在也无法做到越权访问爬取

  常见错误观点:认为爬虫就是用来抓取个人信息的,与信用基础数据相关的。

  总的来说,技术本无罪,但是你利用技术爬取别人隐私、商业数据,那你就是蔑视法律了

  原文标题:爬虫触犯了我的底限 我要告你去

  原文链接:http://www.epx365.cn/peixun/software/201946229.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

跟贴 跟贴 0 参与 0
© 1997-2020 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

海薇站长网

SEO|教育培训|IT科技

头像

海薇站长网

SEO|教育培训|IT科技

9081

篇文章

2247

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码