谷歌开源robots.txt正推动官方网络爬虫标准

x
用微信扫描二维码
分享至好友和朋友圈

  

  据外媒报道,谷歌希望将几十年前的拒绝蜘蛛协议 (REP)变成为官方互联网标准。为了推动该项计划,谷歌正在制作自己的 robots.txt 解析器开源。

  据venturebeat介绍,早在 1994 年,荷兰软件工程师Martijn Koster就提出了REP标准,它几乎已经成为网站用来告诉自动爬虫程序的哪些部分不应该被处理的标准。例如谷歌的网页抓取机器人Googlebot(类似百度蜘蛛)在为网站建立索引时会扫描robots.txt文件,以检查应该忽略哪些部分的特殊说明。它最大限度地减少了无意义的索引,有时会隐藏敏感信息。此外,这些文件并不仅仅用于给出直接的爬行指令,还可以填充某些关键字,以改善搜索引擎优化,以及其他用例。

  不过,谷歌认为需要对其爬虫技术进行改进,该公司正在公开寻找用于解码robots.txt解析器,试图建立一个真正的网络爬行标准。理想情况下,这将从如何揭开robots.txt文件神秘面纱,并创造更多通用格式。

  谷歌倡议向国际互联网工程任务组提交自己方法,将“更好地定义”爬虫应该如何处理 robots.txt,并减少一些意外。

  该草案并不完全可用,但它将不仅适用于网站,还包括最小文件大小、设置最大一天缓存时间以及在服务器出现问题时让网站休息。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

跟贴 跟贴 0 参与 0
© 1997-2020 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

博美娱记

娱乐手记

头像

博美娱记

娱乐手记

2626

篇文章

901

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码