极验实验室专家深度解析,网络视频版权保护的反爬虫策略

x
用微信扫描二维码
分享至好友和朋友圈

  

  为呼应4月26日世界知识产权日的到来,2019年4月18日下午,由企业级视频云引领者保利威(POLYV)与全球交互安全创领者GeeTest(极验)联合主办、创业邦协办的第19期视频极客沙龙,在北京创业邦DEMOSPACE成功举办,本次活动以“技术为盾 版权先行 ‘在线培训’视频版权乱象如何破局”为主题。

  在活动现场,四位业界专业人士:保利威技术副总裁粱瑛玮、极验交互安全实验室负责人闫定国、快版权联合创始人陈恩夫和北京盈科律师事务所王晔律师,分别从视频版权保护技术、反爬虫策略、一体化版权保护和版权法律保护的角度,就如何更好地保护“在线培训”视频的版权做了颇有洞见的精彩分享。现场互动积极,反响热烈。

  接下来我们会以四篇文章分别为您一一解析4位专业人士在活动中所分享的真知灼见,以飨读者。敬请期待。

  闫定国

  极验交互安全实验室负责人。曾为平安、华为、新东方、万达集团等多家创新公司提供安全防护服务,长期跟进黑产研究,有丰富的反作弊、反爬虫对抗经验。

  演讲主题:反爬虫在教育培训视频版权领域的策略探析

  闫定国就恶意机器流量目前在国内的现状、在视频领域反爬虫的对抗策略两个方面进行了分享。他谈到极验通过构建完整的防御架构,从设备环境检测、海量风险库、网络风险探测、人工智能模型4个方面对抗黑产的攻击。

  与粱瑛玮着眼于视频资源本身的防护不同,闫定国更多是从黑产攻击者作案手法的角度上谈对抗策略。

  极验成立于2012年,专注于业务安全领域,主要工作是与全国大概100万专业黑产从业者进行对抗。截至2018年,服务超过26万家客户,为企业服务754625个服务的场景、3943亿服务交互量,包括防御维护是788亿次的机器的防护量。

  极验交互安全实验室的主要工作有三个部分:1、研究报告;2、黑灰产调研。主要根据前沿黑灰产主流的技术,包括软件层面还有硬件层面的技术;3、行业解决方案。根据不同行业的不同业务痛点制定专业的解决方案。

  国内机器流量占比

  从2016年到2018年3年国内机器流量的占比情况看,机器流量占比逐年递增,目前整个互联网上的流量将近50%的流量全部都是机器流量。

  其中,恶意机器流量占到了20%,大多数都是爬虫,或者一些攻击者产生的流量。目前产生的所有互联网流量中,将近1/5的流量全是恶意的流量,在破坏整个互联网的生态。

  机器流量特性

  1、持续性。

  一是某些企业的业务逻辑决定了机器流量的持续性;二是许多无人管理的爬虫长时间对互联网资源产生消耗。极验检测出来的很多爬虫将近有10年时间无人管理,也许就是大学生做的毕业设计,毕业后便无人管理了。

  2、普遍性。

  随着这几年资产不断从线下转到线上,加之大数据、深度学习的兴起,非常多的大数据公司出现,稍微有些价值的数据都会被爬去做数据分析。大数据公司爬取的数据越来越多,逐渐滋生了很多数据流量。

  3、行业性。

  机器流量的差异与不同的行业有关。从整个恶意流量在全国的行业的分布看,票务网站最多,占到23.6%,其次是政府公共服务占到15.8%,视频和直播排第5占到了7.6%。

  恶意机器流量IP来源

  现在整个黑产攻击者已经产业化、专业化。

  极验监测到的所有恶意IP流量,将近3/4都是来自云服务商,占75.4%。黑产攻击者在阿里云、腾讯云上租赁服务来进行爬虫,都是分布式的爬虫,效率非常高。其中,云服务商具体占比,阿里云占了一半多54%,剩下的分布在腾讯云(23%)、电信云(4%)和其他云服务商(11%)中。

  爬虫主要路径 搜索视频文件,定位视频源URL,最后只要模拟请求进行批量的下载,就完成了整个从网上自动化下载批量视频的流程。

  整体防御架构

  通过白名单和黑名单机制。用户发出请求后,白名单用户可以继续访问,黑名单用户被封禁。

  而对于其他未知用户,通过四层智能拦截模型,对用户作出判断,请求是否合法,访问是否有风险。判断为无风险用户可以继续访问。对于判断为有风险的用户会根据不同情况作出相应的四种决策进行应对。

  四层智能拦截模型

  1、设备环境检测

  基于多维度终端环境信息,区分真实用户与机器流量。针对访问环境,综合评定风险。JS 加密处理,安全性更高。区分恶意脚本、模拟器、无头浏览器。

  2、海量风险库

  将网页访问数据与风险库海量数据进行智能分析比对。有IP风险库、设备指纹库。通过大量的积累,自身积累或者向第三方购买,如果拥有百万或者千万数量级的黑产常用的IP库,攻击者一旦访问就可以发现。

  3、网络风险探测

  对 HTTP 协议特征进行持续的探测判断。从传输层检测风险,利用机器学习分类风险协议和正常协议,增加恶意爬虫工作成本。

  4、人工智能模型

  利用 CNN 进行攻击模式识别,对业务事件中产生的轨迹等行为数据建模分析。流量的全站持续学习,发现细微之处的潜在风险。用户浏览轨迹检测,智能区分人与爬虫。

  目前爬虫和反爬虫的对抗十分激烈,黑产也很专业,有一条完整的产业链。之所以用四层拦截模型、而且每一层中有很多规则,目的在于尽可能地将这个链条拉长,如此,总有黑产发现不了的点,黑产总会露出马脚,我们可以进行应对。与黑产的对抗是一个持续的过程,需要多维度结合,因为无法从技术上单点突破、一劳永逸。

  四种应对决策

  1、监控模式。

  暂时不对风险用户做风控,而是监控,将其打标记。待需要处理的时候可以直接封禁。

  2、验证码模式。

  检测到风险后,通过弹出验证码进行阻隔,因为机器无法通过验证码。

  3、封禁模式。

  将风险用户的账户、IP直接封禁,不允许其访问网站。

  4、假数据模式。

  不将风险用户直接封禁,而是制造一些假数据让其爬走。这种模式是对攻击者最有力的反击,攻击者的分类成本会很大。

  最后闫定国表示“世界上不存在绝对的安全,所有的对抗本质上都是成本的对抗”。线上根本不存在绝对的安全,需要不断地博弈对抗。如果黑产爬取视频的收益得不偿失,那么便不会去做。

  更多推荐 视频领域今年将有哪些5G应用落地 如何搭建浏览器视频会议直播系统 线上教育大趋势下的大牛教育 教育行业掘金4K,这些知识您一定要懂

  全文完

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

跟贴 跟贴 1 参与 1
© 1997-2020 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

POLYV保利威视频云

让视频传递价值!

头像

POLYV保利威视频云

让视频传递价值!

353

篇文章

36

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码