查看原文
其他

程序员爬虫竟构成犯罪?

AiLPHA大数据 安恒信息 2022-05-12

安恒信息

网络安全前沿资讯、 应急响应解决方案、技术热点深度解读

关注


近期,最高人民法院发布第一批涉互联网典型案例《利用网络爬虫技术抓取他人数据构成不正当竞争》,该案例的判决书把爬虫与反爬虫的话题再次提上公众的视野。


事件回顾

2013年6月,深圳某米科技有限公司发布并运营一款名称为“某客”的实时公交APP。因而具有定位精度高、实时误差小等明显优势,使得“某客”APP在短时间内即在实时公交领域异军突起。“某客”APP现拥有超过5000万用户,每日活跃用户超过400万,被用户及媒体誉为“公交神器”和“上班族必备神器”。


2015年11月左右,某光公司为了提高其开发的智能公交“某了”APP在中国市场的用户量和信息查询的准确度,公司授意五位程序员利用网络爬虫软件获取“某客”公司服务器内的公交车行驶信息、到站时间等实时数据。日均可达 300-400 万条。


某米公司将某光公司告上了法庭。最终判决赔偿经济损失及合理维权费用50万元


想必看到这里,大家最为关心的问题是那五位程序员会获罪吗?


南山区人民法院153号刑事判决书认定他们须承担连带责任,最严重一人判处有期徒刑三年,缓刑四年,处罚金人民币十万元,最轻一人判处有期徒刑一年四个月,缓刑二年,并处罚金人民币三万元

 

由此事件引发的两个问题的思考


一、如何防止公司的数据被爬取,能做到告警取证维护自身权益?


AiLPHA大数据实验室解决方案


AiLPHA大数据实验室对于网络爬取问题采用AI(人工智能)分析,通过长时间的机器学习训练选取一周时间作为时间窗口,使用ARMA模型对网站访问量,数据调用API接口等数据进行随机性变化的时序分析;并创建UEBA(用户行为画像)帮助发现异常行为。

网络爬虫现象往往会出现以下现象:

1.网站访问量出现持续性异常;

2.数据调用API接口持续性请求数过多;

3.数据库出现大量长时间连接;

4.数据接口请求频率标准差较小;

5.数据返回包大小的标准差较小。

 

某客户现场发现的爬虫行为


研究还发现任意时刻的正常访问数据与前几周同时刻数据符合高斯分布,而对于爬虫这种机器行为往往会出现在+ 3-sigma 内,符合3-sigma法则(68-95-99.7法则,用于对已知平均数和标准差的正态分布数据进行快速推算。)的异常检测。对于爬虫行为具有较高的判别度。


这种检测方式已经申请两个专利。


一种基于行为触发的防御链路耗尽型CC攻击的方法,专利号:201610369623.5


一种网络流量异常检测方法及系统,专利号:201710803213.1


平台还具备攻击者取证,帮助记录下攻击者的行为,在捍卫自己权益时作为有力证据。


某客户现场发现的内对外攻击取证


二、如何防止公司员工去爬取别人的数据,危害公司名誉?


传统安全设备只针对外对内视角进行分析,AiLPHA大数据智能安全平台对攻击视角进行分类,具备外对内视角,内对内视角,内对外视角。当内对外视角触发告警,公司内部需谨慎对待,查看是否有员工在对外攻击,谨防对公司形象造成影响。



上周热门文章TOP3



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存