查看原文
其他

爬虫凶猛

向由 南风窗 2019-12-09


最近,大数据的生意危机四伏,负面消息既在报纸的社会版块,又频频出现在商业版块。


先来看看“社会版块”:


9月12日,网名叫“ooooviki”的女孩爆料,一名自称是网警的男子,利用职务之便找到了她,还搜集了很多她的个人隐私,比如身份证号码、家庭地址、电话号码等。这名男子展示了疑似她户籍信息的截图,被拒绝后,还对女孩进行“人身攻击”。


9月12日,网名“ooooviki”爆料称一名“网警”人肉其信息并要求与之交往


两天后,这被证明是一起“乌龙事件”。


调查此事的郑州市公安局在9月14日发布通报称,女孩所遭遇的是一次恶作剧。事件起因于女孩的男友,他下单购买了测试恋爱忠诚度的服务,想要试探女友,并将她的个人信息提供给了服务方。而服务方假扮成网警接近女孩,最后演变至此。


据通报,这起乌龙事件中的3人,都因涉嫌寻衅滋事接受了处罚。


虽说是虚惊一场,但在这场误会中,“情感分析”的生意浮出了水面。有媒体发现,事件发生过后,基于大数据分析系统的情感分析服务仍然在某些平台上售卖。


某平台上基于大数据分析系统的情感分析服务


它并不复杂,类似“婚前体检”,判断双方的身体状况是不是合适结婚。市面上也提供一种服务,可以搜索、汇集一个人的“网络大数据”,例如这个人在网上的所有发言记录,其公开账号和私密小号等等,据此判断这个人的人品、过往情感等等。


不过,这项工作有一定的技术门槛:得能写“爬虫”。


所谓的网络爬虫,是指平台按照一定规则,自动从互联网上提取网络信息的程序或脚本。有了它,短短数秒之内,就能够有针对性地、将一个人的上网痕迹储存下来。在这之后,针对储存的信息进行分类和分析,效率比起个人的搜索要高得多。


“爬虫”的能力不可小觑。一般情况下,“爬虫”在单个网站搜集到的信息,往往是不完整的,但它能够在多个网站中相互拼接、比对,最终得出完整的个人信息。


网络爬虫原理示意图(图源网络)


用一个例子说明:比如在某个外卖软件中,它隐藏了客户电话号码的中间四位数。在另一个约车软件中,则隐藏了后四位数。它们都做到了保障客户隐私,然而,“爬虫”只要爬取了两边的网站,就能够得出完整的电话号码。这叫“拼接”。


再比如:在某个招聘网站,“爬虫”先进入应聘方的端口,爬取所有的公示信息。再进入招聘方的端口,重复操作一次。两相“比对”,完整的简历信息就被窃取走了。


在这个时代,网民的电话、住址、照片、工作经历等等,几乎都存储在各式各样的软件数据库中,只要其中的一两项信息泄露,那么整个信息都被窃取,在理论上是成立的。


更何况,网民常常将个人信息拱手让出而不自知,比如前不久上线的软件“zao”。又或者,身边亲友出于自己的目的,故意提供被爬取信息之人的隐私,比如上述的在郑州的乌龙事件。


提供技术服务的人,在获取了海量信息之后,建模分析形成“用户画像”,或者直接提供给客户,让其分析判断。这就是所谓的“大数据情感分析”。可怕的是,被扒光了隐私的人,对此却毫不知情。


《异次元骇客》剧照


它并不是一个“新鲜行业”。早在2016年底,我与同事合作报道,互相购买对方的信息。我在某电商平台上找到了服务商,只是提供了同事的姓名、身份证号码,对方就将这名同事的工作经历、生活照片、隐私账号以及网络言论等信息,全部发了过来。


不过,在这些事件中,所满足的只是客户的一己之私。提供技术服务的人,也只是大数据行业中的“小小个体户”。当强大的资本和风口上的大数据公司们,也在照搬类似的模式时,它的危害性不可同日而语。


接下来,我们看看“商业版块”:


过去一周,大数据行业发生“震荡”,数家公司被封,或是接受了警方调查。据媒体报道,9月11日,杭州存信数据科技有限公司被贴上了封条。当天夜里,公信宝也传出消息,公司门口被贴了封条。


事发不到24小时,又有业内人士爆料称,12日上午,天翼征信的总经理、副总经理以及市场人员被警察带走。


而在前不久的8月底9月初,出事的还有大数据金融风控公司新颜科技,以及另一家同业公司魔蝎科技。两家公司的CEO皆被警方带走调查。


金融科技类自媒体“一本财经”援引消息人士的话称,有几十家大数据公司已进入调查名单,“只是前戏,后面的动作会更大”。



截至目前,官方并未通报调查原因,业内人士普遍猜测与“爬虫”业务有关。公司规模下的“爬虫”业务,与前文所说的个体户之间,并没有本质上的差别,都是采集并分析数据,从而做出决策。只是,后者数据的规模与敏感程度要高很多。


此次出事的摩羯科技,就是个很好的例子。早在2017年,摩羯科技就被曝出,它的产品“同业爬虫”太过于野蛮。什么叫“同业爬虫”?它也是一种“爬虫”,但它专门去爬取同行业的公司数据。


它主要服务于现金贷公司。这些公司在对借贷者放款之前,都会预先估计交易风险,然而网贷公司的模式与银行不同,它们很少要求借贷者提供抵押物,也没有权限做全面的信用评估,只能通过获取通讯录、分析社交数据等,据此判断风险。


“同业爬虫”的功能,最简单的说法就是,窃取同行公司的评估成果。它要求借贷者提供在其它平台上的用户名与密码,并授权读取、分析数据。那么,根据其它网贷公司的额度以及还款记录,出借方就有了判断风险的依据。


《网络谜踪》剧照


另外,这项技术已经流传开来,不只是公司在用,个人也可以用。


只要一个人的姓名和身份证号码泄露了,那么,任何一个人都可以查询他在网贷平台上的“信用”信息。去年10月,湖南新化县发生一起悲剧,丈夫深陷于网贷,企图假装死亡来骗取保费,但她的妻子却信以为真,带着两个小孩一起自杀了。


没人知道他们的具体债务,然而,在友人的介绍下,我安装了几款“信用软件”,只需输入姓名和身份证号码,并且支付查询的费用,他们在30多家网贷平台上的借款记录、拖欠频率、黑名单次数,借贷金额的多少等信息,全都显示出来了。


根据官方在后来的通报,“信用”软件上的信息,都被证实是真实的。它们通过爬虫爬取、或者共享数据的方式,形成了民间的信用评估平台。


对现金贷公司而言,这当然有极大的便利性,否则很难进行风险控制。


然而,技术拥有两面性,它同时也造成个人隐私等信息的大规模泄露。


《黑客》剧照


“爬虫”技术,至少有两重风险。一是,它所爬取到的信息,没有经过被查询者的知情同意,即便被查询者同意了,商业公司对数据的存储、处理、分析,尤其是售卖转移的行为,仍然处于法律的红线上。


另一个风险是,在现金贷业务中,数据公司爬取到了客户的通讯录,如果经过客户的知情同意,那就没问题。但是,这并不意味着,催收公司“轰炸”通讯录的行为是合法的。

客观上讲,数据公司采集、存储客户信息的行为,助推了“套路贷”公司和暴力催收公司,给他们的违法行为创造了条件。


“技术是中性的”,这曾经是科技公司自我辩护的策略。然而,这种大而无当的辩词正在失去效力,对于数据行业的规定细节即将到来。


今年5月,《数据安全管理办法》征求意见稿出具,首次试图规定“爬虫”的性质,还制定了其它的数据信息政策,被看作是中国版的GDPR。


《数据安全管理办法》还没有正式施行,也就是说,具体的“红线”在哪儿?现在还在探索阶段。不过,针对大数据行业内乱象的执法行动,却已经开始了。说数据公司们正在面临一个“震荡期”,并不夸张。


数据行业内,为了避祸,公司纷纷暂停“爬虫”。



据21世纪经济报道消息,2019年9月6日23时起,知名第三方数据服务公司聚信立将暂停对外提供用户授权的运营商爬虫服务。


9月10日,大数据风控公司同盾科技回应称,已全部停止旗下公司信川科技的数聚魔盒相关服务——该业务涉及数据采集流程,支持爬取数据用作信用评估。


暂停营业未尝不可,但长期来看,大数据行业将难以持续。令人尴尬的一个事实是,“爬虫”技术既便利又强大,大数据公司或多或少地在使用它。有业内人士在接受采访时就担忧,“震荡”过后,大数据行业会“归零”吗?


前几天,马云在卸任演讲中谈到,未来有三个重要技术:5G、IOT、大数据。但没人想到,大数据的这个“冬天”,竟来得这么快。但是,或许它正好证明了马云的远见卓识:做一家好公司,比做一家强公司更重要。



作者 | 南风窗高级记者 向由

排版 | STAN

图片 | 部分来源于网络

南风窗新媒体出品



猜你还想看


围观

最近,这两件事可以透视中国经济的趋势


故事

杰伦老矣,尚能唱否


热文

球鞋怎么炒才好吃




点击购买最新一期《南风窗》

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存