数据黑产调查:你的个人信息是这样被破解的
信息安全公益宣传,信息安全知识启蒙。
加微信群回复公众号:微信群;QQ群:16004488
加微信群或QQ群可免费索取:学习教程
教程列表见微信公众号底部菜单
你的个人信息是这样被破解的
《财经》记者 刘甦/文
人类围棋界“最强大脑”败于人工智能Alphago时,另一人工智能已经进入违法犯罪的黑色领域。
一起普通的网络代付诈骗,牵出一个利用人工智能技术、一秒钟盗取2000组公民信息数据的犯罪团伙。通过深挖公民个人信息账号密码买卖这条线索,浙江绍兴警方发现一条涉及利用黑客技术非法获取网站后台用户注册数据、数据撞库、绕开互联网公司安全策略的打码平台、网络诈骗、非法信息推广的互联网黑色产业链。
这一黑产链条中,参与到数据泄露环节的人工智能技术颇为关键,使得非法获取个人信息的成本大幅降低。
量贩个人信息
2017年2月9日晚,绍兴市公安局越城区分局城南派出所接到公民虞玉华报案称,虞当晚收到好友王甜的一条信息,王甜购买一件价值1922元的商品,因手机支付不成功,请虞帮忙代付。虞玉华通过手机为好友支付货款后,对方再次要求付款,她疑心被骗因而报案。结果证明,王甜的账号被盗,有人冒充王甜对其好友实施诈骗。
接到虞玉华报警后,越城警方在哈尔滨抓获这个利用社交软件冒充好友实施代付诈骗的犯罪团伙。团伙成员十余人,均为同学关系。
他们在哈尔滨一个居民小区里租了一套两居室,客厅被改造成工作室,码放8台电脑作为作案工具,吃住、诈骗都在这套出租屋内进行。团伙分工明确,头目郑前负责招募人员、培训和购买作案工具,其他成员登录不同种类的社交软件实施诈骗。
在这个团伙的电脑中,绍兴警方发现大量公民个人信息。“信息最多的一台电脑中有300多GB的个人信息,包括多个邮箱、社交软件的账号和密码,而且都很准确。”越城区公安分局网警大队大队长钱立锋向《财经》记者介绍。
这些信息从何而来?郑前称,这些信息是他以一组2元左右的价格,共花40多万元从吴杰等人手中买来的。而吴杰手中的信息则来自一个黑客犯罪团伙,该团伙利用超级SQL注入工具、网站漏洞扫描软件,批量扫描网站程序漏洞,非法获取网站后台用户注册数据,这被称为“脱库”。
这些数据大多是邮箱账号和密码。获取网站后台数据后,黑客团伙将包含各类邮箱和密码的数据分门别类进行销售,以每10万条数据50元到100元的价格卖给吴杰等人。
获取数据后,吴杰等人用“撞库”软件进行批量撞库、匹配,进而将各类账号与密码匹配成功的账户以1.2元到2元一个的价格,贩卖给网络诈骗犯罪团伙。
“撞库”是黑客通过收集互联网已泄露的用户账户和密码信息,生成对应的字典表,尝试批量登录其他网站后,得到一系列可以登录的账号。
“脱库”窃取到的邮箱、社交软件等账号密码信息大多是单一的、无效的,需要将这些信息进行“清洗”。
钱立锋告诉《财经》记者,很多用户习惯在不同网站使用相同的邮箱账号登录,甚至登录账号密码也和邮箱一样。黑客可以通过获取用户在A网站的账户从而尝试登录B网址,这就完成一次“撞库”尝试。
经过“撞库”清洗后,一些账号关联的其他平台账号被顺利登录,完成“清洗”后的数据更为丰富,可以精准获知该用户的许多平台注册信息,这在犯罪分子眼中极有价值,价格也随之涨高。
去年山东女大学生徐玉玉被诈骗分子以发放助学金的名义,骗走全部学费9900元,在报警回家的路上猝死,就是由于骗子掌握了徐玉玉准确的录取信息、手机号码等个人信息,精准实施诈骗。
“码奴”产业
为了防止黑客批量测试账户密码,各网站和平台动了不少脑筋,“验证码”是常用防范手段之一。
网络用户在各大网站或者平台注册、登录账号时,经常可以见到包括字符式、数字、字符+点选式、滑块拼图式、图片人工答题式等验证码,其中字符型验证码形式是互联网行业普遍采用的验证码形式。
验证码的防范机制是:提出的问题要容易被人类解答,而让机器无法解答。
当账号登录存在异常的时候,为了保护账号安全,系统会提示输入验证码。其目的是防止黑产人员批量恶意登录——他们可以利用机器大量输入账号和密码,但是机器无法识别验证码。由此,对于想要获取精准个人账户信息的犯罪团伙,在“撞库”环节中,如何进行批量验证就成为关键。
由于无法规避验证码,黑客们若要试出有效密码,需要人工逐条输入信息和识别验证码,比对、验证并成功匹配个人信息的账号密码,确认信息准确可以使用,再交给数据商——这些人在圈内被称为“码奴”,这一环节也被称为“打码”。
一位“码奴”向《财经》记者透露,根据验证码的复杂程度和输入的准确率,打1000个验证码会挣取1元至25元不等,每天工作12小时,最多可以输入2万个验证码,挣到300多元。
最熟练的“码奴”输入一个验证码也需要一秒钟时间。在传统的信息泄露相关犯罪中,因高昂的人力资本和较为漫长的工作周期,被“清洗”的数据相对有限。
因此在查获巨量个人信息后,越城警方意识到,这一系列案件中的“打码”绝非人工识别完成。随后警方调查发现,该案中,拿到原始数据的数据商,通过一个名为“快啊”的打码平台进一步进行深加工。
工商信息显示,“快啊”平台是沈阳纳信科技有限公司旗下产品,该公司经营范围为计算机科学技术研究、计算机软件开发、网络技术研究、网络工程设计、计算机软件销售等。警方在调查中发现,该平台专为网络黑产和灰产识别破解字符型验证码提供技术帮助。
打码平台上有多种针对不同互联网产品进行“撞库”的软件,数据商将验证码传给“快啊”打码平台的某一“撞库”软件识别接口,打码平台将验证码发给后端的“码奴”进行识别,并获取识别结果。
越城警方对“快啊”平台数据分析获知,接入该平台提供验证码识别服务的“撞库”软件有100多款,接入平台的用户达1.1万余人,从2016年6月到2017年3月,平台资金进账累计达1650万元,为国内最大的“打码”平台。
钱立锋介绍说,“打码”平台目前游走在法律边缘,界定并不清晰。“什么样的人需要批量识别验证码?往往都是从事网络黑产和灰产的人员。”
(犯罪嫌疑人使用的部分作案工具)
除黑色产业的诈骗人员,打码平台的通常使用者是“羊毛党”、抢票的“黄牛”及论坛刷帖“水军”。
以“羊毛党”为例,一些网贷平台为吸引投资者常推出一些收益丰厚的活动,如注册认证奖励、充值返现、投标返利等,催生了以此寄生的投机群体“羊毛党”。“羊毛党”去某网站刷活动优惠券,但该网站有较复杂的验证码,通常“羊毛党”会在打码平台注册账号并充值,并通过打码平台提供的接口,提交验证码识别。打码平台将验证码分发到各个“码奴”客户端里,获取识别结果,并最终反馈给“羊毛党”。
据办案民警介绍,“快啊”平台被查的前三个月,已提供验证码识别服务259亿次。
(犯罪嫌疑人与赃款)
在人力资源有限的情况下,“快啊”平台如何做到可以提供巨量的验证码识别服务?越城警方在其背后发现一个无需“码奴”的高级“打码”技术。
AI“打码”
随着侦查深入,越城警方发现,为“快啊”平台提供验证码识别服务的一个重要软件系统名为NID,这一人工智能程序由厦门人杨柯设计。
杨柯现年33岁,家境优越,父亲是当地房地产开发商,他和妻儿住在厦门一处140多平方米的住宅里,每平方米售价近5万元。
毕业于厦门某大学计算机专业的杨柯研究人工智能已有十余年。杨柯称,他使用伯克利大学开发的caffe框架作为深度学习框架,并且使用VGG16结构创建了一个神经网络,之后从网络上下载了几乎全世界所有字体,对神经网络进行训练,使它具有图文转换的能力,再将这个神经网络与具有图像接受和处理结果返回功能的服务端进行网络连接,构成一个系统,命名为NID。
每天,像教儿童一样,杨柯要培训NID学习识别各种验证码。在他的“培养”下,NID破解验证码的能力越来越强。
(杨柯制作的验证码样本库。)
钱立锋告诉《财经》记者,通过运用人工智能机器深度学习技术训练机器,杨柯让NID如AlphaGo一样自主操作识别,有效识别图片验证码,轻松绕过互联网公司设置的账户登录安全策略——验证码。
由于人工智能的帮助,NID“打码”速度很快,平均一秒可以识别出2000个验证码,是人工“打码”的2000倍;且正确率很高,可以识别出98%以上的验证码。
杨柯称,NID程序刚编写完成,正确率就高达95%,基本能正确识别所有清晰图片中的文本,杨柯还不断充实样本库,给NID程序输入大量的图片文件让其进行识别,NID程序本身就具备很高的识别应对能力;此外,NID系统也会自动学习,它每秒钟会从用户反馈的识别错误样本库中抽取一张比对正确答案进行学习,这个学习过程从编写出程序到案发前,时刻进行。
验证码被NID系统识别出后,黑客窃取的半成品信息,相当于完成了深加工。数据商拿到这些精准信息,打包组合,出售给个人信息产业链下游的诈骗集团、广告商,一条精准的个人信息,甚至可以卖到几百元。
“快啊”打码平台收取信息处理费用,收入的50%给了撞库软件作者,50%由平台开发商李奇和杨柯平分。短短一年内,平台牟利1300多万元,杨柯分得300多万元。利用NID程序,多的时候,杨柯一个月可以挣六七十万元。
2017年3月23日,“快啊”平台涉案被越城警方侦查。由于该案犯罪手法新颖、社会危害大,越城公安分局成立由网警牵头,刑侦、特警、派出所等多部门配合组成的专案组。
围绕该产业链的上下游,专案组辗转福建、广东、江西、黑龙江、辽宁、山东等13个省展开侦查、抓捕,抓获利用黑客技术非法获取网站后台数据的嫌疑人4人,使用撞库软件获取账户密码的嫌疑人19人,提供图片验证服务的“快啊”打码平台嫌疑人2人,制作“撞库”软件的9人,利用公民个人信息实施网络犯罪的团伙28个,共159人。
防范难题
一位数据安全专家介绍,“快啊”打码平台利用NID程序对字符型验证码的破解,是基于人工智能的深度学习框架,使用相关的网络模型训练学习,来实现对字符型验证码的海量快速识别破解。由于字符型验证码是互联网通用的安全策略,一旦被破解攻陷,将会给包括政企网站在内的互联网行业用户数据安全带来风险。
基于深度学习原理,只要样本库足够丰富,这一智能程序可以识别的东西会越来越多——即使复杂如铁路订票平台12306的验证码,也只是物品种类多、形态多样的图片识别,假以时日,NID程序一样可以破解。
腾讯安全专家周正认为,互联网行业的安全防范主要是对抗有规律、有特点的恶意行为,对抗这种有深度学习能力的人工智能犯罪,有必要提升防范等级,增加多维度的安全验证环节。
比如,登录时使用字符型验证码,二次登录用短信或邮件验证,辅助以滑块解锁等方式,“对抗不断升级的入侵攻击,提高犯罪门槛,强化动态机制,是互联网安全行业一直在做的事情”。
人工智能(Artificial Intelligence),英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
随着科技发展,近几年,“人工智能”这一概念通常指的是谷歌等公司开源的一些基于神经网络进行深度学习、可以不断训练强化神经网络的人工智能。杨柯开发的NID程序即属于这一人工智能范畴。
基于“深度学习”的新型人工智能,极大降低了网络黑产犯罪成本。如NID程序对字符型验证码的识别破解已快到毫秒级,“打码”平台的效率和业务量借此呈指数级别增长。而作为“验证”这一重要的网络安全环节,被攻陷后可被不法分子用于多个不同场景作恶,如撞库、窃取信息、恶意灌水发帖、刷单、刷点击量等,危害互联网生态。
钱立锋感慨,以往的黑客攻击针对网站漏洞入侵,相当于“开锁式进入”,而借助于人工智能,进攻方式变成了“硬闯”。
值得关注的是,这一案例是否意味着人工智能犯罪时代已经到来?
北京交通大学计算机与信息技术学院副教授王伟介绍,目前人类已经掌握了“弱人工智能”,即能制造出真正推理和解决问题的智能机器,这些机器并不真正拥有智能,也不会有自主意识,同在各方面能和人类比肩的“强人工智能”和比人类大脑聪明许多的“超人工智能”相比,“弱人工智能”只是人工智能的初级阶段,NID系统属于此列。
基于此,上海财经大学法学院副院长胡凌认为,上述案件中,“人工智能”只是辅助犯罪嫌疑人实施犯罪的工具和手段,犯罪主体仍然是人而非机器,尚在中国刑法规制范围内。
不过,钱立锋认为,在打击互联网技术类犯罪面前,《刑法》在适用上还有很多待商榷之处,譬如如何理解主观明知、证据标准如何把握、宣告刑普遍偏轻等问题,在适用上应统一认识。
另外,电信诈骗等犯罪的办案主体往往是县一级公安机关。虽然电信诈骗办案难度不大,但为打掉整个黑色产业链,需要办案人员向上追溯到信息泄露、“打码”等技术环节。但实际中,证据固定难度通常很大——数据会被犯罪分子删除,数据经网络流转后,调取比较困难,县级公安的技术能力往往有限。
钱立锋以上述案件举例,该案技术门槛高,复杂程度也很大,办案机关扣留涉案设备后需要将“撞库”软件、“打码”平台程序、神经网络图片验证码识别程序三个不同功能的软件重新搭建,模拟现实环境,全程录像取证,协同作业后,才能认定为一个能完整实现破解识别字符型验证码、“撞库”、“洗库”的软件系统。
今年10月16日,在最高检察院召开的新闻发布会上,最高检公诉厅副厅长张相军表达了类似观点。他指出,与传统的刑事犯罪相比,网络犯罪具有主体的智能性、行为的隐蔽性、手段的多样性、传播的广域性等突出特点。
与这些特点紧密相连,检察机关惩治计算机网络犯罪方面遇到的难点主要有取证和证明难——网络空间所有行为通过数字化的形式完成,没有目击证人,网络犯罪证据多以电子数据为主要形态,侦查取证主要依赖技术手段完成;此外,网络犯罪的取证、鉴定、定性等都需要很强的专业知识,检察机关办理此类案件需要大量专业人才。但从目前的实际情况看,检察机关网络技术人才十分缺乏,既精通法律业务又熟悉网络技术的复合型检察人才更是匮乏。
周正对未来表示担忧。他认为,上述案件虽然仅是个案,有一定的技术门槛。但可以看出,网络黑产犯罪分子对技术应用到如此程度,已极尽所能。“人工智能本身是一种技术,但随着高速发展,已成为双刃剑,如何用好这项技术,值得更加深入地研究和实践。”
整体而言,技术犯罪数量在不断上升。最高检新闻发言人王松苗在前述新闻发布会上表示,2016年以来,全国因涉嫌计算机犯罪被检方提起公诉的共1568人,仅今年1月至9月就有710人,同比上升80.7%。41169人因涉嫌网络电信侵财犯罪被公诉,今年前九个月就有22268人,同比上升118.6%。
最高检会同最高法正在共同研究起草《关于办理网络犯罪案件适用法律若干问题的解释》,将针对《刑法修正案(九)》增设的拒不履行信息网络安全管理义务罪、非法利用信息网络罪、帮助信息网络犯罪活动罪,明确定罪量刑标准和有关法律适用问题。
猖獗内鬼、黑客师徒与“灰色暴发户”
《财经》记者 刘以秦 周源 谢丽容/文
2017年6月1日之后,一群做大数据地下产业的数据采集者和数据掮客常常聚在一起讨论两条最新出台的法规,惶惶不可终日。
6月1日,中国网络领域的基础性法律《中华人民共和国网络安全法》(下称《网安法》)和与之配套的《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(下称《两高个人信息司法解释》)开始生效实施。
新法规对倒卖个人信息数据的惩罚几乎已经达到了“一刀切”的程度,入罪门槛极低:非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上的即入罪。
“近期确实抓得很严,我周围不少人进去了,其中有一个人年收入十几个亿的。”一位数据掮客告诉《财经》记者。这名掮客曾在运营商和一家大型互联网公司从事数据相关工作,由于工作经历,他认识不少数据的买卖双方,经常攒局非法交易数据。
在他组的各种局里,主要议题是如何换数据、洗数据、做数据补全。但明面上,他是一家创业公司的核心成员。
另一位在地下数据产业周旋超过十年、目前是一家大数据公司创业者的人士对《财经》记者说,“我知道有一批数据公司要完蛋,包括新三板上市公司,和一些地方政府视为座上宾的公司,它们主要的数据渠道是黑色产业,一些高管已经进去了。”
据不完全统计,国内个人信息泄露数达55.3亿条左右,平均每人就有四条相关的个人信息泄露,这些信息最终的命运,是在黑市中反复倒手,直至被榨干价值。
其中,80%的数据泄露自企业内鬼,黑客仅占20%。
一位大数据产业的企业家对《财经》记者说,从企业到方方面面,对大数据安全都有一个认识过程,这给了大数据地下产业滋生的空间。
《网安法》颁布已有数月,相关细则也在陆续出台。7月下旬,中央网信办联合四部门开展互联网隐私条款专项工作。微信和微博作为首批测评对象,分别在9月中旬更新了用户隐私条款,规范了用户数据使用办法。
监管的口子越收越紧,但大数据地下产业的冬天真的来了吗?
内鬼猖獗
《网安法》生效后,仍然有大量渠道可以进行地下数据交易。这个“地下黑网”日交易额可达上亿元,整体规模难以估测
7月底,《网安法》颁布快两个月时,一家针对商务人士的培训公司市场负责人孟先生在几家面对高端读者的媒体上投放广告,但此后一个星期,没有接到一通打来咨询的电话。
多方打听之后,他换了一种渠道,去购买一些目标用户的个人信息数据,尝试“精准营销”。
7月24日晚,他在南京的一家网站上留言,希望购买一些个人信息数据,并留下了联系方式。
第二天一早,电话就打过来了。这个电话将他一步步带入数据地下产业。
打电话过来的人是该公司的销售人员,针对孟先生想要高净值人群信息的需求,他提出,可以提供经常出入别墅、高端酒店和高尔夫球场等场景的个人信息数据,包括手机Mac地址和Imei地址。
Mac是Media Access Control的缩写,是手机网卡的身份证号,用来定义网络设备的位置,具有全球唯一性。Imei是International Mobile Equipment Identity的缩写,是由15位数字组成的电子串号,一个号码对应一台移动电话机,具有全球唯一性。
通过Mac地址和Imei地址可以直接进行网络营销,被获取手机地址的人,只要打开网站,就能收到相关推送,而不是通过个人搜索行为来进行广告推送——这是目前多数大数据营销的正常手段。
这家南京公司的报价是Mac地址0.2元一条,Imei地址0.25元一条。
孟先生觉得这种方式效率还是太低。他询问对方能否直接提供目标人群的手机号,对方犹豫了,表示最近抓得很紧,手机号这类个人信息比较敏感,风险太高。
不过,这位销售人员提供了另外一条路径。
他说自己的公司与一家号称是上海联通呼叫平台的公司有合作。孟随即与之联系,呼叫平台相关人员告诉孟先生,他们可以通过南京公司提供的Imei地址定位到具体的手机号。
呼叫平台工作人员告诉孟先生,由于近期风声紧,他们只接大单,目前上海本地的订单已经不接了,低于100万元的订单也不能接了,但是这类小订单还可以通过合作平台来接,一个号码收费10元。但他强调,如果订单量够大,可以把价格降到一半以下。
用这样的方式进行电话营销,需要孟先生提供一个8位数的联通座机号码,信息被卖掉的手机号机主接到电话时均显示此号码。为了增加通话率,降低投诉率,他们还能提供闪信服务,在拨通电话前添加企业名片。
闪信在十几年前就出现了,是一种免费的短信服务,发送给用户的信息可直接显示在其手机屏幕上,阅读后信息不自动保存。但是由于通过闪信发送的骚扰信息太多,不少手机厂商已经开启了闪信屏蔽功能。
呼叫平台人员向孟先生强调,可以直接通过他们的标签来找目标人群,不需要先从南京公司那边购买Imei地址再给他们转成手机号,他们自己就可以通过联通用户的数据,比如地理位置、轨迹,以及通信费用占比,甚至包括交通工具等信息,来判断目标人群的收入和喜好来进行用户画像。
仅靠联通的数据会相对单一,上述呼叫平台工作人员透露,他们也在做数据整合优化的工作,正在与银联、学信网(高校学生信息网站)进行数据整合,这样可以让用户画像更加精准。这意味着,银联、学信网也出现了“内鬼”,而且他们之间达成了合作。
下了订单之后,前期流程包括审核客户的营业执照、预估项目大小、准备好确认的座机号码等工作,确认具体需求之后,只需要两天时间就能调出所有的数据和手机信息,通过他们提供的外呼平台就可以拨打电话。
呼叫平台人员还向孟先生强调,他们也接过银行的订单,但是营销效果如何他并未跟进,也未透露具体的客户信息。
《财经》记者联系了上海联通相关负责人,上海联通反馈,该公司呼叫中心的用工均为外包,招标入围后签订业务外包合同,坐席签订安全保密协议责任书。目前供应商有三家。上海联通相关负责人向《财经》记者强调,联通对倒买倒卖用户数据零容忍。
另一位从事数据交易超过十年的从业者告诉《财经》记者,由于体量庞大,外包公司和经销商过于分散,大型企业这样的问题很难根治。
浙江一位开发运营商核心软件的公司负责人告诉《财经》记者,《网安法》给他们带来了新的商机,南方一些运营商已经开始上马数据安全项目。
“过去一些运营商的数据库内部人能直接访问,现在要求内外网隔离,生产库查询库隔离,堡垒机审计,就是为了避免内鬼往外倒腾数据。”他说。
一位圈内颇有名气的前黑客,现国内某安全公司负责人告诉《财经》记者,虽然黑客听上去“神奇又神秘”,但是80%的数据泄露是企业内鬼所为,黑客和其他方式仅占20%。
黑客生态
一线黑客多是学历低下、没有固定工作的年轻人,赚来的黑钱大半被“师父”拿走,而“师父”之上还有“师父”
内鬼、黑客、爬虫以及手握数据的公司与个人之间的数据互换,是构成地下数据交易的主要来源,这些数据再经过清洗、分类,可以从不同的渠道销售出去。数据用途主要是精准营销,也包括身份认证和诈骗。
除了公司内部和外包公司,另一个容易出问题的是经销商。
今年6月,广东苍南警方称,他们在今年1月发现有苹果公司国内员工涉嫌以非法手段获取苹果手机关联的个人信息。涉案的22人中有20人在苹果国内直销公司及苹果外包公司工作。警方没有披露余下两人的相关信息。
遭售卖的信息包括苹果手机关联的手机号码、姓名、Apple ID等,警方未提到这些信息中是否包含密码和信用卡卡号这样的金融信息,如果此类信息也遭售卖,就表明这些犯罪嫌疑人能够获取苹果内部数据,后果也更加严重。
分类信息网站58同城在今年3月遭遇的信息泄露事件,则是典型的爬虫问题。有需求的个人或公司,只需在淘宝上支付700元购买一种爬虫软件,用卖家提供的账号登录后就能不断采集应聘者的相关信息,该软件每小时可以采集数千份用户数据。
事件曝光后,58集团立即回应,称将追查并加固信息安全系统,提升防爬虫技术手段,进一步区隔个人信息物理存档。
但到了8月,《财经》记者发现,淘宝上仍在出售能够扒到58平台个人信息的爬虫服务。如果直接购买成型的信息数据,只需要提供一个分类网址,例如,北京地区提供家教服务的列表,短时间内就能提供所有发布信息用户的姓名和手机号码。
具体的价格是,简单清洗去重的数据1000条售价50元,可议价,大量购买价格更优惠。
58集团书面回复《财经》记者称,这属于恶意抓取,58已全面升级用户隐私保护,对用户的敏感信息进行加密处理,提供电话隐私能力。
黑客窃取数据是传统方式。由于黑客行业的隐秘性质,国内的黑客多以口口相传的方式来发展新队伍。目前真正“奋战”在一线的黑客大多以学历低下,没有固定工作的年轻人为主,他们或经人介绍,或在逛论坛时偶然结识一个提供黑客软件的“师父”,简单学习之后,加入黑客队伍。
“师父”之上还有“师父”,这样一条自上而下的体系直接导致了黑客体系里严重分赃不均,前述经验超过十年的地下数据从业者就曾是一个小黑客,起初他对自己的技能颇为自豪,慢慢他发现,“师父”通过给他的那个软件,完全掌控他获得的数据,再加上他没有成熟销售渠道,每个月能赚到的钱少得可怜。
一开始,他会黑一些网站的信息数据,例如教育局内网里的学生信息数据,转手卖给需要这类数据的公司。随着技术越来越娴熟,业务越来越多,大学期间他开始连续创业,做了几个没什么收入的项目,他也多以“创业者”身份示人,但他的另一只手仍在操纵数据地下交易的生意。
“创业公司不赚钱,只有一个员工的地下数据项目,就能养活有30多个人的创业团队。”他对《财经》记者说。
从目前的行情来看,上述案例中,疑似联通呼叫平台有标签的用户信息10元一条,属于低价数据,这位资深人士手里的精准用户信息,可以卖到1000元一条。
从黑客到中介,从数据挖掘到数据清洗,地下数据产业链条的每个环节,这位人士都熟知,据他透露,如果有运营商的内部关系,加上一定的渠道资源,赚钱并不难。
但今年6月1日之前,他就嗅到了危险的气息,赶紧把风险较大的业务全部停掉,清除痕迹,戴上了“白帽子”。不过,他并未完全放弃这摊生意,而是将自己的数据交易公司用CRM的方式管理起来,保证每个数据源头都查不到任何破绽。现在,他只做大公司的生意,这些大客户要求严格,不会接受任何违法数据。
但他没想到,有一天他会栽在“同行”手里。
今年早些时候,通过客户反馈,他发现自己的公司也出现了“内鬼”,一名公司员工将客户资料卖给了竞争对手公司,直接导致他丢掉一个200万元的单子。
他很生气,威胁将这名员工告上法庭,最终得到一大笔赔偿金。事后,他将公司整个CRM系统重新整合,现在即使是他也看不到客户的手机号,所有的短信和电话都通过系统的内置功能来进行。不仅如此,所有员工的行为都会被自动记录,哪个账号查看了用户资料,哪个客服拉取的数据量高于其他人,或是搜索其他客户经理的资料,都会被调出来仔细排查。
黑产进化
传统地下数据产业人士称这些大数据公司为“简单粗暴的暴发户”,“他们太有钱了,本来我们都是小作坊的模式,他们一进来,把我们的生意全都挤没了。”
对上述地下数据产业人士而言,政策法规收紧只是促使他转型的因素之一,更重要的原因是,他发现这池水越来越浑了——新型大数据公司入局,打破了传统的地下数据交易网络。
芝麻数据并不直接交易涉及到公民身份的信息(包括手机号、身份证号等),不完全属于“地下”,但公司的触角已经伸到了地下。这样的大数据公司是数据地下世界的新人。
今年5月31日,《网络安全法》施行前夕,新三板上的大数据公司数据堂(831428)被传因泄露用户信息公司高管被带走调查。原因是涉嫌给一家理财营销公司提供大量个人隐私数据,包括身份信息、消费信息等。
根据公开资料,数据堂成立于2011年,于2014年12月在新三板上市,并在中美两地建立了4家子公司和5个数据处理中心。
数据堂公司官网称,其商业模式是“依托自身的数据资源、技术研发优势及丰富的市场运营经验,打通数据获取、数据处理、数据服务环节,融合和盘活各类数据资源,推动相关技术、应用和产业的创新,实现数据价值最大化”。
但多位大数据人士告诉《财经》记者,数据堂的商业模式是通过网络爬虫、公共领域共享等方式获取数据,对数据进行清洗、分类处理之后,向客户提供定制化数据服务来获取收益。这是一条完整的数据交易链。相对于过去分散的数据交易模式,这是一条全新的、进化版的交易链条。
5月23日,数据堂的下游客户公司发现,数据堂提供的一些数据接口突然断了,询问如何解决时,得到的回应是:“在调整,等消息。”
有媒体曾经质疑数据堂,为何未公告其高管被调查,影响了部分业务线一事?数据堂今年5月的回应是:“目前还没有出最终的调查结果。”
数据堂董秘朱文杰对《财经》记者表示,确实有一些数据经过脱敏处理变成标准化数据在网上交易,但是,这些标准化数据带来的业务收入只占数据堂收入的5%不到。
朱文杰强调:“数据堂不是一家数据交易公司,而是基于人工智能技术提供定制化的数据服务。”
另一位大数据公司高管告诉《财经》记者,哪怕是在两三年前,地下数据交易的量都不大,规模普遍维持在数百条信息的量级。“做得没那么明目张胆,外面也没人去扯这些小事儿。”
但他说,随着需求被放大,整个地下数据产业开始变成半公开化了。
苏州的一家大数据公司成立于2011年底,2013年就已经开始盈利,2016年注册用户60万,年营收过亿元。其市场优势是数据全面、价格便宜。
这家公司顶着明星创业公司的光环,不仅拿到巨额融资,还是苏州工业园区的重点引进项目。
不过,有地下数据产业资深人士透露,能做到数据全面且便宜的原因在于这家公司整合了大量购买数据的小渠道,这些渠道大多不合法。其中包括各种黑客、内鬼,他们通过QQ群、微信群出售数据,还包括以暗网为主的非法网站,他们大量搜刮数据,重新整理后低价出售。
上述地下数据产业资深人士将这些大数据公司称为“简单粗暴的暴发户”,“他们太有钱了,本来我们都是小作坊的模式,这样的公司一进来,把我们的生意全都挤没了。”
《财经》记者联系了这家公司,对方相关人士回应,他们的商业模式是提供API接口,并不涉及数据交易,《网安法》对于他们来说也没有任何影响,对于数据安全相关的问题,他不予置评。
该公司官网上最热门的几类数据里包含二代身份证认证与银行卡信息认证,但目前中国有资格进行身份证信息验证的公司只有国政通一家。
这家苏州公司为何能够拥有如此高端精准的个人信息认证体系?一位了解该公司的人士透露,因为他买通了一家国政通的合作公司,通过该合作公司发到国政通进行认证。
当《财经》记者致电这家合作公司的客服人员时,该客服人员表示,他们的身份证认证信息是对接了公安部的数据,而银行卡信息认证是通过银联的数据来对接。多位业内人士向《财经》记者表示,从未听说过这样的接口可以对外开放。
这家公司的身份证认证的价格为30万元100万次,据行业人士透露,该公司会进行数据截留,截取其他的信息,然后再进行处理,二次售卖。
这些处于灰色地带的大数据公司的主要客户来自互联网金融行业。
金融行业的获客成本普遍高于其他行业,2013年互联网金融行业开始火爆,模式比传统金融机构更轻,规模扩张也更快。
竞争压力之下,互联网金融公司的获客需求量激增,同时,也需要更快速进行用户身份验证以及贷款资格审查,这些都在一定程度上刺激了灰色大数据公司的发展。
前述数据掮客对《财经》记者表示,金融公司通过购买目标用户信息来进行电话营销,成功率可能高达10%,远超普通营销渠道。
这样的模式无疑进一步刺激了地下数据交易,也导致了大数据行业“劣币驱逐良币”的现象。如果保证数据获取合法,那么在价格上根本无法与从地下获取数据匹敌,这让很多干净的数据公司几乎毫无竞争力可言。
“就算只有一家云服务厂商碰了客户的数据,我们所有人都会在客户那里失去信任。”北京北森云计算股份有限公司CEO纪伟国对《财经》记者说。这家公司提供人才管理云服务。
硬币的另一面是,数据地下产业的快速进化,冒出大型公司,反倒让监管变得更容易下手。
在中关村大数据产业联盟常务秘书长张涛看来,大数据公司对监管机构而言是一个“抓手”,如果没有它们,监管机构在探查诈骗数据来源时,面对的就是一片汪洋大海。
接近权威部门的人员透露,监管部门对非法数据交易和买卖一直都非常重视,但囿于数据价值无法量化评估、交易过程隐蔽等问题,之前没有用一刀切的方式进行监管。
严刑峻法
地下数据交易几乎每笔都不低于50条个人信息,这意味着数据地下从业者只要被抓就可能被刑责
今年6月1日颁布的《网络安全法》,是中国第一部全面规范网络空间安全管理的基础性法律,它将之前仅停留在政策规章层面的数据安全问题法律化了。例如,企业现在收集个人信息必须征得用户同意,否则就是违法。
配套出台的《两高个人信息司法解释》则从刑法层面进一步明确了侵犯公民个人信息行为的定罪量刑标准,为执法扫清障碍。
7月,由网信办、工信部、公安部、国家标准委等四部门共同组织实施了“隐私条款专项工作”,首批审批对象包括新浪微博、淘宝、微信、京东商城、滴滴等十多款热门网络产品。
9月,包括京东、微博、微信在内的多家平台都已经发布新调整的用户隐私条例,明确了会获取用户的哪些信息,以及获取前提(用户同意)。
某大型互联网公司法务人士告诉《财经》记者,之前这些平台都是默认用户同意,改成强提示的方式能让用户更清晰地了解具体情况。
与《网安法》相比,《两高个人信息司法解释》更令人胆寒,因为它制定了极低的入罪门槛——非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上的即可入罪,如果将公民个人信息出售或者提供给他人是公司行为,标准减半,25条即可入罪。
根据《刑法修正案(九)》,“侵犯个人信息罪”的适用刑罚包括两档,第一档量刑为“处三年以下有期徒刑或者拘役,并处或者单处罚金”,第二档量刑为“三年以上七年以下有期徒刑,并处罚金”。
(2016年11月9日,西安市公安局雁塔分局刑侦大队,警方破获贩卖个人信息案。在某房地产公司工作人员陈某的因贩卖个人信息被雁塔公安分局刑拘。民警正在对犯罪嫌疑人陈某进行讯问,陈某对他贩卖个人信息的行为悔恨落泪,办案民警递上纸巾安慰陈某。图/视觉中国)
现实中的地下数据交易,几乎每笔都不低于50条个人信息。某专业人士认为,这意味着,数据地下产业从业者只要被抓,就可能被刑责。
相比之下,日本最高处刑六个月,加拿大和爱尔兰仅处以罚金,美国刑罚虽然和中国差不多重,但仅限于医疗行业,甚至还有部分国家并没有就个人信息保护设立专门的刑事责任体系。欧洲推崇行政监管,美国倚重民事救济。
深圳市刑警大队近期针对违法数据交易展开四次行动,与腾讯、360两家互联网公司提供的手机管家服务合作,一旦出现用户标记“推销”、“诈骗”等标签超过50次的手机号码,就会立即出动调查。
四次大规模行动之后,深圳警方明显感觉到此类举报电话少了很多,而在新法规出台前,接到举报电话也不知道该如何处理。
中国信息通信研究院法律研究中心原副主任、现腾讯研究院资深研究员王融分析,事后重刑与事前预防相结合的好处在于,既利于在全社会建立对个人信息的收集、利用基本规范,也回归了法律救济的应有之义。这正是《网安法》的价值所在。
新形势下,一些曾游走在灰色地带的企业将脚收了回来。
《财经》记者获悉,在招聘行业有一家以“简历大数据”为卖点的创业公司曾饱受同行指责,因为该公司为快速发展大量使用灰色手段,例如不经用户同意就把其简历发送给各用人单位。《网安法》出台后,该公司专门设置了呼叫中心,以电话形式一一确认简历用户的需求。
还有一些公司开始依照新法进行合规性检测。汇业律师事务所高级合伙人黄春林表示,今年6月之后,涉及个人信息处理的企业纷纷找上门来,他所在的律师事务所业务量大幅增长。汇业的主业是企业数据规范。
企业主动规范数据使用,这是新法压力下的重大进步。
根据《网安法》,企业有责任确保其收集的个人信息的安全。
如果用户个人信息丢失,企业必须通知用户,用户有权追责;所有企业都需要一个网络安全负责人,此人不应是技术人员,而是创始人或高管等对企业有支配能力的人。
这和欧盟模式类似。欧盟的《一般数据保护条例》规定,在个人数据被广泛使用的情况下,例如被超过250名雇员的企业使用、或者个人数据在特定目的下被持续和系统地收集监控,那么进行数据处理或控制的企业或组织应该任命有专门数据保护知识的数据保护官(Data Protection Officer,DPO)。
数据保护官的任职期限至少为两年,并向公众及监管机构通报其姓名及详细的联系方式。在出现问题时,还需要承担相应法律责任。
欧盟规定,对于以数据处理为核心业务,或日常运营中处理敏感数据的企业,例如互联网、电信、金融、征信、医疗、教育等行业的公司,它们的目标不应只停留在满足合规性要求,还应建立一套相对坚固的防御体系。
王融认为,许多数据泄露是公司内鬼或黑客所为,这种情况不可能禁绝,但公司若有证据显示自己已设立比较完善的数据安全管理体系,相关刑罚就有可能减免。
相对于水面下的见不得光的产业,立法面对的另一个大问题是企业和企业、企业和用户之间的数据确权。
8月4日,华为和腾讯的数据争议曝光。腾讯称,华为正在通过其荣耀Magic智能手机收集微信用户活动信息,以为其AI提供训练数据,例如使手机能够基于用户的短信内容推荐餐厅。
腾讯认为,华为的做法夺取了腾讯的数据,侵犯了微信用户的隐私。华为则表示,自己只有在用户授权的情况下才会收集用户活动信息,这些信息包括微信聊天信息。
不过,对于微信聊天信息这样的私密数据,是否获得用户授权就有权抓取用户信息,目前法条并没有一个明确的界定。
对于这种大型公司之间、没有明确法律规范的事件,监管部门过去罕有公开表态。一位接近监管部门的资深人士告诉《财经》记者,在有关部门的推动下,这件事情已经由华为腾讯自行协商解决。
四个月前的顺丰、菜鸟互断物流数据接口事件,也是在国家邮政局介入下,协商解决。
无论是华为、腾讯之争,还是顺丰、菜鸟之争,都是数据确权风暴来临前的预警。在数据已经成为核心资产的今天,弥补数据产权的立法缺失刻不容缓。
中央网信办网络安全协调局负责人近期透露,《网安法》的配套法规正在抓紧制定中,包括关键信息基础设施保护办法、个人信息和重要数据出境安全评估办法、网络关键设备、网络安全专用产品目录和个人信息安全规范等。
业内共识,后续立法执法将决定数据地下产业的走向。一位大型互联网公司法务人士告诉《财经》记者,目前的立法大方向兼顾技术商业创新和用户利益,缺点是“不细”。一位仍然游走在灰色地带的人则告诉《财经》记者:“我们都在等新法后的第一个大案,看看怎么判。”