其他

黑市垄断下的中国数据交易市场!

2018-01-23 监管与合规

正规玩家们的收入一年不到50亿元,且未来三年将难以看到爆发式增长


《财经》记者 周源/文 谢丽容/编辑


在一家星级宾馆的套房里,几个男人看着一小堆被彻底砸烂的计算机硬盘,露出了轻松的笑容,这意味着他们的任务已经彻底完成。不过,这并非什么犯罪现场,而是国内一家互联网电商公司和一家保险公司交易大数据的真实场景。

出于个性化服务和精准营销的目的,公司大都希望全面了解自己的用户,但每家公司从自有渠道收集的数据都是片面的,因而滋生购买数据,或与其他公司交换数据的需求。

但数据交换和买卖的前提是不能包含个人隐私信息,否则将违反国家法律。这两家公司要交易的数据,恰恰包含了个人隐私信息,通过正常渠道无法交易。因此,他们才采用了这种古老的方式——将数据拷贝出来,面对面交换数据标签(保证原始数据不被对方拿走)。因为涉嫌违法,交易完成后,对于包含源数据的硬盘,不仅做格式化数据删除,还要当着彼此的面进行物理损坏,互相见证拷贝出的数据仅一次性使用,不可能再外泄。

公有云服务提供商UCloud创始人兼CEO季昕华一年前听闻此事顿感其中商机无限,回去就启动了大数据安全交易平台的研发,就是为了支持公司之间在线的、安全可信的数据共享流通,不必再费劲当面交易,更无须避嫌而砸硬盘。

UCloud公司副总裁陈晓建是该项目负责人,一年后的今天,他向《财经》记者表示,虽然坚信这个市场大有可为,但“无论国内还是国外,大数据交易产业还是很不成熟,很难”。

UCloud其实只能算大数据合法交易平台这个圈子的后辈。从2010年起,市场上出现如九次方大数据、数据堂、聚合数据等专业化数据服务提供商;2015年4月,贵阳大数据交易所挂牌运营,成为全球首家大数据交易所,并带动全国多个省市建立了自己的大数据交易中心。

但据《财经》记者调查,这些有政府和国资背景的大数据交易中心大部分生意寥寥,纯市场化的数据服务公司盈利状况欠佳,有些甚至一度游走在灰黑色地带,变相参与个人隐私数据的贩卖,直到2017年6月《网络安全法》出台,才逐渐收敛。

不过,黑市交易依然是中国数据交易的主流。据不完全统计,国内个人信息泄露数达55.3亿条左右,平均每人就有4条相关的个人信息泄露,这些信息最终的命运,是在黑市中反复倒手,直至被榨干价值。其中,80%的数据泄露自企业内鬼,黑客仅占20%。

市场有明显的数据购买和交换需求;但经过合法渠道交易仍然举步维艰。供需难以顺畅衔接的背后,既是因为数据交易本身复杂度高,相关技术仍未完善;也因为相关标准、法律法规的缺失;还因为大数据应用场景挖掘不够充分,应用牵引的力度不够。这意味着,解决它也需要各方的合力,且绝非一夕之功。

赚钱不易


由于大部分的数据交易服务提供商并未上市,难以从公开渠道获得其营收信息,但一些头部公司的经营情况可以大致反映整体市场规模。

数据堂是大数据交易与服务行业里第一家挂牌新三板的企业(2015年)。其财报显示,数据堂2016年营业收入为9680.15万元,同比增长42.05%,但亏损1687.10万元;2017年上半年有所好转,但依然亏损392.53万元。

聚合数据2016年拿到3.6亿元的C轮融资,该公司曾在2015年对科技媒体36氪透露,聚合数据2014年营收达到了1亿元。

至于那些有政府背景的数据交易中心也没尝到什么甜头,两位大数据交易中心高管均向《财经》记者表示,少有年收入能破千万的大数据交易中心。

除了上述交易平台,大数据交易市场还有一支中坚力量——电信运营商和银联。运营商和银联的数据精准且独家,最受市场欢迎。

《财经》记者从一位经常与运营商有业务往来的数据服务提供商处获悉,中国电信集团2017年大数据交易的KPI是6亿,已经基本完成;中国联通集团大数据KPI是4亿,据说完成得不太好,其中,上海联通大数据KPI2017年是4000万,已经完成了3600万,算是省公司里完成得最好的。中国移动是分省运营,其中北京移动2017年大数据收入将有望达到1亿元。

此外,市场上还有一类公司专门为AI(人工智能)公司提供数据清洗、标注等数据加工服务,因为AI算法需要专门的AI训练数据。中昌数据旗下博雅立方数据服务事业部总经理王馨向《财经》记者透露,BAT每年在数据清洗、标注等数据加工服务方面的支出超出上亿元人民币。

综合以上预估,中国大数据交易行业正规玩家们的收入合计一年可能不到50亿元,整个数据交易行业仍处于早期发展阶段。

并非所有大数据“淘金者”都对这个市场充满信心。在采访中,一位大数据交易平台副总裁数次话风突转,面带迟疑地问《财经》记者:“你觉得这个市场够大吗?”紧接着他又自我安慰式地给出肯定回答: “我觉得应该还是可以的。”

此前,以贩卖个人信息为主的地下数据黑产过于猖獗,亦在一定程度上制约了合法大数据交易产业的发展。贵阳大数据交易所执行副总裁朱国辉告诉《财经》记者,如果说我们正规军提供一条身份证验真服务成本就要一块钱,那么数据黑产从业者的报价只有几毛钱,切走了很大一部分市场。

多位行业人士向《财经》记者透露,不少“正规军”也曾一度游走在灰黑色地带。

例如,《网络安全法》实施前夕,数据堂被传因泄露用户信息公司高管被带走调查。原因是涉嫌给一家理财营销公司提供大量个人隐私数据,包括身份信息、消费信息等。

但随着2017年6月1日《网络安全法》和《最高人民法院、最高人民检察院关于办理侵犯个人信息刑事案件适用法律若干问题的解释》的出台,从事黑灰色数据交易的法律风险陡然增大,非法数据买卖和提供达到50条就能入刑,公安部门与监管部门亦联手对大数据行业进行排查整顿。

《财经》记者获悉,为安全起见,多数大数据公司均对旗下征信营销类业务进行自我核查,但凡界定不清的业务均予以关停,之前的行业乱象得到明显遏制,这无疑有助于各方重新聚焦合法数据交易模式的探索。

瓶颈何在


数据交易产业难以快速爆发,很大一部分原因是数据交易本身的特殊性。

数据是可以无限次复制的电子信息,是一种特殊商品,并不能简单套用现实中的实物交易规则,数据交易过程中产生的数据确权、数据回溯、交易过程中的安全性合法性保障等问题迄今为止还没有得到很好的解决。

其中,数据确权最为棘手。在法律专家看来,数据确权是个新兴法律课题,挑战巨大。例如,数据的采集、加工、控制、利用、交易等环节可能有多个参与方,什么情况下什么类型的参与方可以获得数据的权利,所拥有的权利中哪些是排他性的权利(即绝对禁止他人抄袭和模仿的)等,每一步设计都关系到多种利益的博弈和平衡,在实践中尚无形成共识和惯例。

中国社会科学院大学互联网法治研究中心执行主任刘晓春告诉《财经》记者,数据确权不是不可以,但是在制度设计上还需要考虑大量的细节和配套性制度,而这些配套制度执行起来很可能成本过高,反而阻碍了数据交易产业的发展,因此,目前并不是法律介入的好时机。

在刘晓春看来,数据确权需要技术与法律专家的联手。贵阳大数据交易所、京东万象、UCloud等都在研究如何利用区块链等新兴技术解决数据确权的问题,但多位大数据交易平台负责人坦言尚未发现特别合适的技术手段。

除去数据交易本身的技术性难题,多位行业人士表示,精准营销和金融风控是目前较为成熟的大数据应用场景,用户主要是一些互联网征信公司,而这些公司目前需要的服务主要是简单的“三要素验真”(姓名、身份证、电话号码)。

具体来说,互联网征信公司提交一条个人信息,大数据公司返回一个这条个人信息正确与否的判断结果。一位行业人士告诉《财经》记者,不少地方电信运营商的大数据业务收入主要来自“三要素验真”。

但大数据的价值绝非只是用于验真,且若论验真,数据黑产从业者 “更有竞争力”,因为他们直接出售包含身份证、电话号码的用户数据。

从业者普遍希望手里的大数据能更加高级地变现。对此,行业共识是大数据必须结合具体的应用场景,必须“大数据+行业”,例如,基于海量用户用电信息进行大数据分析,可以实现负荷预测、智能用电调度等。

但朱国辉和陈晓建均向《财经》记者表示,具体哪些细分场景能采用大数据的能力还需要摸索,而且这本质上是针对客户提供定制化数据服务,对数据交易所和数据提供方的数据处理能力有很高要求。

而且,数据的开放程度远远不够,导致市面上合法流通的数据品类和数量有限,玩家们难以施展拳脚。

多位大数据从业人士向《财经》记者反映,数据主要掌握在政府和几家大型互联网公司手里,并未完全开放出来,但这一工作只能靠政府由上至下推动。

“大型互联网公司自己就能形成数据闭环,他们更希望是打包成数据产品和服务卖出,比单纯买卖数据更值钱,也更能避免法律风险。”中商数据副总裁李静雅告诉《财经》记者。

但论起数据的全面性、精准性和价值高低,互联网公司其实比不上政府。可政府数据并不开放,目前仅放出一些价值不高的统计型数据。

况且,政府部门之间的数据尚未完全打通。

虽然国务院总理李克强多次强调要推进政务信息整合共享,按照此前规划,2017年底前应初步实现国务院部门40个垂直系统向各级政务部门开放共享数据,但人们普遍悲观。

一位大数据交易中心副总裁向《财经》记者说,政府推动数据开放的激励不足、价值变现的动力不足。

贵阳市大数据发展管理委员会主任唐振江亲历了贵阳大数据产业的发展。他告诉《财经》记者,推动政务数据共享开放主要是有很多困难,例如国家缺乏数据开放指标体系和具体的数据标准,信息安全保障体系也不健全,加之部门信息化水平参差不齐,难以将高价值数据释放出来。

地方政府推动数据开放需要省级立法,只有贵阳市正式发布了《贵阳市政府数据共享开放条例》。

法律方面的主要进展是《网络安全法》的出炉。该法明确了“维护网络空间主权”原则,确立了关键信息基础设施数据跨境流动的一般规则,进一步完善了我国数据主权制度,同时,《网络安全法》对个人隐私数据保护也做了明确规定。

但多数行业人士认为目前缺失指导性细则,未对界定模糊的地带给出明确意见。

摸索与突破


现实令人沮丧,人们只能寻找单点突破口。

一位大数据交易中心副总经理告诉《财经》记者,他们坚持认为,数据交易应该交易的只是使用权,而非数据本身,因此顶住经营压力花了一年时间去开发相关交易系统。

目前,他们已经能支持数据买方能够使用加密数据,但是不能对数据进行截流或者其他企图获得源数据的操作。“就是数据所有权和使用权的分离。”他解释说。

他还说,与其他交易平台另一大区别是,他们不需要数据卖家上传数据,“我们就像证券交易所并不掌握证券一样,只是记录和监控每一次的数据交易行为”。

陈晓建作为同行对上述交易所的模式大为惊讶和惊喜,因为这正是他们想做,但又觉得很难实现的。

“绝大多数企业出于安全性考虑,不愿意将数据上传到交易所的平台,如果真能做到他们那样,那将极大程度促进数据的流通。”陈晓建说。

贵阳在推动政府数据开放上做出了个尝试,即成立了一家具有国资背景的公司专门处理政府数据开放。“毕竟政府不能参与市场运作。”唐振江说。

唐振江表示,他们将数据分成白数据(可公开)、黑数据(不可公开)和灰数据(经过处理可公开)三种,针对灰数据的开放进行研发,制定详细规则,确保公开后不泄露个人隐私和商业机密。

应用场景的寻找上,一些原本就深耕细分行业的公司嗅觉更灵敏,更快捕捉到“大数据+行业”的机会。

例如,商业地产公司为了精准招商,需要分析商圈人流的特征,中商数据就提供这样的服务,而中商数据的母公司睿意德RET本是国内一家较为知名的商业地产服务提供商,所以能敏锐把控商业地产需求。

“我们是通过母公司积累的商业地产咨询能力,加大数据分析技术,来服务客户的,我认为两种能力缺一不可。”李静雅说。

一个好消息是,数据标准的制定终于有了进展。这项工作主要由全国信息技术标准化技术委员会大数据标准工作组、中国电子技术标准化研究院来承担,目前已经发布《多媒体数据语义描述要求》和《信息技术 数据溯源描述模型》两项国家标准,同时有七项标准处于报批中。

根据工信部《大数据产业发展规划(2016-2020年)》,到2020年大数据相关产品和服务业务收入应突破1万亿元,年均复合增长率保持30%左右,中国将成为全球最大的大数据产业国之一。

原载2018年1月8日《财经》杂志,作者为《财经》记者,刘以秦对本文亦有贡献

延伸:你的隐私是这样泄露的:地下数据交易已泛滥成灾

本文作者:mcvoodoo 

本文来源:黑客与极客 


如果有一天,别人通过你的身份证号码,可以立刻知道你最近通话记录,近期活动区域,家人信息,银行卡和余额等等,请不要惊讶和震惊,因为这种工作,在目前国内的市场上已经有很多人在做了,而且已经形成了一个隐蔽庞大的市场。例如在群里,随处可见的:



而这只是小规模的个人作坊、游击队。真正在市场上占主导地位的,是那些打着大数据名头的各类貌似正规的公司,这些公司掌握的数据就更惊人了,各种维度无奇不有,比如我就见过一个号称拥有多地房产数据的公司,包括房产持有人姓名、身份证等信息。


由于大数据的兴起,对社会产生了巨大的改变,拥有数据则拥有未来。在这种形势下,拥有数据的公司和机构成了香饽饽,而正规机构涉及个人敏感数据的销售,需要受到各种监管,也不可能直接转售。因此蓬勃的需求形成了巨大的市场空间,也就产生了各类来路不明的所谓大数据公司和商贩。整体产业运作上见下图:



一、源头数据产生方:黑客or内鬼


1、黑客数据


与大家想象不同的是,市场上最多的,并非黑客拖库的数据。黑客的数据有几类,一是以账号密码为主,黑客们重点关注是这一类,玩坏了之后丢出来卖掉。具体价格要看库的时间,对象网站的重要程度,下家收购之后用来撞库。


第二是出售WEBSHELL,网站可能本身数据没什么价值,但是可以用来做肉鸡,这种价格也极为便宜,通常几毛到几块,无售后,可能买来之后shell就被清掉了。这类情况基本上都是权重极低的小站,而且从价格上来看,也一定是大规模自动化工具的结果。有价值的shell,是不会这样甩卖的。


第三,黑客类的数据以死数为主,所谓死数,是指一次性的、不再更新的数据。这类数据只能用作参考,无法动态实时,所以价格也不高。除非是一些具有长期效用的数据,例如公安部门某次抓到的嫌疑人,电脑上有接近6亿人的身份证号码,但这种由于在市场上多次转手,价格也不会太高。


第四则是各类电商订单数据,一般是隔夜数据,大概在7-15元每条左右,数据内容包括姓名、手机、商品名称及链接、金额等数据。主要是用来做退款欺诈。是目前单价较高的、产业链较全的行业。


第五是金融账号数据,主要来自于钓鱼,这个产业链就更庞大了(如果钓鱼也算是黑客)。下图是一个可以装在电瓶车上的伪基站,也可以做成背包等各种形式,即使是伪基站,也有多个分工种类。制作伪基站--走街串巷发短信--制作好声音、奔跑兄弟、我是歌手和各大银行网站--加料--洗料--洗钱--取手等多专业。另外还有各类木马、传播渠道等工种分类,就不展开说了。这类数据包括卡号、密码、名字、身份证等四大件,也包括一些第三方金融机构的账号,这类数据价值更高,有实力的欺诈分子会自己直接洗掉,一些小中间商则会转卖出去。


2、内鬼数据


第二种则是内鬼数据,内鬼数据相比黑客数据,品类非常丰富,其中部分数据可以隔夜更新,在市场上更多的是这类数据。由于数据过于庞杂,无法分类。我大致说一下我见过的几种。


一是面单数据,所谓面单,就是邮寄快递单。面单根据行业不同,大致分为电商订单类、保健品类、信用卡成单。电商订单好理解,主要用于订单欺诈类。保健品是指壮阳、三高、糖尿病甚至延年益寿,包治百病的治疗仪之类,主要用来欺骗老人、二次销售。信用卡成单,信用卡办卡成功后会邮寄出来,而这个环节上有多个泄露点存在,从印刷工厂开始,到快递公司,物流点都有可能泄露,面单的信息包括姓名、开卡行、手机、地址等数据。这些信息是钓鱼最好的料,这里还有更恶劣的玩法,点到为止不多说。


二是各类考试、学校培训班数据。当你报名考试后,很快就有人来推荐资料,推荐培训,是一种典型的手法。另一种则是根据实际情况进行钓鱼,比如著名的XX通数据,就是在市场上比较受欢迎的一种,给家长发送下载APP的短信,从而进行钓鱼,这类数据50万数据200块钱的样子。还有建筑行业的一建二建,医生,公务员,股民,驾校等各类数据。


三是金融类,银行卡号、余额、姓名、身份证号码、贷款、住址、购买的理财产品及额度等各种类型。这些数据不是内鬼是很难拿出来的,数据的可利用价值就更高了,推销、钓鱼、加料,很多环节都用得到。


四是身份信息类。最基础的身份证号码和姓名表格,这属于烂大街,都不好意思卖那种。稍微丰富点的维度,比如我见过户籍的,从姓名、住址、联系方式到家庭成员关系。收入调查的,工作单位、职级、年收入。再有一类是由于网上开户的兴起,开始出现身份证图片、本人手持身份证图片的数据,用来做各种薅羊毛、贷款业务


二、数据掮客


上游数据出来之后,会有人专门拿出来叫卖。叫卖的一般有三种情况:


1、诈骗


说起来蛮无聊的这些人,号称自己有某某数据,并且会有一些截图和样例。实际上就是骗钱的,几十块的也会骗,偶尔会骗到大买家。纯粹诈骗的情况不多,但多数情况是真假混合,也就是注水。


2、转卖


自己用完的数据拿出来转手。所以市场上会有一手二手的说法,一手隔夜数据是价格最高的,二手甚至更多手的数据主要是做大数据匹配和营销。


3、注水


目前市场上最常见的情况,例如号称5000万高端银行VIP数据,而实际上中间会混杂了各种数据,甚至有的干脆就用EXCEL公式伪造数据。


具体的数据交易渠道,主要是QQ群,为了躲避腾讯监测,会使用很多暗语来表达,比如:拦截马、大小额通道、面单、料主包养、裸号、菠菜等等之类的暗语黑话,甚至江湖上的切口也出现了。具体的支付通道,主要是支付宝交易,一般是先款后货,所以经常可以看到货不对路的买家在群里破口大骂。但更多是建立稳定中间渠道之后,私下的交易。


三、数据加工


掮客实际上只是买卖数据,并不做实际意义的数据处理。真正购买数据的大体上:电信欺诈分子、商业推销、大数据公司。电信欺诈和商业推销大家耳熟能详,不做解释。目前有一些所谓大数据公司也在悄悄的加入,通过数据拼接,形成大数据库,然后封装成查询接口向外出售,其中相当部分是有正规合同和发票的。


数据在经过这些大数据公司拼接之后,形成了一个威力更加强大的数据库,能够把一个人关联拼接出一个宽表,而这个宽表可能会涉及当事人多项隐私数据,从收入到房产、社保、亲属关系、照片、银行卡余额、贷款记录、近期活动位置、常用手机设备、家庭详细住址、网购记录、账号密码。然后分开或完整出售单条数据,每条售价可达几百元。这个收入十分惊人,而且每条数据都可重复出售,定期更新出售。


正因为这其中的利益十分巨大,所以市面上已经可以见到一堆的公司在做这件事了。在地下QQ群里,你只要说我是做大数据的,卖主立刻就明白了。


四、结语


综上,数据交易已经十分猖獗,而对这些行为的打击却罕见案例。很多案件实际上由欺诈引起损失之后破案,而少见针对数据交易的针对性打击,究其原因,还是因为数据交易并未对当事人产生直接经济损失,所以报案、立案动力不足。但是,如果不打击这类行为,其隐性损失也将十分巨大。当大家生活在一个毫无隐私的世界里,那是一件十分可怕的事情。


猜你喜欢(点击阅读)

【原创连载2】何渊:论数据权的区分保护和利用制度——政府数据篇

【原创连载1】何渊:2018数据权元年——从炮轰支付宝开始 

何渊:欧盟议会全球首个“关于制定机器人民事法律规则的决议”(介绍部分)

 何渊:政府数据开放的整体法律框架

 何渊:人工智能时代“大数据”加上“差异化算法”带来的身份歧视,就是商业领域隐匿的穷人与狗不得入内!

【前沿7】可识别个人信息、隐私以及新概念

【前沿6】打破匿名化的迷思:数字时代的匿名化挑战

【前沿5】美国布鲁斯的经典隐私理论和德国的人格权理论:四种类型的隐私侵权体系比整体保护体系更好吗?

【前沿4】这是私人的,但归我所有吗?—走向财产权的个人信息

【前沿3】关于马的法律—网络法到底该教些什么?

【前沿2】《自动驾驶的监管挑战:面对悲剧性选择人工智能如何决策》

【前沿1】监管人工智能系统:风险、挑战、能力和策略



诚意推荐 欢迎关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存