数据堂涉嫌刑事案件!大数据企业以后的日子还好过吗?
周末数据堂被查的消息引发了大数据行业的普遍关注。
作为大数据行业的从业者,听到警察叔叔说抓了几个博士和博士后,好奇心就上来了。本案涉及大数据行业的商业模式以及合规问题、入罪标准甚至证据标准等问题,将分几篇进行展开。第一篇将主要分析数据堂的商业模式。
追忆似水流年
这个案子是我当时公诉的。
那会太年轻。觉得鉴定是淫秽图片就是淫秽啊。虽然也觉得那些照片上在网站上比比皆是,跟案件中被查获的暴露度不相上下。
遇到主犯否认自己知情,还用一通共犯原理、口供印证、心知肚明、默认许可的宏篇大论,论证了其不仅知情,还应该起主要作用,正是在其指使下才导致了此案的发生。
不记得几个被告最后都判了几年了,反正拖了好久。公诉人期间也大大小小办了几百件案子,无罪/撤诉的也有一两件,基本上都是当时拿不起诉、不构罪结论,最后还是起诉了的。绝大部分也都获得有罪判决。
现在想想,真的有那么多案件该起诉定罪的吗?
比如还是上面那个传播淫秽物品牟利案,如果我还是这个案件的公诉人,应该不会起诉全部当事人,或者全部都不会起诉了。那是十几年前。还年轻。还屁股决定脑袋。
数据堂案简介
数据堂是干什么的?
一个关键点:专注数据、共享价值——数据共享,在其财报中有专门的定义:让在不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作、运算和分析。这也是其商业的模式,同时也为案发埋下了伏笔。
数据堂的商业模式是什么?
数据采集
采集数据是前提,是建立数据库的基础,后续的数据流转是其商业模式核心所在,也就是其所提的数据共享。
根据数据堂自己的理解【2018年1季度财报】,数据采集包括从数据源收集、识别和选取数据的过程。包括设备类采集,即指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程;也包括网络类采到数据库或发布到网络的一种信息化工具;还包括群体人采集,即从大量用户处直接或间接,主动或被动的收集大量的样本信息。
即数据的采集中数据源有三种:设备类采集、爬数据、数据交易。据数据堂2017年年报显示,数据堂已拥有共计约2000TB的数据集,数据获取方式为通过自营众包平台采集、优质供应商合作、公共领域共享以及网络爬虫等。
数据的加工和流转形式就较为多见。数据堂也认识到自己作为一家数据收集和交易公司,必然会和形形色色的数据打交道,同期国家在不断出台各种法律法规来确保数据来源及交易的合法性,因此如何合法合规地获取与交易数据成为大数据企业,特别是数据资源和交易公司的潜在法律风险。
数据标注
数据加工中很重要的一方面就是对数据进行标注,比如其数据产品中很多都涉及标注工作,有自己的数据标注众包平台,年报显示众客堂目前拥有超过50万的社会兼职人员(众客),检索互联网也可以找到大量反映数据堂标注平台给钱少、拖欠工资的吐槽。
这也是其主营收入来源。众包平台所获取的语音、图像、文本等数据,正好是开展人工智能业务公司的刚需数据,像百度这样的公司需要大量数据来支持其人工智能研发,数据堂会根据其要求发布相关的任务,采集制作相应的数据,再将数据卖给大客户。比如在2015年,其与百度发生的业务收入为1638万元,占其总营收的24%。
随着AI热潮的兴起,针对AI所需的数据集、训练集也成为数据堂的主要收入来源。2017年年报显示,受到AI领域的兴起,AI收入已经占公司总营收的四分之三,而其中将近一半都来自于国外的AI订单。
数据交易
另一种数据流转主要是数据交易,主要产品分为两类。
一类是数据的标准化交易。将海量数据通过分析挖掘,整合成为各种标准数据产品,收取数据应用服务费,目前提供9大类标准化数据产品。主要包括:智能交通数据【包括GPS、车辆性能、视频监控等系列智能交通产品,覆盖出租车GPS、公交一卡通、交通监控视频、车流量统计视频、车辆性能规格等数十种大体量交通数据】、人脸识别数据产品【提供欧美、亚非主要人种不同年龄段的人脸图像及人脸属性/关键点标注】、OCR光学字符识别数据产品【提供名片照片、车牌图像、日韩手写、手写体轨迹、台湾繁体中文刊物、中英文场景文字等多种数据包】、基础语音识别数据产品【提供全国各大方言区域、全球二十余国家语言主要语种语料,以及30多种生活化语音录制语料】、智能语音数据产品【提供普通话、各地方言、外语语料、专业客服/车载和实网语音数据等】、智能行车数据产品【提供街景采集标注视频、中国道路视频、车辆标注图像、车牌图像、车载环境手机语音等】、智能安防数据产品【提供车辆数据、道路情况数据、室内监控数据、事件监控数据、场景监控数据、防暴恐数据】、无人驾驶数据产品【提供道路物体识别、路标识别、道路物体精准分割、3D图像标注、多镜头街景图像标注、轨迹追踪、视觉追踪等】、智能教育数据产品【提供中英文儿童语音数据、题库数据】。
数据堂还有一个数据商城,用来出售数据产品、API接口。目前包括语音识别/语料库、图像识别/视频处理、生活服务/天气、社交网络/电子网络、金融征信、科研数据等六大类数据。
另一类是混合数据的深加工。即通过用户提供原始单一数据,然后结合自己的基础合作数据,对来料数据进行聚合,从而为需求方提供维度更加丰富的数据。
相比数据采集和标注而言,数据的深加工来钱快,难度系数也低,也容易出现问题。如此次数据堂被查,据知情者透露是因为数据堂给一家理财营销公司,提供了大量涉及用户隐私的数据——为了获取金融公司的“黑名单”,会采取一种置换的形式:你给我一条黑名单数据,我就给你无偿进行一次借款人失联后的“信息修复”——数据具体到,姓名、联系方式、IP地址等。
数据堂在2017年5月就因数据问题被警方调查,年中其也对合法性界定不清的金融线及营销线业务予以关停,该部分业务涉及的业务收入370万元,数据资产价值3546万元,在2017年财报中显示管理层认为该部分资产后续不可能再变现使用,故全额计提减值准备或计入当期损失。
针对数据合规产生的法律风险,数据堂也进行了相应的应对措施:如在公司网站的醒目位置或专用位置发布了隐私条款、免责声明和知识产权保护条款,使得被采集方及数据提供方能够在注册、上传数据、提供数据的各个阶段知晓数据用途和隐私保护措施,同时预期自己的行为可能带来的后果。根据用户举报及网络管理筛查等程序对可疑数据进行删除,并对所采集数据进行技术加密,以保证数据的合法性和安全性。
即使做了这些,还是没有挡住7月8日的再次被警方立案侦查。
警方查获的是什么数据?
上述数据是否属于非法获取公民个人信息罪中的犯罪对象?这数百亿条数据是否都属于公民个人信息?认定标准是什么?辩方通常的辩护观点是怎样的?法院又是如何采信证据、认定事实的?对该类行为是如何处理的?以及大数据企业合规中是否做到隐私提示、及时审查、技术加密后就可以免责?
本文转载自微信公众号:legal观察