王燃：大数据时代海量数据的多元化证明机制研究

王燃司法兰亭会 2022-10-02

收录于合集

#大数据 9 个

#证据法 29 个

#证据 36 个

#证明 6 个

（感谢北京书法家协会理事，北京丰台区书法家协会主席团成员、副秘书长，民盟中央教育委员会委员韩国强题字）

王燃 | 天津大学法学院副教授，计算法学学科负责人，天津大学中国智慧法治研究院研究员；北京东卫(天津)律师事务所兼职律师；中国人民大学法学博士；加州大学伯克利分校访问学者。

主要从事大数据、人工智能与司法及证据法学研究。就“大数据侦查” “大数据证据” “智慧司法”“电子文件与电子数据”等主题形成体系化研究。代表作《大数据侦查》(专著)获第一届“中国网络法学优秀成果奖”一等奖，并在中国大陆及台湾地区出版。

“大数据时代侦查模式的变革及其法律问题研究”获 2016 中国法学会“第十一届中国法学青年论坛”一等奖。“大数据时代检察机关遇到的挑战与应对”获最高检检察长批示并印发全国检察机关学习。Legal Technology in Contemporary USA and China 发表于期刊 Computer Law & Security Review (SSCI 法学一区，独著)，并获得美国“Governance of Emerging Technologies & Science ”国际会议二等奖。“电子文件管理与证据法规则的契合研究”被《中国人民大学复印报刊资料.档案学》全文转载。

主持并参与国家社科基金项目(大数据证据研究)、中国法学会(大数据时代公共机构的数据开放及其法律问题研究)、天津市档案局(电子档案的法律问题研究)、最高检重点课题(大数据的运用与检察工作创新)等十余项课题。

主讲“证据法学”“刑事诉讼法学”“大数据调查方法” 等课程，获天津大学“沈志康奖教金”“北洋青年骨干教师”称号。

发表于《中国刑事法杂志》2022年第3期，注释见杂志原文。

大数据时代海量数据的多元化证明机制研究

摘要 将海量数据作为罪量是我国网络犯罪立法特色。实践中，海量数据的准确计算一直是证明难题。对此，“综合认定”“推定”“抽样”“等约计量”“底线证明”等方法应运而生。然而，上述方法是在证明资源有限性条件下的权宜之计，未从根本上解决海量数据的真实性证明难题。

可根据数据描述对象及生成机制对其进行多元化区分，分析不同类型的海量数据证明困境症结点，针对性构建多元化证明机制。对于身份类静态数据的重复性、无效性，可以通过去重、抽样方法认定其真实数量；对于作品类静态数据的混杂性，可以通过专业鉴定方法来解决；对于动态行为数据的重复性、虚假性，可借助算法来识别。

另外，既有的推定、证明责任分配等规则亦应当进行适当调整，与上述证明方法配套运行。

关键词 海量数据网络犯罪电子数据抽样证明个人信息

一、问题的提出：海量数据的证明困境

近些年网络犯罪的相关司法解释及司法实践中，不断出现以人次、点击数、转发数、浏览数等“海量数据”作为某类犯罪定罪或量刑的罪量，例如（在互联网上发布诈骗信息）页面浏览量累计五千次以上的构成诈骗罪，（传播他人作品）实际被点击数达到五万次以上的构成侵犯著作权罪，（制作、复制、出版、贩卖、传播）淫秽电子信息实际被点击数达到一万次以上的构成制作、复制、出版、贩卖、传播淫秽物品牟利罪，（同一诽谤信息）实际被点击、浏览次数达到五千次以上或者被转发次数达到五百次以上的构成诽谤罪，等等。

实际上，将“罪量”作为犯罪构成要件是我国刑事立法的特色，特定数量作为罪量的立法方式并非网络时代原创。罪量是指在具备犯罪构成本体要件的前提下，表明行为的法益侵犯程度的数量要件。传统的罪量主要体现为“数额”，在以数额较大作为罪量要素的情况下，没有达到数额较大的标准就不构成犯罪。具体包括违法所得数额、违法经营数额以及特定数额等。

在网络犯罪兴起的时代，传统的“数额”形态逐渐呈扩大化趋势，体现为以网络为载体的海量数据形态。根据相关司法解释，常见的海量数据包括“视频或音频文件个数”“点击数”“浏览数”“转发数”“注册会员数”“群组成员数”“身份认证信息组数”“发送信息或拨打电话数”等（见表1）。

表1“海量数据”相关司法解释及证据表现形式

犯罪类型	司法解释名称	海量数据种类
传播淫秽物品类犯罪	《最高人民法院、最高人民检察院关于办理利用互联网、移动通讯终端、声讯台制作、复制、出版、贩卖、传播淫秽电子信息刑事案件具体应用法律若干问题的解释(二)》法释[2010]3号	1.音视频文件个数 2.电子刊物、图片、文章件数 3.实际被点击数 4.注册会员数 5.广告条数
网络赌博类犯罪	《最高人民法院、最高人民检察院、公安部关于关于办理网络赌博犯罪案件适用法律若干问题的意见》公通字[2010]40号	1.参赌人数（会员账号数） 2.投放广告条数
侵犯知识产权类犯罪	《最高人民法院、最高人民检察院、公安部关于办理侵犯知识产权刑事案件适用法律若干问题的意见》法释[2011]3号	1.作品的数量 2.实际被点击数 3.注册会员数
危害计算机信息系统安全类犯罪	《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》法释[2011]19号	身份认证信息组数
网络诽谤类犯罪	《最高人民法院、最高人民检察院关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》法释[2013]21号	1.实际被点击 2.浏览次数 3.转发次数
网络诈骗类犯罪	《最高人民法院、最高人民检察院、公安部关于办理电信网络诈骗等刑事案件适用法律若干问题的意见》法发[2016]32号	1.信息条数 2.拨打电话次数 3.页面浏览量数
侵犯公民个人信息类犯罪	《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》法释[2017]10号	公民个人信息条数
非法利用信息网络、帮助信息网络类犯罪	《最高人民法院、最高人民检察院关于办理非法利用信息网络、帮助信息网络犯罪活动等刑事案件适用法律若干问题的解释》法释[2019]15号	1.视频文件数 2.群组成员账号数、通讯群组数 3.关注人员账号数 4.实际被点击数 5.用户个人信息条数 6.发布信息数

上述海量数据罪量不仅仅是定罪要件，往往也是法定刑加重要件。实体法将海量数据作为定罪量刑门槛的规定，直接导致其在司法实践中成为一类重要的新形态证据，本文将之称为“海量数据证据”。

一方面，海量数据证据形式上以电子化为主，因其依托网络环境而形成，因而大都以电子证据为载体；另一方面，源于网络犯罪对象的海量化，海量数据在数量集上呈现海量化特征。相比于传统犯罪，网络犯罪由于虚拟空间的无边界性、网络技术手段的便捷性，犯罪对象动辄达到成千上万量级。

尽管司法解释规定的标准往往限定在五百、五千、一万等门槛，但司法实践中查处的海量数据证据往往远远突破法定门槛。如2017年最高人民检察院发布的六起侵犯公民个人信息典型案例中，作为证据的个人信息分别达到了“30万余条”“12503条”“12555条”“185203条”和“10万余条”等。

然而，数据的海量性以及网络环境所带来的技术壁垒，却导致海量数据的证明成为司法实践中难题，突出体现在其证据的“真实性”，即如何准确计算海量数据的“量”。

司法实践中，数据量的计算结果往往对案件定罪与否、量刑轻重具有关键意义。例如在“罗刚等传播淫秽物品牟利案”中，检察机关指控被告上传28张淫秽图片，点击量达253335次，属于情节特别严重，依法应当处十年以上有期徒刑或者无期徒刑，并处罚金或没收财产；被告人则辩解由于一页多图、产品合格率、自主点击等因素的存在，涉案淫秽图片实际点击量应远远低于指控的25万余次；经过鉴定，最终认定28张淫秽图片的实际被点击数为82973次；法院判决四名被告人三到五年有期徒刑不等，并处罚金若干。

此案中，检察机关与一审法院对“实际点击数”的认定存在近3倍的差异，并导致前后量刑幅度相差甚大。

针对海量数据的证明困境，司法实践中出现了“综合认定”“推定”“抽样”等方法，理论界提出“等约计量”“底线证明”等方法。这些方法主要是通过降低证明标准、转移证明责任或是采取非证据证明方法来解决证明困境，是在证明资源有限性条件下的权宜之计。虽一定程度上可化解海量数据证明困境，但均未从根本上去直面其真实性难题。

本文通过对大量司法案例的观察，对海量数据进行类型化区分，并探究不同类型数据的真实性困境及证明规律，在此基础上构建多元化证明机制，以期帮助司法办案人员掌握海量数据证据的运用规律。

二、海量数据现有证明方案评析

关于海量数据的证明，目前实务界和理论界的一个共识是不再适用传统的印证证明。印证是我国刑事司法实践中遵循的证明模式，是指两个以上的证据在所包含的事实信息方面发生了完全重合或部分交叉，使得一个证据的真实性得到了其他证据的验证。

若按此方法，网络犯罪中每一条个人信息都应当与受害者核实、每一赌博账号及资金流水都要向参赌人员核实、每一淫秽视频点击数都应找到线下观看、下载人员进行核实。网络犯罪对象的海量性及证明资源的有限性，决定了海量数据无法通过传统印证方法一一核实。

由此，综合认定、底线证明、等约计量等方法应运而生。本文拟对现有证明方案进行评述并指出问题所在。

（一）实践中海量数据证明方案

1.“综合认定”方法

“综合认定”是由官方司法解释所确立的一种“便宜式”证明方法，也是当前最主流的海量数据认定方法。例如电信网络诈骗案件中，可根据经查证属实的日拨打人次数、日发送信息条数，结合犯罪嫌疑人、被告人实施犯罪的时间及犯罪嫌疑人、被告人的供述等相关证据，综合认定拨打电话次数、发送信息条数；可以结合已收集的被害人陈述，以及经查证属实的银行账户交易记录、第三方支付结算账户交易记录、通话记录、电子数据等证据，综合认定被害人人数及诈骗资金数额等犯罪事实。

非法集资刑事案件中，可结合已收集的集资参与人的言词证据和依法收集并查证属实的书面合同、银行账户交易记录、会计凭证及会计账簿、资金收付凭证、审计报告、互联网电子数据等证据，综合认定非法集资对象人数和吸收资金数额等犯罪事实。在此基础上，2021年《人民检察院办理网络犯罪案件规定》第21条对“综合认定”进行了统一规定。

根据上述司法解释对“综合认定”的规定，可看出其本质上仍然是一种印证方法，即根据言词证据、记录海量数据的电子证据及书证等进行“概括印证”。“综合认定”比传统的逐一印证要求低，在整体数量上得到印证即可。

然而，实践中究竟如何进行“综合认定”？最高检第67号指导案例“张凯闵等52人电信网络诈骗案”给出了运用思路：网络电话、Skype聊天记录等与被害人陈述的诈骗电话号码、银行账号等证据相互印证；电子数据中的聊天时间、通话时间与银行交易记录中的转账时间相互印证；被害人陈述的被骗经过与被告人供述的诈骗方式相互印证。本案的75名被害人被骗的证据均满足上述印证关系。

上述最高检指导案例中“综合认定”方法的运用是一种较为理想的状态。然而，因该规则缺乏可操作性，理论及实践中难以就此形成共识，容易导致“规则虚置”。司法实践中“综合认定”的运用还容易被异化，出现降格运用、笼统印证的情形。常见情形是仅根据案件当事人的言词证据和记载海量数据的电子证据相印证，即进行海量数据的认定。

实际上，由于数据的海量性，大部分被告人对于数据量记忆并不清晰，若电子证据取证不规范或者认定有误，则该种“笼统印证”反倒强化了错误事实的认定。例如在笔者参与的一起侵犯公民个人信息案件中，就个人信息条数的认定，司法机关电子证据取证及计数方式存疑，当事人口供不稳定、记忆不清。然而司法机关仅笼统认为当事人口供的数目和电子证据表面所呈现的个人信息数量能相互印证，且数量达到“情节特别严重”情形。这显然是对“综合认定”的错误运用。

2.推定方法

推定是一种非证据证明的方法，是证明困境下的替代性证明方法。推定的逻辑是根据“基础事实A”直接认定“推定事实B”，而省去了从A到B的中间推理环节。面对海量数据的证明难题，也有司法解释规定了推定的方法。

例如《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第11条规定，对批量公民个人信息的条数，根据查获的数量直接认定，但是有证据证明信息不真实或者重复的除外。

该规定实际上就是一种推定，基础事实是直接查获的公民个人信息条数，推定事实是真实的涉案个人信息条数。需要注意的是，推定一般是可以被推翻的，只要有证据证明直接查获数量中有不真实、重复的数据，就可以予以排除。根据举证责任分配一般规则，被告积极的辩解由辩方承担举证责任，证明数据不实或重复的证明任务需要由辩方承担。

此规定几乎成为司法机关办理侵犯公民个人信息等类型案件的金科玉律，因为其大大减轻了控方证明责任，将个人信息条数的证明负担转嫁至辩方。然而，辩方很难具备相应的专业技术能力来证明数据不实。实践中，很多辩方都对海量数据的真实性提出了质疑，但是由于未能进一步提供证据证明，其辩解不被法院采纳。

类似的案例比比皆是，如在“李某犯传播淫秽物品罪一审”中，辩护人认为指控的被点击数为22477次不能成立，存在有虚增、无效点击可能；辩护人还提供了“狂人采集器功能介绍、中国移动集团公司对GPRS网络运行质量现场测试”等证据，用于支持其辩解。然而，法院对辩护人出示的上述证据均不采纳。“王化琼等侵犯公民个人信息案”是少之又少的辩方举证成功案例。此案中辩方提供了超出一般水平的专业证据来支持辩护意见。公诉机关指控王化琼非法获取个人信息219124条；辩护人不仅提出了质疑，还通过随机抽取涉案信息的方式进行了实验，来证实公诉机关存在重复计算的情况。法院认可了辩方的实验数据，并据此对重复信息、无效信息进行扣除。

由此可见，推定方法减轻了控方举证责任，却无形中加重了辩方的证明责任。辩方需要证明数据的重复、无效或不真实，并且要达到较高的证明标准。

3.抽样方法

抽样原本是统计学的一种方法。抽样调查，是指从研究对象的整体中选出一部分代表加以调查研究，然后用所得结果推论和说明总体的特征。抽样也被司法机关用于海量数据证明，主要用来核实网络犯罪案件中海量公民个人信息、身份认证等信息的真实性。

司法机关从海量数据中抽取少量样本数据，核实其有效性比例，并据此计算出整体有效数据。例如在“许旋、张友刚侵犯公民个人信息罪”一审中，辩护人申请对指控的60万条个人信息进行抽样检测，公安机关随机抽样调查100条数据核实后发现，真实有效数据为90条。据此认定信息有效性达百分之九十，非法获取公民个人信息数量达5万条以上，属于情节特别严重。

抽样虽一定程度上可缓解海量数据证明困境，但抽样方法的适用存在一定乱象，突出体现为样本选择的随意性。如上述案例中，仅表述从U盘文件夹中随机抽样调查100条公民个人信息，但未言明具体采用的抽样方法。抽样是一种统计学方法，讲究抽样方法的科学性、抽样对象的同质性及抽样数量的比例要求。为保证样本的代表性，需遵循随机原则的概率抽样方法，并由此计算估计样本与总体间误差的大小以及这种估计的可信程度。

司法实践中，侦查人员大都不具备专业统计学知识，随机抽样容易被演化成随意抽样、便捷抽样，无法保证样本的代表性。此外，网络犯罪中抽样方法适用范围有限，其在解决个人信息、会员账号信息等数据方面具有一定作用，而对于动态变化的浏览数、点击数等则难以适用。

（二）理论界海量数据证明方案

除了司法实践中方案探索外，理论界也提出等约计量、底线证明等方法。

等约计量方法与传统的人工精准计量方法相对，是指按照大约等于的方式，对网络犯罪中的数额加以计量。提出者认为司法实践已经按照“等约计量”方式，对海量化的犯罪对象进行“估堆式”计量，目前的淫秽电子信息、公民个人信息以及“伪基站”发送的短信计量方式来看，实际上运用的均是“等约计量”方式。然而，对于如何具体运用等约计量方法，并未给出具体路径。还有学者认为该方法降低了刑事诉讼证明标准，将其演变为“基本事实清楚、基本证据充分”。

底线证明方法是指按照法定的入罪和加重处罚的两道坎，提供用以定案的最基本证据，即只要法定的“10+”“500+”“5000+”“10000+”等法定的“门槛”数量得以证实，即完成证明任务。然而该方案仍然无法实质性解决海量数据证明难题，其对数据规模有一定要求，并非所有此类案件都能适用。正如有学者指出我国网络犯罪具有小额多笔特征，该方案无法解决“小成本、多笔数、大收益”的中国特有问题。

还有学者提出“数据中心主义”方法，认为“综合认定”是工业时代从“人证中心主义”转向到信息时代“数据中心主义”的结果，客观性更强的电子数据本身就是对事实的证明，分析数据本身就可以认定数额，无须寻找其他证据加以印证。“综合认定”允许降低证明标准，不要求每一条信息与被害人印证，达到优势证明标准即可。

笔者认为，该观点具有技术乐观主义倾向。即便是机器产生的电子数据，也存在着不准确、不可靠等问题。电子数据的提取不规范、认证方式不科学等都容易导致海量数据计算出错；物理空间的虚假行为，如刷单、水军评论等都会产生看似客观的电子数据。因此，电子数据并非天然“客观性更强”。

综上所述，实务界和理论界都针对海量数据证明困境提出了不同的对策，但仍无法有效解决该问题。“综合认定法”“等约计量法”实质上降低了证明标准；“推定”则采取了非证据证明的替代方法；“抽样法”虽一定程度上触及海量数据真实性问题，但严格来说仅能解决样本真实性问题，无法涵盖所有数据。作为解决人类司法证明难题的消减证明负担措施，上述方法无可厚非，且均发挥了一定的司法实务指导作用。

然而，上述方法均是从侧面去寻求解决之道，试图通过某一方法即全面解决海量数据真实性难题，陷入了一元化的思维范式。若要从根本上解决此问题，恐怕仍需回归海量数据本身，通过对数据特征的观察，探究其证据特点和运用规律。

三、海量数据的多元化区分及其证明困境

海量数据作为网络犯罪的罪量要素，本质上是对犯罪行为“量”的描述，其认定的关键在于对犯罪行为的量化统计是否准确。纵观既有的证明方案，均是将海量数据视为一类整体证据类型去研究，没有任何一种方案能够准确计算其罪量。因而只能退而求其次去降低证明标准、消减证明负担。

进一步分析，现有方案实际忽视了对“海量数据”这一对象本身的审视和观察。传统证据法历来将证据分为不同的法定及学理种类，其目的就在于研究不同类别证据的证明能力及证明力规则，探究运用各类证据的客观规律，指导公安司法人员更有针对性地收集、审查、判断证据，保证办案质量。

海量数据作为一种统称的证据形态，在网络犯罪日趋复杂的形势下，实则包涵丰富的数据类型并呈现出多元化特征。正因为缺乏对海量数据本身的类型化研究及其证明规律的归纳，才导致现有证明方案陷入僵局。

通过对大量网络犯罪案例的观察，我们发现司法实践中对待不同类型海量数据实则运用了不同证明机制，并且在数据类型区分、证明困境及证明方案上呈现一定的规律性。例如个人信息类数据往往存在重复性问题，需要通过去重、抽样来解决；点击数、浏览数易存在造假问题，需要通过识别虚假数据来解决。司法判例亦为上述规律的提炼提供了良好的观察样本。

本文在实践案例观察基础上，结合数据本身技术特征，对海量数据进行类型化区分，归纳各类海量数据的证明困境并提出针对性解决方案。意在打破目前一元论证明僵局，寻求海量数据多元化证明路径，为司法人员办理网络犯罪提供可操性指导。

基于此，可以数据的描述对象及生成机制为区分标准，将海量数据分为静态数据和动态数据两大类。静态数据是以描述某种静态客体为主的数据，每条数据对应着物理空间的某个客体，包括个人信息数据、身份认证信息数据、注册会员数等身份类数据，以及音视频数据、广告条数等作品类数据；生成机制上，该类数据一般由相关人员填写或上传而产生；证明事项上涉及对信息的条数、作品的数量进行计数。

动态数据则是以描述动态行为为主的数据，每条数据对应着物理空间某个行为，例如浏览数、点击数等；生成机制上，该类数据一般由机器自动产生，一次点击、浏览等行为机器计算为一次；证明事项上涉及对行为次数的累积计算。之所以进行如上划分，是因为这两类海量数据在证明方法、审查规则等方面呈现出不同的特征及规律。

具体而言，静态数据真实性主要审查数据是否如实反映了客体的情况，其中身份类数据侧重于审查数据是否重复、是否有效，而作品类数据则侧重于对混杂性信息的排除。动态数据真实性则主要审查数据背后是否对应有物理空间真实的、具备刑法评价意义的实质行为，其证明困境集中体现为机器或人为造假行为所产生的虚假数据。

（一）静态数据及其真实性困境

网络犯罪中，静态数据包括个人信息数据、身份认证信息数据、注册会员数等身份类数据；也包括作品数据、音视频数据、广告条数等作品类数据。

1.身份类数据的真实性认定困境

身份类数据的真实性主要在于数据所反映的信息与客体本身是否一致，以及是否有重复计算的情况，其证明困境主要体现在数据重复性及无效性。

（1）身份类数据的重复性

重复性是指海量数据中具有多条同一主体的信息并对其进行重复计算，常见的有公民个人信息及网络账号的重复计算。

公民个人信息的重复。在侵犯公民个人信息类案件中，个人信息条数的重复往往是一个重要争议焦点。例如针对同一对象并存“姓名+身份证号”“姓名+住址”“姓名+电话号码”等情形。按规定，一位公民的信息应当计算为一条，不应重复、多次计算，特别是当数据量大时，信息的重复计算会严重影响定罪量刑。

实践中，相当一部分司法机关直接按照查获的数据量进行认定，不会主动进行去重。如在“胡某甲、张某等侵犯公民个人信息案”中，张某辩护人提出，原判认定的公民个人信息9800万余条中90%都是重复的，要求重新勘验。然而二审法院则简单认定9800万余条个人信息数有公安机关依法制作的勘验笔录、张某使用的个人电脑、U盘等证据证实，并未进行去重操作。然而，也有部分司法机关会主动进行信息去重处理，例如在“张峰、李志高侵犯公民个人信息罪，谈瑞侵犯公民个人信息罪、诈骗罪”一案中，公诉机关指控张峰非法获取公民个人信息1156万余条，法院查明其中有大量重复的信息，经去重整理后认定为600余万条。

网络账号的重复。在网络赌博和淫秽物品传播等犯罪中，“参赌人数”和“注册会员数”等网络账号是定罪量刑的重要依据。网络账号体现了虚拟空间的身份信息。空间的虚拟性带来身份信息认定难题，因为经常出现一人注册多账号情形。如果仅仅对网络账号进行统计，就有可能造成实际涉案人数的重复计算。

如“黄贤文传播淫秽物品牟利罪”一案中，辩护人提出存在会员多次和重复注册的情况，公诉机关指控的46784名会员数是会员注册次数，不能直接认定为网站的真实会员数。上述辩护意见被法院采纳。网络空间身份信息的重复性主要体现在虚拟空间的数据重复，即一人多账号的情形，应当结合后台的注册用户实名信息，对重复网络账号进行识别和删除。

（2）身份类数据的无效性

身份类数据的无效性主要指个人信息中出现错误或无效的信息，如某些案件“公民个人信息包”中姓名与电话号码、住宅并不匹配，电话号码错误、空号，或者是匿名化个人信息。

该类“虚假”信息不符合侵犯公民个人信息罪中关于信息“可识别性”的要求，不具备刑法评价的实质基础，不能达到罪责刑相适应要求。例如在“张会超侵犯公民个人信息罪”一案中，公诉机关指控被告人发送给常某的公民个人信息共计100万余条。被告人则提出其中包含大量无效信息、捏造的不实信息，如手机号码为空号或停机，姓名栏为某先生、某女士，地址栏为某省、某市等，前述信息均应予以剔除，有效信息条数应在5万条以下。虽然该案中法院没有采纳当事人辩解，但该案反映了目前侵犯公民个人信息案件中普遍存在的信息无效、信息不实的证明困境。

2.作品类数据的真实性认定困境

本文所指“作品类数据”主要包括图片、书籍、音频、视频等，这类数据往往涉及知识产权类犯罪以及传播淫秽物品类犯罪。作品类数据的证明困境主要体现为混杂性，即涉案的作品并非单独出现，往往混杂于合法作品、无关作品、无效作品中。

（1）涉淫秽类作品往往混杂在非淫秽作品、无效作品中。如在“邱成林、胡望、林春传播淫秽物品牟利案”中，公诉机关指控相关网站达5595957次点击数。但经查明，涉案网站还包含一定的非淫秽电子信息，其中淫秽电子信息中还包括不能正常打开或观看的无效信息，而公诉机关提出的5595957次点击数是整个网站的点击数。该案中，淫秽视频主要混杂在非淫秽视频及无效淫秽视频中，而司法机关所统计的作品数量（及其点击数）则是基于所有作品，显然不准确。

（2）知识产权侵权作品混杂在合法授权作品、无效作品中。如在“孙强、成都五二天科技有限公司侵犯著作权罪”一案中，一审法院认定侵权作品数量为8449个。二审经重新鉴定后，认定其中已授权漫画210部，“空漫画”548部，无法查询到标题及作者的106部，并将相关数据进行剔除。该案中，一审法院所认定的侵权作品数量明显具有混杂性，二审则将无效作品、合法授权作品进行排除。

综上所述，刑法所评价的图片、电子书、音视频等作品的理想环境是其单独出现，因为便于直接对涉案数据量（及其点击数、浏览数等）进行统计。然而，实践中作品类数据往往混杂在与案件无关数据、合法数据、无效数据中。这部分数据不具备刑法评价意义，而现有证明方案又很难将上述数据剔除，因而造成了作品类海量数据的混杂性难题。

（二）动态数据及其真实性困境

网络犯罪场景中，动态数据主要包括点击数、浏览数、转发数、拨打电话数等。动态行为数据主要基于人机交换技术产生，主体在物理空间的点击、浏览、转发等行为在网络空间留下数据痕迹，并被机器进行“计次”，一次行为累计为一次数量。法律则将该类行为数据的累计作为罪量进行评价。

然而，由于双层空间的隔阂，机器无法获悉动态数据背后所对应的行为是否具有刑法评价的基础，如一人点击多次、机刷流量所产生的数据机器无法识别，从而造成动态数据重复性、虚假性证明困境。

1.行为数据的重复性

行为数据的重复性，即同一行为人短时间内大量重复行为所产生的数据。在浏览点击网页、视频、图片等时，经常出现同一用户短时间内多次浏览、点击情形。如“自点击数”，即网站本身为了增加人气或是进行系统测试，自行大量重复性点击行为。然而，机器并不能区分自点击行为背后的真实用意，重复性行为均被计算在内。

根据罪责刑相一致原则，上述重复性行为应当只评价一次。司法机关若直接根据机器计数进行认定，则容易造成对一人多次行为的重复评价。以“刘某传播淫秽物品案”为例，控方指控的点击量达20036次，辩方提出该点击数不能准确反映视频的实际被点击数，因为浏览网页时网民通常会对某一界面进行多次点击或观看，因此存在同一人多次点击的情形（公安机关测验，同一台电脑连续点击视频，在视频底部会记录多次点击数量）。经过两次退查，始终无法查清本案涉及的实际点击量。最终检方以不起诉处理。

2.行为数据的重复性

行为数据的虚假性，即人为或机器造假行为所产生的数据。实践中更常见的是对浏览量、点击量、粉丝量进行造假的行为。一些网站为了提高人气及广告收入，会采取机刷流量、购买僵尸粉等造假行为。有些网站甚至故意将点击率的计数器初始值设为10万次以上，或者设置为点击一次计数为10次甚至更多。一旦相关行为入罪，上述故意造假产生的数据则被纳入法律评价中。

根据罪责刑相适应原则，刑法应当只对真实发生的、具有社会危害性的行为进行评价，即真实的淫秽视频观看行为、真实的侵权作品阅读行为等。因此，如何识别并扣除上述造假行为所产生的数据就成为证明难点。

如在“邱成林、胡望、林春传播淫秽物品牟利案”中，公诉机关指控涉案网站点击数共计5595957次，被告人则辩解有时为了骗广告商会使用虚假流量，每日的点击量是1万~2万，并进一步提出应当扣除网站上弹窗点击数、自行刷新点击数等。被告人的上述辩解得到了法院的支持。

在“肖加木、李荣贤、杨奇坤开设赌场罪”一案中，控辩双方就参赌人数产生争议。辩方提出涉案微信群内存在着一些没有互动能力、以沉默为表现形式，在赌博群内虽在线却不参与投注，只围观、凑人数、增人气的恶意注册用户（网称僵尸粉），以及利用注册的小号虚假投注而不结算实际输赢的“托”，该部分应予剔除。对此，公安机关予以认可并进行了相应扣除。

综上所述，动态行为数据的重复性及虚假性困境，均根源于物理空间与虚拟空间的区隔性。由于双层空间区隔所造成的机器计数规则僵化，即机器不具备“主观评价”功能，无法识别数据背后所对应的实际行为、行为产生者及其意图，从而将不具备刑法评价意义的虚假、重复行为数据统计在内，不符合罪刑相一致原则。

四、海量数据多元化证明机制的构建

对海量数据进行多元化区分的意义在于探究不同类型数据的证据特征和运用规律，发现其证明困境的症结点，从而有针对性构建不同的证明机制，并指导公安司法人员掌握其证据运用规则。

具体而言，对于身份类静态数据的重复性、无效性问题，可构建以去重、抽样方法为主的证明机制；对于作品类静态数据的混杂性问题，可构建以专业鉴定为主的证明机制；对于动态行为数据的重复性、虚假性等问题，可构建以智能算法识别为主的证明机制。

另外，司法实践中既有的推定、证明责任分配等规则亦应当进行适当调整，与上述证明方法配套运用。

（一）静态身份类数据的证明机制构建

静态身份类数据的证明困境主要体现在重复性和无效性，前者是指同一主体信息的多次重复计算，后者是指由于信息的空缺、无效而无法识别到个人。前者可采取技术去重的方法，后者可通过科学抽样方法来核实信息的有效性。

1.去重的方法

对身份类、账号类数据，一般可结合身份信息的特征，选取具有人身识别功能的数据作为去重的同类项。如在“张会超侵犯公民个人信息罪”一案中，法院针对数据重复问题做了去重鉴定，主要采用手机号、身份证号、银行卡号、邮箱号作为去重的同类项。

需要注意的是，（考虑到重名的可能性）实务中一般不会单纯将姓名作为去重同类项，而是选择具有唯一识别性标识进行去重，或者将多维度信息进行组合去重。如在“晏旎侵犯公民个人信息罪”一案中，辩方认为应当以手机号码及姓名双向去重，控方及法院最终却仅以手机号进行去重，因为若根据姓名去重则会删除重名的公民个人信息。

此外，刑事案件中证明责任本就由控方承担，控方应当负有确保其所提交数据真实的义务。对于“去重”这一技术门槛并不高的证明方法，侦查机关或控方应当自行进行去重操作，不应当再将这一责任转嫁至被告方。

2.抽样的方法

身份信息类数据无效有两种情形，一类是某些关键字段空缺造成的无效；另一类是信息错误造成的无效，即查获的身份信息与物理空间真实信息不相符。

对于前者，可以通过数据清洗技术来进行剔除。而对于后者的识别则比较困难，因为无法将查获信息与相关人员进行一一核实,目前行之有效的方法是抽样。抽样方法也被相关立法所确认，如《人民检察院办理网络犯罪案件规定》第二十二条规定，对于数量众多的同类证据材料，在证明是否具有同样的性质、特征或者功能时，因客观条件限制不能全部验证的，可以进行抽样验证。

司法实践中也常见抽样核实的做法。如在“钱涛、李玉琪等侵犯公民个人信息罪”一案中，初始鉴定出被告人钱涛10072860条符合手机号码规则的记录（已去重）、符合2882824条身份证号码规则的记录，经对姓名、手机号码进行真实性验证，确定真实率为58.6％，确定5902696条符合手机号码规则的记录……该案中“真实性验证”即为抽样方法。

目前，司法实践中应注意抽样方法的科学性和专业性，以及符合相关的程序规定。在抽样方法上，可根据案件具体情况选取简单随机抽样、等距抽样、分层抽样等方法；在抽样对象上，要注意对象具有同质性，以保证样本的代表性。

此外，抽样样本应当符合最低比例要求，不过目前网络犯罪领域关于抽样比例的司法解释及相关行业标准仍有待出台。在抽样程序上，按照界定调查总体、设计和抽取样本、评估样本与对总体进行估计的流程来进行。必要的时候，侦查机关可聘请专业人员作为专家辅助人来协助其完成抽样任务。

（二）静态作品类数据的证明机制构建

静态作品类数据的证明困境缘于大数据本身混杂性特质，带有技术时代的烙印。面对该混杂性困境，无论是司法机关还是辩方都难以具备专业能力进行识别，目前可行的办法是委托专业鉴定机构对涉案作品数量进行鉴定或者检验。

针对作品类数据的混杂性，专业机构一般会根据案件具体情况采取不同的鉴定方法，例如核验视频、图片等作品的实际内容，计算视频类作品的时长，根据视频、图片链接及命名规律等来进行检验。

在“孙强、成都五二天科技有限公司侵犯著作权罪”一案二审中，被告人提出在指控侵权作品中有部分仅有封面或风景照片，有部分存在同一作品以不同ID存放的情况，还有部分已作下架处理不能查看具体内容，上述情况应从侵权作品数量中扣除。

对此，公安机关分别两次委托鉴定，鉴定机构依据比较专业的计算及比对方法，将其中合法作品、无效作品等进行剔除。该案中漫画作品链接具有一定的规律性，鉴定机构在检材数据库和样本数据库中对作品链接及作品名、作者名进行比对，并通过对每部漫画第一张、最后一张及中间两张图片检验等方式，来确定有效的漫画作品数量。

（三）动态数据的证明机制构建

动态数据证明的核心在于如何区分自然行为产生的数据与机器或人为行为产生的非正常数据。目前，仅凭主观经验判断较难解决这一问题，可行的思路是通过智能算法来识别“非自然”行为所产生的数据。因为相对于正常行为而言，“非自然”行为往往具有一定的规律可循，例如机器自点击数、刷单、刷流量等行为可能在IP地址上及时间上具有同一性或相关性，僵尸粉可能在网络活跃度上不如一般用户，虚假评论可能具有固定的语言模版等。对此，可在“非自然”行为模式规律基础上，构建相关算法来自动识别。

目前，算法识别的思路在实务中也有所运用。不少涉及“流量统计”的案件会采用诸如“CNZZ”等第三方中立平台去统计流量，原因就在于第三方平台一般采用其较为专业的流量统计方法，可以去除其中的虚假流量、重复流量。

如在孙强、成都五二天科技有限公司侵犯著作权罪”一案中，一审法院认为CNZZ公司统计的点击用户量反映的是吹妖网上一部漫画作品链接网址被点击浏览的最少人次，二审法院对此也予以采信。

此外，越来越多的大型网络平台也开始自主研发算法来识别其系统中的虚假或违规行为，算法识别结果亦可被法院采纳为证据，并有可能在未来成为一种普遍的新证据形态。

例如亚马逊公司开始收集大量用户浏览习惯、鼠标在位置及停留时间等行为规律数据，并通过算法从MAC位置和IP流量、评论比例、买家账号新旧程度、产品转化率等角度，来识别涉嫌刷单炒信的数据。

在“北京爱奇艺科技有限公司、随州市飞流网络科技有限公司与上海七牛信息技术有限公司不正当竞争纠纷”一案中，爱奇艺公司通过其后台反作弊系统，抓取到飞流公司采取的虚假刷量行为。该反作弊系统综合考虑视频的人均时长、次均时长等多种指标以判断是否属于刷量行为。系统统计飞流公司通过挂机软件对爱奇艺网站的80001部/集视频共计实施了278275797次访问，均被一、二审法院认定为非法刷量访问日志数据。

特别是近些年网络平台风控系统、反作弊系统逐渐推广部署，如《中华人民共和国反电信网络诈骗法(草案)》（2021）中多处规定了电信业务经营者、金融机构、支付机构、互联网服务提供者要建立异常账户等监测识别机制。此类算法系统识别结果作为证据使用或将成为一种趋势，也为如何识别虚假行为数据提供了应对之策。

综上所述，本文主要对静态身份类数据、静态作品类数据及动态行为数据的特征及其证明困境进行了归纳，并有针对性地提出了海量数据多元化证明机制。通过去重、抽样方法解决身份信息数据重复性、无效性问题，通过鉴定方法解决作品类数据混杂性问题，通过算法识别方法解决动态行为数据虚假性问题（见表2）。

表2 海量数据多元化证明机制

数据类型	具体形态	证明困境	证明路径
静态数据	身份类数据	个人信息条数；身份认证信息组数；注册会员数等	重复性无效性	去重方法抽样方法
作品类数据	音视频文件数；图片数；文章、书籍数等	混杂性	鉴定方法
动态数据	实际被点击数；转发数；浏览量；短信发出条数；关注人员账号数等	重复性虚假性	算法识别方法

（四）现有证明责任及推定规则的调整适用

本文所提的海量数据多元化证明机制构建，并不妨碍现有推定规则及证明责任的配套适用，因为二者是从不同层面来应对海量数据真实性困境。

目前司法实践中关于网络犯罪海量数据已形成一套约定俗成的证明机制：公诉方基于综合认定得出推定数量；辩护方针对推定数量承担证明责任；公诉方对反驳进一步承担证明责任。

在第一环节中，鉴于海量数据证明难，公诉方往往基于概括认知直接推定出数据量；第二环节中，证明责任转移到辩方，然而辩方更难具备专业能力去完成海量数据“不真实”的证明任务，至多提出一些初步的线索或证据，也很难被司法机关所采纳。

对此，现有的证明责任分配机制应进行适当调整。可效仿非法证据排除之证明责任倒置规则，并建立海量数据证据排除机制。

具体而言，在第二环节，当辩方提出初步的线索或者材料，对海量数据真实性提出合理质疑后，则转由控方来承担排除此合理怀疑的证明责任。控方可根据案情具体情况采取去重、抽样、鉴定、算法识别等方法。若控方无法准确认定海量数据，导致不能排除合理怀疑的，则应将辩方提出质疑部分的数据排除或者直接将该证据整体排除。

司法实践中亦有少部分案例采用证明责任倒置规则，如邱成林、胡望、林春传播淫秽物品牟利罪一案中，公诉机关指控三被告人所制作网站达到5595957次点击数；辩方则提出“实际点击数应当扣除网站上非淫秽内容点击数、弹窗点击数、自行刷新点击数”等辩解意见。法院采纳了辩方意见，认定公诉机关指控的“实际被点击数”达到“情节特别严重”证据不足。

需要注意的是，对于辩方提出的辩解并非一味支持。应当结合辩方本身的专业能力及证据掌握程度，由其负担提供初步线索或材料的任务，或者提供合理的令法官信服的辩解意见，并需达到“产生合理怀疑”的程度。

例如在“孙强、成都五二天科技有限公司侵犯著作权罪”一案中，针对控方提出的8238部侵权漫画作品指控，辩方仅口头提出其中有部分合法授权的作品，但未提供相关证据进行佐证。法院则认为被告单位有能力提供部分漫画作品取得著作权人许可的相关线索（如授权合同）。因此，被告单位应提供取得著作权人许可的相关证据线索，再由公安机关对该证据线索进行查证。

再如“北京爱奇艺科技有限公司、随州市飞流网络科技有限公司与上海七牛信息技术有限公司不正当竞争纠纷”一案中，针对原告方提供证据证明的被告方2.7亿余次刷量数据，被告方飞流公司多次就该数据提出反驳，但未能提出相关证据；而作为该刷量数据统计依据的柠檬挂机软件等系由飞流公司开发、控制，其完全有能力通过提交对应时期的后台数据来查明挂机软件当时调用的插件信息及UA信息等。因此，法院并未采纳被告公司的辩解。

综上，关于海量数据的推定及证明责任规则，可与本文提出的多元化证明机制并行适用，但应当对其进行适当调整。由控方承担海量数据真实的证明责任；辩方在其专业能力及证据掌握程度基础上，提供初步的线索或材料；若控方无法查实海量数据，则应排除相关证据。

五、结论

海量数据证明困境是我国司法领域长期面临的难题之一。该问题的产生表面上缘于我国日益扩大的网络犯罪态势及立法特色，实质原因则在于物理空间与虚拟空间的区隔及其评价模式的差异，物理空间评价实质行为，而虚拟空间则只评价机器行为及数字痕迹，而虚拟海量数据难以一一对应至实质行为。

此外，传统定罪量刑的精确性思维与大数据混杂性特征的冲突亦加剧了这一困境，传统以精确数额、物数、人数、户数作为罪量的模式难以适用于海量数据。目前司法解释及理论界所提出的综合认定、推定、等约计量法、底线证明法等主要是消减证明负担的权宜之计，并未回应海量数据真实性证明问题的本身。

若要有效解决此问题，仍应回归海量数据本身进行探究。探索不同类型的海量数据特征及其证明规律，并针对性构建多元化证明机制。就目前司法实践观察而言，静态身份数据主要体现为重复性、无效性困境，可通过去重、抽样方法解决；静态作品类数据主要体现为混杂性困境，可通过专业鉴定、检验方法解决；动态行为数据主要体现为虚假性、重复性等问题，可构建相关算法来识别非正常行为产生的数据。

具体案件中，要注意观察产生争议的海量数据其本身生成机制，是对动态行为的统计、还是对静态客体的描述；并查找其证明困境症结点，是重复、虚假亦或是混杂等问题，从而有针对性提出解决方案。当然，随着网络犯罪态势的复杂化，未来可能会出现更多类型的海量数据、暴露新的证明困境，然而本文的“多元化”思路仍可为解决此类问题提供参考。

另外，本文仅从证据法及对策论角度来回应海量数据证明问题。该问题深层次原因可能还需回归刑事立法，结合双层空间的区隔性及大数据时代特征，检视网络犯罪中将个人信息数、点击数、浏览数等作为罪量合理性，如可探索建立单一定量标准与其他情节相组合的新型定量标准，构建适应时代特征及具有可操作性的定罪量刑标准体系。

（王燃：《大数据侦查》，清华大学出版社，2017年）

以下点击可读：

王燃：大数据证明的机理及可靠性探究

新媒首发 | 王燃：大数据时代侦查模式的变革及其法律问题研究

程雷：大数据侦查的法律控制（完整版）

林喜芬：大数据证据在刑事司法中的运用

李训虎：刑事证明标准“中体西用”立法模式审思——兼评大数据、人工智能参与证明标准构建

李奋飞、朱梦妮：司法责任制改革的大数据方略

李奋飞、朱梦妮：大数据时代的智慧辩护

郑曦：大数据时代的刑事领域被遗忘权

北京市丰台区律协成功举办电子证据与大数据证据审查与质证互动式培训