新书推介| 林维：用数据说话

在线学术论坛 2021-12-20

我们特别希望能够运用这样一种新的研究范式，挖掘现有数据背后的司法真实，尤其是我们更希望提倡一种崭新的计算社会科学的理念，努力为传统人文社会科学的创新和发展贡献自己的力量。

摆在读者面前的这本书，充满了这个团队的理想，虽然目前的工作仍然有诸多的不理想，并且自己也发现实现理想和目标的难度日益加大。但未来我们仍然想要在不断吸取经验教训的基础之上，坚持这样一种方式，力求做得更加完美。

学法律的人经常会说的一句话就是“用证据说话”，在本书中我们想尝试着“用数据说话”。

数据不仅仅是数字，一般而言，司法意义上的数据信息应当包括：

微观上，具有体系性的司法数据，目前首先表现为裁判文书本身；而在宏观上，表现为司法系统的汇总统计数据，以及在整个司法流程中所积淀的各类数据信息。两者缺一不可。

为什么要用数据说话，最初的原因就在于我们努力想使法学的研究更加务实、更加精细化。

仅以刑法研究为例，我们就可以发现这些具体微观的裁判文书公开本身对于刑法研究的重要意义。众所周知，刑法学分为总论、分论，从1979年《刑法》颁布以来，刑法总则理论尤其是犯罪论发生了突飞猛进的变革。

20世纪80年代的刑法总论文献和四十多年后今天的刑法总论文献，无论在刑法理念、研究范式、使用话语乃至援引文献上，都迥然不同，仿佛真的具有世纪差异。

刑法总论在保持中国特色的前提下，越来越多地吸收、汲取了国外刑法理论尤其是德日刑法的概念体系，总论的精细化、理论化在最近十年间达到了前所未有的程度，并且这种整体意义上的精细化仍有继续发展的倾向，甚至有的学者认为我们应当反思中国刑法总论的德日化倾向，或者必须回应某些实务工作者对理论如此精细化是否具有实务必要和意义的质疑。

某种意义上，总论的精细化超越了实务而构筑了一个严谨的专业领域。但是，四十多年来，刑法分论的研究水平却远远滞后，虽然同样取得了一定进步，但是这种水平的进步远远落后于总论的进步，也远远落后于实务人员的期待和要求。

分论的研究范式、讨论话语乃至文献资料，较之从前有变化但没有整体性的、根本性的差异。分论的研究远远没有获得其应有的地位，反而成为目前刑法学研究的一个洼地，一个供需严重失衡的知识市场。

这一低谷即使在教义学研究盛行的今天，仍然亟待极大的填补。

无论是法学教授还是博士研究生，很多人都不愿意或者较少地去深入细致研究、写作分论本身的题目，或者研究的成果远未达到实务人员渴望的水准因而时常为实务人员所诟病甚至嘲笑。

分论的研究远远没有达到理想中的精细化程度，而精细化本来是分论研究更应该具备的特点。

这样一种状况的产生，很大原因在于从整体上看，刑法知识的积累及其体系化仍然是一种自上而下的模式；在于我们对分则具体罪名的研究缺乏体系性；在于刑法研究者整体上仍然没有对司法实务中所产生的分则的具体问题集聚应有的、足够的研究兴趣；也在于在技术上案例仍然没有能够成为一种简易的可获得、可研究的数据，使得学者较为缺乏这一研究资源。

立法乃至学者的教义学阐释在这样一种体系中，从一开始就得到了无上的尊崇，但是基层的司法经验却未能得到足够充分的尊重，现有的体系也未能够及时、完整、有效地将基层司法中所遇到的问题体制化、规模化、简易地反馈至研究人员手中。

研究者因此对于那些真正隐藏于司法实务之中的法律问题没有清晰的把握和了解，因此理论始终藏于书斋，而缺乏案例的反复验证、淬炼和不断修正、提升。

刑法学的教育和研究因此在这个意义上仍旧和刑事法的实践存在着若有若无的隔离。

没有案例的支撑，没有足够充分的渠道去了解司法实务中所产生的刑法疑难复杂问题，就无法真正全面、成熟地理解刑法的实际运用。

分论的研究恰恰更需要充足的案例支持，它不可能完全凭借研究者的想象去构建。刑法分论的研究目前实际上正是处于这样一个洼地的位置，因此更具有富矿的意义，需要我们去集中挖掘。

目前很多学者越来越重视对真实案例的分析，并因此对裁判文书给予了越来越多的重视，可以看到的是，在学术论文中裁判文书的引用已经达到了前所未有的数量，这样一种可喜的变化表征着这一方向性的改善。

指导案例制度在本质上也是一种审定数据的运用，虽然目前指导案例的数量过于微小而无法发挥其合理作用。至今，最高人民法院共发布24批139个指导案例，最高人民检察院则已经发布18批69个指导案例。考虑到其中很多指导案例的宣示性强于指导性，或者其裁判要旨早就已经达成共识，其意义就更打折扣。

在这一问题上，我们必须承认，有数量才可能会有力量，而目前这一数量还完全无法实现指导案例制度最初的设计理想，还不具备推动整个司法案例规模化发展的力量。

当然，中国裁判文书网很好地解决了这样一种数据公开的问题，截至2018年年底，中国裁判文书网公开裁判文书已经超过6000万份，网站访问量突破210亿次，用户覆盖210多个国家和地区。

事实上，越来越多的学者已经习惯于去搜索裁判文书，以便发现问题、验证自己的观点或者尝试着基于现有的学术分析框架进行整理分析。也有越来越多的国外学者对我国最高人民法院公布的全国性裁判文书给予了高度关注，并加以研究，希望能够一窥中国司法的现状及其规律，甚至有的国外学者试图分析中国刑事裁判文书是否能够反映民族因素变量和量刑变化之间的关系这一我们通常不认为是问题的问题。

数据的价值就在于它不仅仅能够告诉我们原来所了解的问题，能够让我们知其然并且知其所以然；更重要的是它能够使我们发现原来并不知道的问题或者视角，并最终帮助我们解决这些问题。

但是，目前困扰我们的主要是技术方面，我们面对海量的裁判文书，如何能够发现问题、挖掘问题，并进行规则的提炼和范畴的归纳。

海量数据所带来的问题就在于，我们可能会陷入数据的沼泽或者海洋之中，而被其淹没，却始终不清楚我们该如何掌控、运用这些数据。这样一种感觉，大体上就像一个极度饥渴的人在面对汹涌而来的巨浪时所面临的危险。

中国裁判文书网实现了司法信息的数字化，这是数据化的必要前提，但是经过简单数字处理的海量数据事实和大数据理念之间的不同在于，前者仅仅在客观上强调了数据的规模，但仅仅简单的多或者纯粹的大是不够的，数据要产生价值必须要能够被分析，甚至一般的分析也是不够的，它必须基于一整套科学的分析方法，如此才能真正科学地理解人所参与的司法行为，包括那些连个体参与者可能都不知道的个体行为汇聚成为集体行为后所产生的影响问题。

因此，简单的、原始的数据沉淀或者数据库的素材容量只是让我们成为司法案例数据最多的国家，但尚未使我们成为司法数据价值最大化的国家。要实现后一目标我们仍需努力。

司法数据的另一表现形式就是汇总的统计数据，其重要意义在于这些统计数据是真正的一体化刑事法学研究的基石。

刑事法学研究的最终目标是要确立科学的犯罪反应机制，制定合理的刑事政策，实现刑事法治。

其前提在于我们对犯罪现象必须具有准确的认识和把握。缺乏对犯罪的真实了解，就很难构建合理的刑法反应。

这种了解至少应当包括：

当前具体犯罪的现状究竟如何表现为可视化的数量状态、具体犯罪中各个结构性要素的具体状况、过去特定期限内的犯罪趋势如何客观演变；刑罚的结构在具体裁判中如何分配、量刑的各个要素、制度的数据化呈现；任一要素究竟是如何影响刑罚裁量的；刑法理论在类似案件中应用的数量和比例，究竟什么是所谓的通说和司法惯例；刑事诉讼各阶段的诉讼行为涉及的各种数据以及我们目前仍不熟悉、尚未掌握或者缺乏重视的其他一些问题。

通常而言，例如，如果我们不了解死刑在具体罪名中的适用数据，就无法考量死刑废除的影响和未来走向；如果不了解审前羁押的各类数据，就不能知晓现状的严重性；如果不了解羁押的整体成本，我们对于审前羁押、监禁刑的经济分析实际也只能是凭借想象，尤其是具体司法制度的设计例如量刑基准的设定，均需要对相关判决文书和数据有所了解。

很多理论、制度，我们似乎可以说出道理来，但是我们没有事实和数据。我们习惯用直觉说话，习惯用经验说话，习惯用个别事实或者部分样本说话，喜欢自以为是、以偏概全、主观臆断，这样一些研究在科学角度就很难为人所认可了。

在立法上也是如此，对于刑法中具体犯罪的立法，需要一系列数据加以支撑以论证其合理性和正当性。

进一步而言，有时候在刑事立法过程中，我们为了论证某一个行为需要被规定为犯罪，于是就宣传这一行为的猖獗广泛，但是立法之后往往发现有的罪名每年的适用数量屈指可数，我们需要探讨这究竟是立法的问题，还是司法的问题，这些都同样要求数据的准确性。

又例如最近讨论的是否需要降低未成年人刑事责任年龄的问题，除了价值的判断和立场的阐述，其实首先更需要了解未成年人实施严重违法行为的真实数据及其发展趋势。

甚至我们在进行一些刑法理论的分析时，可能也需要一些数据乃至模型的建立。

例如诸多相当性的判断，是否需要有一个大体的数据调查。储槐植老师很早之前就曾经提出，刑法中因果关系的确定作为一个概率问题，间接故意作为一种模糊心态，可以考虑建立某些数学模型以比较精确地反映刑法的某些规律，便于刑事司法工作的实际应用。当然后者作为一种数量刑法学，同司法统计学存在不同，但毫无疑问其同样依赖海量裁判的司法数据所反映出来的倾向和趋势。

司法领域权威数据的公布意味着对于公众知情权的尊重和保障，是国家管理透明、民主、公正的标志之一。一般民众对此具有知情权，并有权对其作出自己的客观判断，进而对国家司法予以理性监督，实现管理国家的政治权利。

政府有义务向公众尽可能地说明司法运作的现状、动态趋势以及司法运作的逻辑及其事实依据等，这也是公众评估司法效果的一个标准，同时也是衡量我们的治理能力和治理体系是否现代化的一个重要侧面，更是我们对自己的管理水平和法治水平是否自信的一个标志。

有学者指出，公布犯罪统计数据，能够促进犯罪治理的透明化，使刑事政策的调整、刑事立法司法的重大决策和评估更加科学化、民主化，能够凝聚多方力量，获取人民群众的理解、信赖和支持，增强人民群众和政府之间的互信与合作，形成系统治理、依法治理、综合治理、源头治理的格局。

犯罪治理体系和治理能力的现代化，越来越多地依赖于日常治理行为的数据化。

如果欠缺这些数据，我们无法在一个正确而坚实的基础之上凝聚知识，民众对于法治现实的了解往往浮光掠影、支离破碎，更多地来源于对身边事物的直觉判断和道听途说，甚至在某种程度上影响对未来生活的预期与安排。

数据可以使我们避免对法律现实产生误解、错觉以及误判，可以使我们的判断减少一些直觉色彩而能够具有更多的理性逻辑，从而使我们的规范和结论具有可分析性、可解说性、可回溯性，因而具有更多的科学性和形式的正当性，并为规范的实质正当性奠定基础，从而也为更好地解决现实问题提供理论武器。

长期以来，我们已经习惯了缺乏数据的法学研究，因此有时相关结论往往显得较为粗糙含糊，立法的科学性就较难实现，司法的科学性、政策的合理性就容易出现偏差，政策的制定不同程度地依赖于直觉和想象，使得司法研究的实证性过差。

在可以找到数据的现有前提下，通过运用更为先进而实用的统计工具对上述裁判文书进行大样本的大数据分析，这已经成为开拓法学研究视野的一个崭新视角，并且极大地丰富了我们对于司法现实的理解和想象。

通过大数据分析，我们才能对全国犯罪情况有大体较为亲近而清晰的理解和梳理。

毫无疑问大数据将会使我们的司法变得前所未有的精细，甚至会让我们更为吃惊地认识到自己所无意之中创造的司法世界的陌生真相，无论我们是否愿意看到这样的结果。

晚近几十年中，各人文社科领域先后涌现出一股持续至今的实证化研究热潮，并呈现出愈发波澜壮阔的发展趋势。

当代法律实证研究也同样得到迅猛发展，在我国，首先兴起于刑事法学研究领域的实证研究已经是法学研究者所接受的一种研究范式，填补了理论与实践之间原本难以弥合的罅隙，使立足于现实的理论更具解释力和指导力。

但这样一种研究范式高度依赖于数据的收集、分析、使用，因此数据越广泛全面，分析工具越科学，对于问题的研究就会更深刻和细致。

事实上，如果我们进一步提倡计算社会科学的概念，希望通过新的研究范式的运用，创新和发展传统人文社会科学，就需要建立各种模型进行更为精细的分析，就需要大量的真实可靠的数据才能进行所谓的“计算”。

因此提倡这一理念的前提就在于我们能够拥有足够的、有效的数据。用数据说话首先需要说话有数据，但是恰恰在这一问题上，我们首先遇到了很多困难。

中国并非没有犯罪统计，我们存在着不同的数据来源，层层报送汇总，我们的公检法司等部门各有各的统计体系和制度，也有专门的统计机构和统计结果，虽然对其中部分数据的权威性或可信度存在争议，但无论如何这些数据对于我们了解国家司法运作、法治成就、社会现状具有基础性作用。

例如国家统计局编印的《中国统计年鉴》中有关于刑事司法部分的统计资料、中国法学会主办的《中国法律年鉴》、最高人民法院研究室编写的《全国人民法院司法统计历史资料汇编：1949—1998（刑事部分）》以及法院司法统计公报等。

不过总体上看，一方面，这些数据本身的统计项目过于简单、缺乏系统性，而且对相应数据的背景、来源、统计口径等缺乏说明，甚至造成不同机构之间的数据相互矛盾的情况，因此不易开展更有意义、更为深入、更加精细的学术研究。

就好像相机的像素一样，像素越高拍摄的图片越清晰，也就越可以将图像放大清晰观察，而现在的状况毋宁说只是实现了对所观察司法现象的宏观、粗略、模糊的拍摄，禁不住对其加以放大阐释，有时甚至在放大后才发现此前所得出的结论与真实的物体大相径庭。

另一方面，数据的实时性、公开性和共享性不足。

除了上述数据来源以外，很难系统获得国家或者地方的司法统计数据，有的虽然存在，但需要大海捞针一般求索、搜集，查找检索极为不便。即使可以收集零散数据，也只是偶见于相应报道、官方的内部文件或网络中，专业研究的学者都难以知悉大量数据，更何况普通民众。相关机构内部会召开司法统计会议，但是对外而言，这些数据往往处于保密状态，对外公布的仍然是高度概括的粗糙数据。

更严重的是，这些投入了大量人力物力才获得的数据，统计出来之后甚至可能很少有专业人员真正地以科学的方法对其加以分析，而仅仅是简单地罗列、报告，然后束之高阁，研究人员无从了解、使用。

数据需要遵循一定原则予以适度公开、共享，并且只有在流动中才能创造价值，没有流动性这些大数据就是大量死的数字而已。

同时，我们的犯罪统计往往又不具有体系性、完整性，没有基于一个科学的标准和问题导向、研究需求来搜集数据，没有构建一个合理的司法统计数据的搜集尤其是公布制度。

甚至有时因为要公布数据，反而要将准备公布的数据有意模糊、粗糙处理或者进行更低像素的“拍摄”，有意语焉不详，令人无从把握，让公开数据不具可分析性，使得数据的可用性较差，数据的系统性、可靠性难以保证。

总之，因为数据的支离破碎，研究者经常陷入盲人摸象的状态。

显然，有关的法律数据往往较为零散而不成体系，数据的流动性极弱，大量司法数据并不实时在线，而是碎片化的、内存性的、封闭性的，这就直接造成司法面貌的模糊性甚至神秘性。

在这样一种背景下，法律的数字化研究就缺乏现实基础。人们也因此无从了解我们的司法究竟是一种什么样的状况，导致人们对司法普遍存在程度不同的不信任，更无法认识到法治的进步。

尤其对于法学研究人员而言，无法考察司法全貌，理论和现实之间产生巨大鸿沟，使得学术研究并不具备扎实的实证基础，实务人员对理论颇不以为然，法学研究只能是纸上谈兵、空中楼阁。

这也成了法学共同体难以建立的原因，因为掌握事实有差异、陈述语言亦不同。

令人难以理解的是，为什么我们可以公布较为详尽的经济数据以便经济学者进行研究，更便于国民了解自己国家的经济形势、动态，为什么就不能公开司法数据呢？

诚然，司法数据中有个别数据较为敏感，例如死刑数据似乎是一个神秘的幽灵，它寻觅不得但必在某处。不过，无论数据多么敏感，我们均须面对，因为这毕竟是我们正在从事的工作，这是管理的一个重要侧面。

有了数据，我们的政策就会更加透明并因此而更具说服力。即使像涉及死刑等类似的数据，我们也完全应该考虑分类型、分阶段地公开，以便能够更为自信地阐释我们的死刑政策。

在大数据时代，数据就是未来的财富，毫不夸张地说，谁掌握了数据，谁就掌握了解释、阐说的权力。

因此，对于应当公开可以公开的司法数据，应当逐步公开；对于已经公开的数据，应当更为精确、精细，使其能够适应不同的用途；在公开的方式上，应当建立更为合理、正式的制度，具有使用上的方便性，并因此保证其官方的正确性。

我们相信在大数据时代，数据应当能够被公众方便地使用，相信具有数据支撑的刑法学研究一定能够贡献出更多的智慧成果，为我们的刑事立法、司法提供更多的支持。

本书数据分析所依据的法律文书，系北京华宇元典信息服务有限公司依据中国裁判文书网公开发布的文书提取，选取范围为截至2018年5月31日可以查询到的2013年1月1日至2017年12月31日期间的刑事一审和二审裁判文书。

2020年3月30日，中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》特别指出，要加快培育数据要素市场，提升社会数据资源价值。

相信未来围绕数据而展开的工作将会越来越深入，我们也希望就刑事司法大数据的分析运用展开更为深刻的研究工作。

同时，本书也是中国社会科学院大学新文科建设中的一个工作成果，我们特别希望能够运用这样一种新的研究范式，挖掘现有数据背后的司法真实，尤其是我们更希望提倡一种崭新的计算社会科学的理念，努力为传统人文社会科学的创新和发展贡献自己的力量。

我们特别希望在中国社会科学院这样一个具有浓厚的人文社会科学学术传统积淀的氛围中，有一缕新鲜活力的注入。

诚如陈兴良老师在为本书所作的序言中所激励的那样，我们的计划是坚持将刑事司法大数据蓝皮书一直出版下去，由此形成系列，并以此成为我国刑事司法的编年纪，甚至成为了解中国刑事司法面貌的一个小窗口。这是我们的一个小小理想。

要完成这样一个任务实现这样一个理想，必须拥有一个具有理想主义的团队。本书的团队成员主要来自中国社会科学院大学政法学院的师生和华宇元典的研究团队，他们绝大多数也都是中国社会科学院大学互联网法治研究中心、刑事法判解研究中心的研究人员。在一次很偶然的对谈中，我们非常荣幸地和华宇元典的团队成员产生了理想主义的碰撞，由此开始了这一学术合作。

在开始启动这一研究活动的第一次会议上，我们的团队成员热血沸腾，有着饱满的热情，但是随着这一工作的推进，也遇到了很多难题和阻力，中间停滞了很长一段时间，甚至在此过程中，我个人也曾经产生过对这一工作本身意义的怀疑。

这是一个不断精疲力尽和柳暗花明的过程，也是一个为了理想能完美实现而不断挣扎的过程。

重新看这本书稿，我仍然能够清晰地回忆起团队成员在良乡校区、三环校区和高新园区争论不断的情景。我必须要感谢这样一个优秀的研究团队的每一个成员的付出。

另外，除了感谢陈兴良老师的关心支持以及感谢我们的作者团队以外，我还要特别感谢华宇元典李薇卓越的行政管控以及北京大学出版社蒋浩老师、杨玉洁老师所带领的优秀的编辑团队，没有他们在后台所作的努力，本书的面世恐怕仍将遥遥无期。

毋庸置疑，本书无论是在基础的数据运用，还是选题的划分、结论的得出等诸多方面都存在着这样那样的问题和缺憾，有的可能还是硬伤，这主要是主编的责任。

例如对于其他渠道的统计数据的关注不够、数据之间的对比不够、对现有数据的分析仍未达到深入精细的水平、司法统计数据的分析和刑法理论问题的判解研究结合不紧密，这都是让我们在写作过程中感到心力憔悴的问题。

但我们依旧想把它不成熟的一面呈现在读者面前，是因为我们的内心仍然充满了对这一工作的想象。在未来我们希望能够以更为精细的问题意识和分析方法，对上述问题有进一步的弥补，从而全面提升自己的工作水平，更好地学会用数据说话。

深夜寂静，请让我用几句诗暂时结束这一阶段的工作：

“如果我停下，这会否

使我不负责任？

如果我脆弱，

我会否被践踏？

如果对我来说，事物不是看上去这么好，

我会否拥有更好的爱？”

2020年4月8日

————————

✲ 本文摘自《刑事司法大数据蓝皮书》“序言”部分。

林维，1971年9月生，浙江省舟山市人，法学学士、硕士（吉林大学）、法学博士（北京大学）。中国社会科学院大学政法学院教授，博士生导师，中国社会科学院大学副校长。

邹劭坤，清华大学智能信息获取研究中心研究员，北京华宇元典信息服务有限公司总经理。

-推荐阅读-

新书推介 |《渺小的伟大》《良心反抗暴力》

新书推介 | 滴水不漏：学位论文写作与答辩指南

新书推介 | 约翰·菲尼斯：《人权与共同善》

新书速递 | 黄涛：《法哲学与共同生活》

新书推介 | 范爱默伦等著，熊明辉等译：《论证理论手册》

新书推介 |《剑桥文艺复兴哲学史》：全面展现文艺复兴哲学多样面貌

在线学术论坛

了解更多学术资讯

请长按下方二维码关注我们or回到文章顶部，点击在线学术论坛（微信公众号ID：zxxslt）

点亮在看！

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

中国在南极发现的“海上粮仓”能养活14亿人？

新书推介| 林维：用数据说话

您可能也对以下帖子感兴趣

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

中国在南极发现的“海上粮仓”能养活14亿人？

生成图片，分享到微信朋友圈

新书推介| 林维：用数据说话

您可能也对以下帖子感兴趣