足球、大数据、法律
世界杯结束了,关于足球的话题却从未结束。足球赛场上的假摔、卧草等“小伎俩”一直被观众所不齿,譬如巴西队的内马尔,习惯性假摔、卧草、领先时故意拖延等,连巴西本国球迷都不待见这种行为,而即便如此结果还也未能打进四强,只能说是名利双失。那么问题来了,内马尔是否过度地通过这种“小伎俩”故意拖延时间、浪费比赛时间呢?
一、足球、大数据
7月份,FiveThirtyEight平台上发表了两篇文章《Which World Cup Team Is The Best At Wasting Time?》[1]、《We Timed Every Game. World Cup Stoppage Time Is Wildly Inaccurate.》[2],这两篇文章对本届世界杯赛事中各个球队“浪费时间”这一问题进行了大数据分析,通过分析结果我们发现了以下情况:
1、假摔、卧草并不是浪费时间的最高境界
首先我们得知道虽然有“伤停补时”的规定,但并不是所有被浪费的时间都会补回来的,大概只有一半的时间会基于裁判主观判断通过“伤停补时”延长比赛时间,也是正因为如此,浪费时间才变成具有战略意义。
《We Timed Every Game. World Cup Stoppage Time Is Wildly Inaccurate.》一文中对赛场上各种“浪费时间”的各种情形进行了统计,依据统计数据显示:罚任意球所浪费的时间最多,平均每场用时10分29秒,其次是掷界外球,平均每场用时7分50秒,而受伤所导致的浪费时间排名第五,平均每场用时4分10秒。
https://fivethirtyeight.com/features/world-cup-stoppage-time-is-wildly-inaccurate/
仅仅依据上述的数据,就能说球队通过“技巧”在浪费时间吗?可能还是不够的,因为可能罚任意球就是需要这么多时间呀。《Which World Cup Team Is The Best At Wasting Time?》这篇文章又给出了以下的数据,依据以下数据我们可以得出一个结论:球队在领先时在罚任意球、掷界外球的所用时间都远远多于落后的时间,也就是说,球队在领先时倾向于“浪费时间”。
https://fivethirtyeight.com/features/which-world-cup-team-is-the-best-at-wasting-time/
2、巴西队并不是浪费时间最多的球队
《Which World Cup Team Is The Best At Wasting Time?》这篇文章对各个球队的“浪费时间”进行了统计,我们发现巴西队实际排名倒数第二,远远排在法国队、英格兰队、西班牙队、俄国队等之后。
https://fivethirtyeight.com/features/which-world-cup-team-is-the-best-at-wasting-time/
通过上述分析,我们会发现此前对于足球赛场上“浪费时间”这事儿可能存在一些误会,通过大数据的统计分析可以在一定程度还原客观事实,事实上“浪费时间”是一种球队惯用的战术,特别是在球队领先以后,浪费有效的进攻时间将降低被对手反超的风险,只是方式上各有不同,内马尔作为球星采取的方式就容易被人诟病,且效果并不理想。
通过大数据分析我们可以更客观、准确地了解客观事实,为内巴尔“沉冤昭雪”,那么在法律应用、司法实践当中,是否可以通过大数据来“定罪量刑”或“定分止争”呢?
二、大数据、法律
大数据与法律的碰撞已经不是新鲜事儿了,目前已有大量的大数据平台对判决书等法律文书,通过标签提出、数据化等办法,对各类案件数量、律所的胜诉率、法院判决要素等进行大数据统计、并提供分析服务,但大部分上还是基于大数据的统计功能应用,而不涉及分析、推论甚至定论的应用,在今后的发展中,大数据在法律应用、司法实践中将起到什么作用,律师、法官等法律工作者在什么程度上可以被替代,却是值得深思的问题。
1、 “相关关系”不能代替“因果关系”
笔者认为,大数据的渗透、替代程度取决于不同行业的特性,在法律应用层面大数据的应用目前只能起到数据处理和统计的作用,而大数据的分析、论证模型是否可以适用,非常值得商榷。这里主要就涉及到“相关关系”和“因果关系”之争。
大数据研究的是“相关关系”,得出的结论是关于“相关程度”,甚至有人认为在大数据时代中,“相关关系”已经代替了“因果关系”,“因果关系”只是人类的主观感觉。看到这些言论时,作为一位法律从业者内心是崩溃的,可以说“因果关系”的理论贯穿整个法学理论的基础以及司法实践的,甚至可以说相当于“1+1=2”在数学中的地位。
“相关关系”与“因果关系”具有本质的区别。举例而言,日平均雪糕销量升高的时候日平均溺水的人数也增多,日平均雪糕销量与日平均溺水人数存在相关关系,但我们知道两者没有因果关系,在认定溺水相关的民事、刑事责任时,我们不能去找雪糕销售商。可能有人会问,如果将相关程度进行量化,在数值足够高的情况下,是否就可以代替因果关系,譬如A发生B就一定发生,此时AB之间的相关关系是否就可以替代因果关系。答案是否定的,譬如说天亮公鸡打鸣儿这一现象,如果进行量化,相关程度数值可能非常高,但一般人都不会认为两者具有因果关系。因此,相关关系是非常宽泛、存在多重间隔因素的关系,与因果关系的内涵存在一定交集,但是各有外延。如果将来某一天,用“相关关系”了代替“因果关系”,那么基本所有的法律体系都得重写,且对人的一般认知将产生巨大挑战。
2、一个失败的案例
美国麻省理工学院出版社出版的美国纽约大学助理教授梅瑞狄斯·布鲁萨尔(Meredith Broussard)的新书《人工不智能:计算机如何误解世界》(Artificial Unintelligence : How Computers Misunderstand the World)中介绍了一个案例:NorthPointe公司基于掌握的数据开发了一个算法COMPAS,用来判断犯人再次犯罪的可能性,用于给法官在量刑上作为参考。COMPAS算法中考察犯人的上百项指标,量化成1分~10分,而且为了避免种族歧视,考察的指标中不包含种族这一项。在这看似非常公正的算法下,通过演算发现,在相同情况下黑人被冤枉的可能性仍然要高于白人[3]。
为什么会产生这种结果呢?笔者认为根本原因在于大数据研究的是相关关系,而且是“过期”的相关关系。为什么说是过期的呢,只要是被所收集的数据必然是已经发生的历史事件、是“过期”的,在用“过期”的相关性数据分析现在、将来的事物时,就很可能造成如果“你”所在的标签组群在过往的犯罪率较高的话,当“你”作为被分析的样本时,组群的高犯罪率需要“你”来买单,即便从个体角度来看,这些标签对于“你”而言没有任何意义。
三、启发
近年来,由于对于非结构化数据的挖掘、收集技术有了飞跃式地发展,大大丰富了数据的种类和来源,使得大数据的分析结果更全面、准确,通过有效地利用大数据,将有助于对于事物的宏观面貌、运动趋势有较客观的认识、预测。但我们同时也看到了大数据的局限性,毕竟在这千变万化的现实世界中,不是所有事物均可以用0和1来描述的,譬如说π、譬如说思想。
[1] 作者:David Bunnell。
[2] 作者:David Bunnell。
[3] http://36kr.com/p/5115029.html
https://baijiahao.baidu.com/s?id=1568743324220576&wfr=spider&for=pc
(本文为授权发布,未经许可不得转载)
WE WANT YOU
近期热文