Alpha Zero横空出世，距离横扫法律界还有多久，且听专业人士解读【斑斓 · AI】 | 自由微信

Alpha Zero横空出世，距离横扫法律界还有多久，且听专业人士解读【斑斓 · AI】

原创 2017-10-23 黄琳娜 法影斑斓

【编者按】半年来，我在很多论坛和讲座中，都会传播一个理念，在法律领域：“投入多少人工，才有多大智能”。这一理念，很大程度上来自于与前法官黄琳娜的探讨与交流。阿尔法元的新闻刷屏后，不少人问我，机器都会自我学习了，你的“人工论”会不会有变化？很抱歉，没变化。为说明问题，现邀请在这一领域有深入思考和实践的黄琳娜撰文探讨，内附我与车浩大神“开脑洞”的彩蛋一枚。

作者 | 黄琳娜（华宇元典公司副总经理）

有些早晨注定与众不同，一觉醒来就发现人类离灭亡可能又迈进了一步。

在那些对AI深怀警惕的人眼里，2017年10月19日无疑是这样的一天。

这条新闻已刷爆许多人朋友圈，我尽量言简意赅复述一遍。

Google旗下DeepMind在Nature刊文“Mastering the game of Go without human knowledge”通告天下：横空出世的AlphaGo Zero，在没有使用任何人类棋局数据进行训练的情况下，三天之内通过自我对弈自学成才，将曾打败过李世石的AlphaGo版本赶下还未捂热的神坛，之后又迅速击溃了所有AlphaGo前代版本。

（顺便说一句，AlphaGo Zero，有人翻译成“阿尔法零”，有人翻译成“阿尔法元”，后者显然更得汉字神韵，但我最喜欢的一个译法是：阿尔法·狗蛋。）

今年5月输给前代版本的柯洁发微博说：“一个纯净、纯粹自我学习的AlphaGo是最强的……对于AlphaGo的自我进步来讲……人类太多余了。”

历代AlphaGo虽然棋力日长，但训练中都使用了海量的人类棋局数据，站在无数人类巨人的肩膀上。在自我对弈中极速成长起来的Zero，击溃了以人类数据为训练基础的前代版本，说明在没有人类教导的情况下，AI不但能够自主学习，还能学得更好，甚至能够迅速超越人类认知的局限，开辟出穷尽千年万人至今未能抵达的新疆域。

不管反应是喜大普奔还是细思恐极，这都是个很厉害的消息。朋友圈里许多法律人问出同一个问题：这是不是意味着人工智能不再需要大数据了？在法律领域，是否也是如此？

在充满答案的世界里，困难的往往是提出正确的问题。

根据DeepMind披露，Zero的训练中，仍然使用了相当多的数据（百万盘数量级）。当然，与棋局上可能出现的变化相比，几百万盘所覆盖的情形是极小一部分，Zero的训练数据量也比前代有所减少，但这不是Zero与前代的核心区别。

Zero的本质进步是，这些数据是它通过自我对弈积累的，它没有从人类的既有棋局中进行学习。这些棋局，可以称为人类的先验经验或知识，本质上仍是数据。

Zero验证的，是在某些特定领域中，AI可以脱离人类的先验经验进行自主学习，而不是AI的实现只需要算法，用不着数据。数据仍然是淬炼AI所必须的火焰，但在围棋领域，AI不再需要普罗米修斯将火带来，它可以自己生产数据。

因此，更确切的提问是：在法律领域，AI能否脱离人类的先验经验，采用类似Zero的训练机制自主学习并取得优异效果？

目前人类研发的AI都不是通用智能，而是在各个领域单点击破，强大如Zero也不能直接搬到法庭上，要判断能否在法律领域复制围棋上的成功，首先得比较围棋与法律。

DeepMind发表论文后，在讨论热潮中，包括李开复在内的许多人，都指出了围棋领域的特殊性。在这些特点里，有的跟法律领域格外具有对比性，例如：

围棋虽然运算量极大，但规则清晰确定，胜负判定简单分明。

仅仅是胜负规则清晰这一点，就决定了AI在法律领域的智能实现方式，难以复制它攻克围棋的道路。

Zero没有借助人类围棋大师的棋谱作为初始训练样本，它的初始训练样本是随机落子。AI怎么知道一步棋是妙手还是昏招呢？它依靠的是“强化学习”。

如果简单粗暴地概括，强化学习是让AI自行发现采取何种行动能够获得最大回报，这就需要AI能够在“行动”（Action）和“奖励”（Reward）之间建立关联性。

围棋的负奖励/奖励是明确的，只有输和赢，整个对弈过程是一棵不断开枝散叶、分岔极多的决策树，AI在每个决策点快速评估可能的路径，通过奖励来逆推当前应当采取的行动。

在法律中存在这样明晰的奖励吗？

以诉讼为例，对原告来说，一个案件怎么算是“赢”呢？支持全部诉讼请求或者驳回全部诉讼请求或许还算明确，然而，实际损失80万，起诉金额100万，最后法院判决支持了50万，算输还是赢？在三到十年的量刑幅度间，被判了五年算赢吗？六年七年八年呢？在这样含糊的规则中，怎么样才能让机器知道自己这一步做对了？

聪明人会指出，这一点并非绝对的障碍，法律中也有细分领域存在更明确的判定规则，比如，刑事案件中跟量刑相对的定罪。

不如换个不那么贪心的思路，不一下子把整个案件丢给AI，把任务分解得更单纯些，比如，让AI尝试判定其中一部分问题，定罪只有两个状态，有罪或无罪，从被告人角度出发，可以对应围棋中的输和赢。或者，让AI判定某个要件是否成立，例如被告人的行为是否构成自首。

这样看起来复制围棋的成功似乎有戏，果真如此吗？

AI面对围棋时的困难，在于小小棋盘所包含的计算量是天文数字。从前代AlphaGo到Zero，正是在这一点上不断取得突破，通过算法，AI无需穷举所有的可能路径，就能发现当前的较优解。

然而，这个艰巨任务比起人类的诉讼来说还是too simple too naive了，棋局的胜负完全取决于棋盘上的落子，它是典型的完美信息博弈，在对弈中每一刻，棋手一望而知棋盘上每颗棋子的落子位置，这就是棋手作出判断所需要的全部信息，棋手据此计算出可能的路径作出选择；在诉讼中，各方都会采取复杂的行动，哪怕是在定罪这样具有清晰二分结果的任务里，要在最终的输赢与行动之间建立起关联也极其困难，更何况还可能有案外多种因素的介入。

围棋的世界，封闭、明确、不存在随机因素；法律，这个包罗了人类万千情态的领域可不是如此。没经过法律专业训练的普通民众可能会以为法律也足够明朗，“欠债还钱”、“杀人偿命”，多么干净利落，但法律人却深深懂得这其中有太多模糊、冲突、似是而非，刑事案件中怎样的行为可认定为“自首”，民事案件中某种情形能不能被认定是“不可抗力”，每个部门法都有数不胜数的类似争议，让无数法律人在庭上庭下争得面红耳赤。

当人们说Zero“无师自通”的时候，这是指它没有学习过人类棋谱，但是，Zero中仍然输入了围棋的规则。如果我们想从零开始打造一个机器人法官，为它输入的初始规则应该是什么？当它尝试着作出判断，例如，认定一个被告人是否有罪，谁又能作为权威来肯定或否定AI的判断引导它继续前行呢？别忘了“洞穴奇案”和“电车难题”，如果你觉得这样的极端场景太遥远，就随手搜一个从一审到二审又到再审被改来改去的案例看看，法律人对同一件事究竟可以有多少种看法。

或许应该庆幸，我们赖以为生的这个职业，毕竟不是那么简单。

其实，在围棋之外，AI还攻克了一些其他领域，例如不完美信息博弈的代表德州扑克，2017年，德扑AI“冷扑大师”完胜人类高手。同样狂虐人类，AlphaGo和冷扑大师的算法原理却有很大区别。从围棋的完美信息博弈到扑克的不完美信息博弈，乃至从规则简洁明晰的游戏到纷繁混沌的法律，AI并不是靠一招鲜吃遍天，每个战场都对AI提出了新的要求。

Zero是一个特殊垂直领域里的巨大成功，但法律与围棋有本质不同。我们举了相对最单纯的定罪场景为例，而从定罪到量刑，再到千变万化的民商事领域，又是山岳连山岳。要从零开始不依赖人类先验知识创造出一个挥洒自如的机器人法官/律师，即使是Zero的辉煌也离这个目标太远太远。

那么科技究竟能够为法律做什么？

我们以为Zero的成功代表着大数据退出了历史舞台，实际上，在当前技术基础上，最有可能为法律领域带来实质改变的，仍然是大数据。

有一次跟何帆法官和北大法学院车浩老师聊天，何帆法官说起一个案例。故意杀人罪的证据标准非常严格，但在某个个案中，一个被告人被指控杀了两名被害人，刀上却只检出了其中一名被害人的血迹和DNA。在没有目击证人，而且被告拒不认罪的情况下，这个物证是存疑的，难以证明被告杀了两个人，但那个案件中却有一个不寻常的因素，杀人场景发生在众目睽睽之下，有数百人现场目击。这个因素，作为证据链的一环，补强了物证的瑕疵。

车浩老师接过话去，说在这个案件里，还可以审查很多别的事实。例如没有在⼑上检出DNA的那名受害⼈，有无可能事先受过其他刀伤，而被告人扎空了？⽬击证⼈们与杀⼈现场的距离如何？出刀动作正对着还是背对着目击者？还有，事发当时的天⽓如何？……

显然，这是两名资深刑法学者的对话，许多在审查时应当注意的细节，都可能是新手上路时无从知晓的。机器可以帮我们做到这一点。目前裁判文书已公开上网的故意杀人案有数万宗，深入挖掘过这些数据后，机器可以提示在当前案件中我们应该审查哪些要素，或许还能帮助我们进一步分析，这些要素如何影响了过往的定罪与量刑。

什么呀，你可能会想，跟炫酷的Zero比起来也差太远了吧？围棋那边已经锻造出了机器之神，法律领域这个充其量只是个机器人助手嘛？

很遗憾，要实打实地做到不那么炫酷的这一步——准确识别当前案情，并推送精准匹配、经过提炼分析的参考知识，其实有很长的路要走。

我们还差什么吗？

比如，刑事裁判文书说理大多简略，但真正记录着法官分析过程的合议笔录等内部文书并不对外公开，要让机器去汇总这些裁量所依据的要素，通过目前的公开文书是做不到的。除此之外，还有检察院文书、律师文书、当事人自身的文书……以上大多数都没有公开获取渠道。研发人员对刑事案件进行分析时，信息是严重残缺不全的，只有最终环节的裁判文书中有限的记载。

甚至，就算全部卷宗材料都公开了，电子卷宗也是扫描件，这其中还包括相当比例的手写、有 49 30903 49 15287 0 0 2806 0 0:00:11 0:00:05 0:00:06 3044涂改的材料，需要经过繁重的人工处理，才能转化为训练语料。

仅仅在数据的收集、清洗和融合上，现状也还有非常大的改善空间。

比如，一个要素反映在不同文书中的表述方式可能是完全不同的。它可能是换了一个词，可能是一整句、一整段的迥异表述，甚至有可能并没有写出来，只是隐含的逻辑推理结论。

必须要厘清的是，大数据与以往法律人常用的关键词检索是完全不同层次的事物。关键词检索只能进行相应匹配，即使检索人改换关键词，也只不过是词语级别的、少数的变换方式，有大量原本应当命中的结果因为表述不同而沉没。

如何让机器理解不同表述后实质指向的是同一个事实情节、同一个法律概念呢？这其中有大量艰苦的工作要晨昏朝暮地推进，它包括法律知识图谱的细致构建，也包括技术人员在法律自然语言理解上的努力，真正有志于解决这个问题，需要广泛招募优秀的技术和法律人才，付出巨大的经济和时间成本，踏踏实实下笨功夫。

我还能举出许许多多个像这样的“比如”，它们能写出一篇更长的文章。

不要幻想把一堆文书丢给机器，几天之后喜迎一个脱胎换骨的机器人法官/律师，更不要幻想这个机器已经无欲无求，在法律领域亦不需要人类的先验知识，连投喂文书这一步也可以省了。

法律科技领域，可谓水深坑多，只有正视问题才能解决问题，鸡血、嘴炮和令人目眩的概念宣传并不能帮助我们走得更远，反而可能在真正取得成果之前就透支掉人们对此的宝贵信心。

实际上，想把这篇一开始提出的问题讲清楚，很难绕过监督学习、无监督学习、强化学习等等一系列机器学习的基本概念，可我有个预感，一旦开始解释专业术语，就会有相当多读者迅速退出这个页面，带着“大数据已经过时啦”的欢快印象离开。

因此，在整篇文章中，我尽量少用术语，粗暴地简化了许多对于技术的表述，但要是真想对目前法律领域大数据和人工智能进展的现状与未来有一个清醒判断，我们要踏踏实实研读更多严肃的专业资料，就像真正想做出点什么的话，我们就不能擅自简化这个世界。我们得尊重它的复杂性。

围棋是单纯的计算，法律则充满着争议、冲突、妥协与语焉不详，作为法律人，我们注定与混沌与复杂与缺憾共处。如果做不到面对复杂，保持欢喜，至少，保持耐心。

如果AI在不断发展之中，我们的价值是什么？难道不就在于我们是这样一类有限的生物，在方寸棋盘之间探究千年依然囿于局部的最优解，被亲手缔造的AI彻底打败，然而并不因此停滞不前，仍然愿意以有限的生命和有限的智能，向无限的世界致以无限的诚恳。

感谢您阅读“法影斑斓”，希望它能兼顾新知与审美。如果您觉得图文有点儿意思，请点击右上角按钮，选择“查看公共号”，再点击关注即可。也可搜索微信号：funnylaw1978。如果想阅读过往文章，可点击“查看历史消息”。

何帆出品扫码关注

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人