查看原文
其他

华宇元典CEO邹劭坤:法律人工智能的真实当下和可能未来

2017-12-02 邹劭坤 元典法律大数据

编者按:本文根据华宇元典CEO邹劭坤在2017年智合论坛之上的演讲录音整理所得。



非常感谢主办方,也感谢各位嘉宾。大家好,我是邹劭坤。


我今天代表的是一批像我一样从法院、检察院、律师岗位离职,转型来做法律智能这个新行业的人。在这一年里,我和我的团队为中国的法律智能行业做了一些尝试,可能是对的,也可能是错的,但我相信在这一年中我们的努力和积淀是有价值的。


今天我的题目是“法律人工智能的真实当下与可能未来”


刚才郑教授给我们介绍了国外法律智能的一些先进经验,很多数据和观点来自于这些产品本身的宣传或者文案。其实每次看到这些文案的时候我都会想,中国的法律智能目前是一个什么状况。


昨天我有幸与凯文·凯利做了会前交流,探讨了这么一个问题:“人工智能”四个字这两年突然火爆起来,尤其是越来越多人把它跟我们心目中的法律女神结合起来,这是否是因为大家都觉得行业需要一种客观理性的技术来突破法律本身包含的感性和模糊部分呢?



这个行业有一句话是这么说的:“有多少人工,就有多少智能”。法律智能并不是一盏神灯,你擦一擦,许个愿,它就自然实现了。法律智能的背后是一代又一代,包括当下大量从业人员的艰辛与付出——需要大量的人工投入才能实现相对智能的效果。


在人类利用工具的历史上,我特别欣赏这么一句话:“君子生非异也,善假于物也”。从古至今我们都希望能够借助工具的力量来突破人体极限,所以我们发明了风车代替人类磨面,发明了汽车代替徒步跋涉,发明了飞机实现飞天梦想,以此做到“增益其所不能”。


人工智能也是如此,只不过人工智能也许将给我们带来更深刻的变革。


人工智能这个概念最早可能是出现在西方小说《格列佛游记》中,书中描述了一个叫做LAPUTA的小岛。在这个岛上人们只需要付出少量的汗水就可以借助机器获取大量的,近乎无限的哲学、神学和诗歌方面的知识。


不过也有人不同意,他们认为人工智能这个概念可以再往前追溯——一直追溯到1308年。1308年,一位加泰罗尼亚诗人在诗歌里曾有这样一句描述“用机械的方法从一系列概念组合中去创造新知识”。


对这句话大家是不是特别熟悉?甚至感觉这就是对今天人工智能的精准定义。


然而人工智能这个概念正式走入科学界和产业界的视野是在1956年达特茅斯的一场会议上,距今已经60多年了。


很快,在1970年就诞生了第一个机器人律师。当时人们提出了这样一个理念:如果我们把人类专家的推理过程以程序代码的方式固定并输入给机器,那么机器就可以像律师一样去分析复杂的案情,并且给出对应的策略。这套系统代表了人类对人工智能最初的设计思路——用机器的逻辑去固化人类的推理过程。


这种固定人类专家经验的方法被称之为“专家系统”。


刚才很多老师已经分析过了,“专家系统”是第一代人工智能。从这个角度来讲,我们现在所探索的人工智能是一个真正的“祖传事业”。


但是,从1970年到现在,对于人工智能可以为我们行业带来什么样的变化,想象和实际可以说是完全不同。


为什么专家系统没有能够替代我们的工作?


为什么在座的各位现在还是大律师?


为什么我们还有无数的师弟师妹在法学院学习,并没有像我们预想的那样一下子被“颠覆”?


刘慈欣有一篇文章叫《人工智能的史前时代》。在这篇文章里他分享了一段亲身经历:当时他作为程序员和一些汽轮机专家一起合作开发一套专家系统。我们知道汽轮机是一种比较复杂的系统,维修成本非常高。于是大家就想,能不能组织程序员和专家一起把故障可能发生的情况和每个情况下专家排查的逻辑过程固化成程序,创造出一种面向维修的专家系统来降低汽轮机的维修成本呢?在设计过程中,当专家们发现自己毕生的经验被程序总结出来后只是简简单单的几行执行命令时,他们是非常失落的。


这可能就像很多人第一次接触人工智能一样,觉得如果把我的这些经验都写成了程序,那我去干什么呢?随后专家们就发现,系统如果只凭借这样固化的逻辑是处理不了真正复杂的事情的。真正的故障不是根据系统设计好的逻辑发生的,它是在发生之后需要以更强的适应能力、逻辑分析能力进行结构化的处理的。所以传统的专家系统被认为只能作为新手学习时的辅助。


大刘在文章的末尾说:"当我们面对这样的专家系统的时候,总会觉得缺少一些面对真正智能的感觉。"



专家系统的瓶颈是有目共睹的:虽然它能够把复杂的专家经验固化下来,让使用者在遵循前者经验的过程中得到启发,并且它的过程像我们很多人内心最期望的那样透明可见;但是专家系统并不具备知识获取能力和对复杂场景的自适应能力,就更不用说自主学习和实时响应能力了。这种情况也导致了人工智能这个概念提出之后曾经至少出现过三次高峰和低谷。


每次人工智能概念被热炒的时候,人类都认为下一刻自己就要被毁灭了;而每次碰到技术瓶颈时,人类又觉得这些做智能的人是骗子。




在这里我要讲一点题外话:前段时间我去清华参加了一个会议,认识了一位非常权威的人工智能方面的教授。他说了这样一段话:“泡沫对于技术本身并不可怕,可怕的是当这一波泡沫褪去,这个行业还能不能继续拥抱技术,而不是又回到自己坚守了几百年的传统路径上”


我们继续来看。人工智能的第二个阶段被称为“计算人工智能”。


从1980年开始,我们的外部环境发生了变化——拥有了更高性能的计算能力、有了存贮巨量数据的能力。


在这样的一个情况下,计算智能开始尝试像人脑一样去串联每一个神经元,用高速的计算来寻找事物中潜在的规律。而这些神秘的“神经元”被称为“标签数据”。


我举个小例子:2011年的全美智力竞赛上,IBM  的 Watson 以高比分碾压人类选手。这是人类第一次意识到自己智商上被挑战。然而,这样一套系统所利用的算法却是1991年左右专家决策算法的变体。之所以能达到这样的效果是因为它运用了大量数据,包括来自维基百科、维基词典、维基语录和前一年更新的古腾堡计划中的860万份文献资料。渐渐地,科技行业有这样一个定理被大家所接受:关键算法的提出到获得相应的突破,大概平均需要18年;而关键数据的提出到获得相应进步大约只需要3年,两者之间相差了6倍。




我们再来看一个跟法律比较相近的行业:智能医疗。


今天有很多人提到智能医疗的时候都会说这是一个发展迅猛的市场:仅仅2016年就有320家医疗健康数据公司投身于这个行业。有研究报告分析说大概到2020年会有430亿的资金投入到这个行业…… 但是医生并没有消失,不是吗?



我们还是会去排队看医生,医疗资源到现在依然很紧张,这最根本的原因是什么?


我们认为是跨界人才的缺乏。


根据麦肯锡的调研报告:目前,平均年薪为35万的大数据工程师的人才缺口是150万。人才缺失直接影响了底层训练数据的缺失。大部分医疗智能公司受困于如何能拿到海量的、经过准确标注的数据,它是这个行业目前来说最大的一个瓶颈。


同样那些目前我们认为已经取得一定突破的智能行业,比如说图像分类、语音识别、机器翻译,它们也是经过了海量数据积累,再加上算法创新才形成了我们今天所看到的智能结果,而且还只是初步的智能。


以谷歌翻译为例,谷歌在做机器翻译时也专门组织了一支团队。这个专业团队是由大量语言学家和程序员共同组成的,专门解决数据标注和专业模型的问题。


元典现在也是在做同样的事情,致力于法律数据的标注和专业模型的搭建。


在最初加入华宇元典的时候,我拜访了包括微软亚洲研究院、Watson中国团队在内的许多技术科学家。我向他们描述了我所憧憬的法律智能的未来后,科学家们谨慎地摇了摇头:如果想要实现这一步,必须有一批程序员具备相当程度的法律知识才能够最终实现,而这并不是单纯的懂计算模型的人或者单纯拥有法律知识的人能够解决的。


但是,我们并没有放弃我们的梦想。


在法律智能这件事上,若说在过去的一年多里有什么是元典最值得分享的经验,那就是:如果没有一个完美的人,我们就去找两个方向上最好的人,让他们融合在一个团队做一件事情——从最初的9个人到现在的120个人,元典全部是这样的研发团队。


我们的法律团队里目前有全国审判业务专家、全国十佳公诉人,有一线法学院最优秀的一批毕业生;此外还有华宇集团从业十年以上的技术科学家和专业的行业数据团队。这两拨人 44 34359 44 15290 0 0 1818 0 0:00:18 0:00:08 0:00:10 3597合在一起,法律人去学习计算机知识、参与代码和模型的编写;计算机专业的毕业生去学习法律知识、从了解审级的规定和区别开始…… 我们想在这样的积累下,为这个行业做一些小小的尝试:让机器去习得法律认知能力,去打破行业内部、行业与行业之间的应用数据壁垒。


我们来看一个真实的例子。今年我有幸在阿里云栖大会上也分享了这个例子:这是一个事实(见下图)。这个事实从法律视角可能构成什么样的法律纠纷?这是我在今年校招上特别喜欢用的一个问题。它充分检测了各个学校法学院毕业生的社会常识。很多法学院毕业生看第一眼就会说构成危险驾驶罪。我说OK,没问题,还有吗?



当我们把这段事实输入到智能系统的时候,系统对历史数据的学习会告诉我们,它最有可能构成的当然是危险驾驶,但同样它还可能构成责任保险合同纠纷和财产损失保险合同纠纷。


我在法学院的校招上听到过很多学生告诉我说可能构成财产纠纷,也可能构成侵权责任纠纷。


我说同学你的回答从法理上没有问题,但你可能没有买过车。


这就是系统机器学习从历史探究中分析出来的。它怎么用?无论是作为新市场的挖掘还是作为后面更多功能的触发,该场景的想象空间是很大的。


点击可看大图


在案由判断之后,我们还可以把事实中的量刑情节进行自动识别,去寻找在法律评价维度上最相近的案例,去告诉人们这个案子最有可能判处的刑罚结果是什么。如果你想看到它的分析过程也没有问题——系统支持从全国到省市县某一个法院的数据分析。系统会告诉你全国有多少例案件与你相似,而你的案例与他人的案例所需要关注内容的异同是什么。


点击可看大图


点击可看大图


我们不替代人类法官进行裁判,我们只是希望一切都有客观的依据;就像KK上午分享的那样,让人类和机器“协同”起来。


这样的分析维度还可以细化到法官的层面。系统可以告诉你这个法官处理这类案件中上诉率、二审发回率、他常采信的证据、他的裁判观点、他关注的争议焦点等等。系统还可以同步把学者观点碎片化后根据前面的事实进行准确推送。


点击可看大图


我们认为检索当然是一个常见的入口,但是根据场景的知识推送可能才是法律行业与技术最适合去融合的一个细节。


以上是在我们平时的法律研究和案件办理过程。


那么在我们很多诉讼律师熟悉的法庭环境下,我们还能做到什么?以最常见的质证环节为例:在传统的质证过程中,控辩审三方需要去传阅纸质卷来确认证据。现在,人民法院和人民检察院已经实现了卷宗的电子化,以此借助语音识别和语音智能,我们可以实现更优的效果。


点击可看大图


刚才这段视频所演示的是根据公诉人在法庭上的质证需要,出示某份证据并自动从电子卷宗中把这份证据定位、呈现出来,同时把公诉人所宣读的一段文本圈定并放大。这种方式实现了在庭审质证过程中控辩审三方信息的实时对称和庭审质证的自动化。


那么同样,在刑事案件的整个质证过程中,系统还会辅助法律人,根据庭审需要从时间人物地理这三种维度去还原案子所发生的经过。甚至说把证据和我们传统刑法的证明构成要件挂接,去帮助承办人梳理一个案子的证明逻辑是什么样的,它的争议焦点或者它的证据缺失点在哪儿。这样的一套智能庭审系统在中国政法大学近期的两次模拟法庭和北京的一次真实庭审中都做了具体的应用和尝试。


现在这些智能系统的背后是元典的一个核心的人工智能平台,叫元典睿核。它不仅在法院这一个行业学习和应用,同时还服务于检察院,并且在未来将更加深度地服务于司法行政、纪检监察等行业。


我们相信每一个法律人的逻辑是共通的——无论你是穿着法袍还是带着检徽。而人工智能要想突破单个领域的学习困境——即便像法检这样信息化建设已经很好的场景下,它的数据依然是不够全面的,那么它需要更广泛地从全法律行业去进行不断的学习和自我迭代。


我们希望用这样一套通用的智能技术去构建整个行业的智能拼图。从去年开始,元典也尝试在互联网上向律师提供免费的办案协同平台和部分技术工具。我们希望的是为整个行业赋能,用免费的方式完成律师行业的信息基础建设,把全行业的信息化整体带入智能化的门槛,提升整个行业的科技感。


我们希望得到的是进化的法律服务,这种进化是伴随着效率的提高和专业素养的提升。


上午我忘了是哪位嘉宾说的,假如机器能够替代人类完成大部分的业务工作,我们是不是只要打高尔夫就可以了。我在做律师的时候听到过这样一个观点:律师的能力分为市场能力、服务能力和专业能力。当专业能力提升的时候,实际上你提升的是服务能力,进而提升的是你的市场能力,这个是我认为技术能够为法律服务市场提供的进化契机。



我们回到法律本身。拿破仑在制定法国民法典的时候,他曾经希望这本传奇的法典不仅能够涵盖当时,也能够涵盖此后大部分情况下的民事法律纠纷。然而,技术与社会的发展告诉我们一个道理:“再完善不过的民法典也会因为‘风车和磨坊’的规定而失去了它的无所不包性。”


在社会契约论时代我们相信,每个人只需要让渡我们有限的权力,就可以在契约的框架下获取到更大的自由。


然而,社会、科技、经济的高速发展一次又一次地挑战着我们作为生物本身的认知局限。预言家可能是在这个时代最容易失业的职业——因为对当下未来所有的判断都可能会因为科技的飞速发展而失准。法律作为评价社会行为的准绳,我们怎么样去面对自己生而为人类的有限理性?


当下我们能想到的是借助机器学习的无限智能,去突破我们对事物判断的有限理性。我们每个人不应当仅仅是法律的执行者和被影响者,我们更应当借助机器的力量,变成法律的影响者与制定者。有一个哲学命题是这么说的:人永远应当是目的,而非手段。我相信,如果能够借助科技的力量,我们或许能够实现或更接近最初的愿景——人当生而自由。


这是我们团队在过去一年多的探索中给整个行业交的第一份答卷,也谢谢大家接受我的分享,谢谢! 



以上为华宇元典CEO邹劭坤演讲环节的整理。



以下内容根据华宇元典CEO邹劭坤在与凯文·凯利先生对谈环节中的总结发言所整理。


我听了前面几位的观点之后,总结了一下,今天的论点可以分为两点:第一个当前的技术到底靠不靠谱?如果人工智能技术是靠谱的,它已经非常先进了。那这里就有第二个问题:我们人去干什么?我想人工智能也不是一夜之间就来到我们身边的,我们会说法院、检察院的智能化现在要走在前端,但这些都是一点点积累下来的。所以无论AI目前是否能够达到替代人类的程度,它都不是在某一天早上醒来突然降临的,它需要前期所有的铺垫。


第二个,我个人一直有一个观点。从检察官到律师,从律师到法律的跨界者,我一直认为:没有最完美的技术,只有最完美的场景需求。中国的智能技术在国际上的水平也是数一数二的;我们的论文数量完全不输于美国;我们现在一流的专家在每年国际大会上也有各种发言。那回到法律行业来,是不是有了一个技术,就像一盏神灯一样,我们就能向它许愿呢?我相信机器是用来增加人的能力的,我们要找到我们有哪些事情是可以用合理的技术,在合理的场景下需做合理性的替代,以此来提升效率。


如果让我提一个建议给法律服务的智能化:我们的第一步在哪里?也许是连接,也许是何帆老师提到的信任,我不知道准确答案,这需要我们每个同仁去考虑。我自己是学法律的,我现在跨界做法律智能;做技术的人员可能有很多选择,他可以思考智能金融怎么做,智能医疗怎么做。但对于我们法律人,我们最应该思考的是法律智能应该怎么做。因为这是我们行业,是我们学习和信仰的对象。



编辑 / 阿卜   分类 / 原创

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存