查看原文
其他

川大“法律大数据分析”课程带你弄懂深度学习、计算法学概论、了解数据思维和人工智能、知晓人工智能司法应用的路径与前景

学术之路 2021-03-08

来源:四川大学法学院官网,学术之路郑重推荐!看完哦!

Daniel Marc Klerman教授讲授美国实证法律研究及四川大学法学院实证法律研究夏令营日程安排


“法律大数据分析”课开讲了!带你了解数据思维和人工智能


2018年7月9日,“法律大数据”课程在四川大学江安校区正式行课。“法律大数据分析”是一门由四川大学计算机学院、数学学院、法学院联合开办的,旨在帮助同学们了解人工智能在法律中是如何应用的前沿课程。本门课程由来自数学学院的翁洋副教授、计算机学院的张意副教授、法学院的李鑫老师和法学院的王竹教授担任授课人,分布讲授机器学习、深度学习、人工智能司法应用和计算法概论等课程内容。课程开始后,王竹教授首先就课程内容、师资阵容、课程规划作介绍。

翁洋老师作为本课程的第一位主讲人向校内外同学展示了数据思维的应用和如何形成数据思维的方法。数据是近年来十分火热的话题。有关数据很多提法,例如“数据思维”却是很早以前就已经出现。古埃及人观察尼罗河泛滥的现象总结出了汛期出现的规律。在“数据热”之前,由于对数据收集不全面、不丰富,难以从中发现有效的信息,因此“数据思维”没有得到重视。但是在近几年来现代社会收集和储存的数据量超过了人类几千年收集的数据总量,对数据的挖掘分析的手段超过了以往简单的描述,使得数据挖掘有了从量变到质变的可能。

以美国ESPN和OPTA为例,他们通过2010年世界杯以来的22904场正式比赛的数据,研究了梅西和其他16574名足球运动员与足球的相关数据,发现了为什么梅西异常厉害的原因。因为梅西兼具通常在一人身上不可能同时并存的多种因素,比如禁区内外的射门成功率都很高、轻推进球还是远射这两者都是世界顶级水平、独立实现的进球数和射门成功率都居世界首位、得到其他球员的助攻进球也很多等等。以此为例,启示同学们要重视客观存在的数据、遵循数据驱动(Data Driven)的原则产生重大决策和形成挖掘数据中有用信息的思维和方法。

那么如何去挖掘数据中的信息?首先是需要收集获取足够多的数据,并用合适的模型描述,再寻找求解模型的方法,最后使用模型进行预测。现实生活中的数据则更为复杂,需要寻找数据之间的相关性并用数理思维处理数据。

以谷歌流感趋势为例,谷歌公司发现全球每星期会有数以百万计的用户在网上搜索健康信息。特别是在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著上升;而到了夏季,与晒伤有关的搜索又会大幅增加。他们认为搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。并且通过对这些搜索查询的出现次数进行统计,可以估测出世界上不同国家和地区的流感传播情况。虽然疾病预防控制中心每年都会收集整理相关流感数据。但谷歌流感趋势较之更优的一点是它可以及时并且实时反馈流感趋势,并对未来的流感趋势进行有效预测。

数据应用的另一大体现就是人工智能。人工智能领域有许多热门的发展分支,例如图像识别、自然语言识别等等。人工智能的应用通常是从高数据行业开始,逐步向低数据行业扩展。医学和金融作为较早开始数据电子化的两大领域,为数据分析提供了足够丰富的样本。

法律领域作为一个具有高技能和高数据特点的行业,特别是司法裁判文书上网后,法律大数据分析就变得十分值得关注。以裁判文书为数据源,建立以原被告等法律实体为主的知识图谱,将其与相关法律知识进行融合。这对于智能辅助量刑、智能辅助计算赔偿金额和精准的类案推介有着积极意义。

“法律大数据分析”课程已采用同步录像,视频稍后整理后公开。欢迎大家分享学习!


“法律大数据分析”课程之二:三步弄懂深度学习


2018年7月10日下午13:50,由四川大学计算机学院、数学学院、法学院联合开办的“法律大数据分析”课程第二次专题研讨课在四川大学江安校区顺利开课。计算机学院张意副教授主要从计算机应用角度出发深入浅出地介绍了深度学习(Deep Learning)。

深度学习是一个近几年来十分火热的计算机研究方向。提到深度学习,与它相关的其他概念,例如机器学习、人工智能,常常会让人难以辨明。从应用的时间线和概念范畴进行比对,深度学习是机器学习的一个子集,而机器学习则是涵盖在人工智能之内。

具体而言,机器学习可以约等于寻找适合的函数。例如输入一段语音,需要函数具有识别声音波段的功能来输出识别的反馈内容。因此,机器学习的流程大致可以划分为三步:第一步,通过大量前期人工处理的数据,定义函数集合,建立模型;第二步,定义一个标准寻找函数的优劣;第三步,再通过监视学习作为验证模型的评价标准,找出最优模型。深度学习的流程与机器学习不同之处在于,第一步建立的是神经元网络模型。

神经网络模型是一种仿生人脑的神经元而建立的模型,模型结构的原理是仿真人的神经元受刺激的过程。其中,以向量(Neuron)仿真神经元核心,以添加不同参数、权重等仿真人脑受到刺激的过程。神经网络模型从本质上讲就是函数集。仿真的神经元结构搭建出函数框架(Function Set),再根据训练数据(Training Data)确定定义的学习目标(Learning Target)添加参数、权重、偏移,最终通过不同的验证方式找出最优模型。

为什么通过神经网络模型找出最优函数的方式会被称为“深度学习”?这里需要对“深度”(Deep)进行解释。深度是指输入层和输出层之间的众多层数,一般三层以上的神经网络可以称为使用了深度学习方法。那么,这样多层设计结构有什么优势呢?目前存在一个已经被证明的结论:数学上的任何一个函数都可以用一层神经网络实现。但是仅用一层神经网络解决复杂问题,那这个网络会异常庞大。神经网络模型增加层数的方式比之一层网络增加参数的方式,有着减少参数和数据量的优点。在图片识别领域,伴随着层数的增加,识别的精准度也会提高。

深度学习的第二步是定义函数优劣的标准。这里引用一个概念Loss,是指输出结果和目标结果之间的差距。评判的标准就是使得总的Loss尽可能小的函数可能就是好的函数。

张意老师认为,深度学习的难点在于第三步流程。其中,参数的调整需要耗资较高的设备支撑。参数的调整,在深度学习领域,目前大多使用的是梯度下降法:通过寻找函数梯度的地方,求取局部函数最小值。具体是先随机挑选初始值,再对一个或者多个参数W进行求导。由于随机挑选的初始值不同,可能出现一个局部函数极值,因此需要调整参数不断尝试。对此张意老师的说法是,如何确定网络结构的层数和参数,都是需要依靠在调试过程中不断积累的试错经验和个人灵光闪现的直觉。

深度学习的概念其实很早就已经出现。最初由于层数达到3层时不可避免地出现梯度爆炸、梯度弥散等问题,导致深度学习的研究一度停滞。直到2006年新的分层计算方法出现,深度学习的发展迎来了曙光。现如今,深度学习的应用越发广泛,从图像识别、垃圾邮件过滤、新闻分类,发展到了风格迁移、结合对抗学习、图片问答等领域。其中,最广为人知的应用典型就是根据对抗神经网络和强化学习结合的思路设计而成的阿尔法Go。深度学习与法律的结合场景,主要在庭审过程中识别法官、检察官、诉讼参与人等主体的行为是否符合法庭纪律。这里运用到深度学习中多模态图像转化和图像、视频识别等技术,来观察这些主体是否有使用手机、争吵等行为并进行相应的反馈。此外,张意老师还在课堂上展现了用Keras编写的模型是如何识别手写数字的具体步骤。欢迎大家下载课件学习、尝试。



法律大数据分析课程第三讲:人工智能司法应用的路径与前景


2018年7月11日下午13:50,由四川大学计算机学院、数学学院、法学院联合开办的“法律大数据分析”课程第三次专题研讨课在四川大学江安校区顺利开课。法学院的李鑫老师用翔实的数据和丰富的司法实践材料点出了中国司法改革面临的问题和改革的基本路径,并结合前两次课程内容和同学们探讨了大数据、人工智能应用到司法领域的前景和需要注意的问题。

李鑫老师首先从改革司法管辖制度、司法责任制度、司法员额制度、统一管理省以下人财物 、推进以审判为中心的诉讼制度改革、深化司法公开等方面对中国司法改革取得成绩进行了介绍,并大胆提出司法改革需要解决的两个问题主要是“审不完”和“不会审”。这两个问题的总体解决思路是,对前者是要求法院能够合理分配审判资源完成大量简单案件的审判,提高审判效率;对后者则是要求精英法官能够倾尽其法学素养并付出足够工作精力处理好疑难案件,提高审判质量,真正地实现对个案正义的追求。

科学技术的发展对于司法应用究竟有何种影响?在司法活动中人工智能究竟能不能真的代替人?这类问题萦绕在公众、甚至法律人心中。现如今在市场和技术的双重作用下,法律服务正在进入人工智能时代。法律服务市场目前对于大数据应用前景的观察和预测,大致有以下几个方向:

第一是智能化、自动化法律检索。

中国裁判文书网是目前全球最大的裁判文书网。除未公开的死刑案件,职务犯罪案件,涉及个人隐私、商业秘密和国家秘密的裁判文书外,实际上传裁判文书总量超过3247万篇。依托的海量的、具有关联性的数据,数据的量到达一定规模后其所能呈现出的规律是可以被信任和使用的,其中呈现出的关联性可以为数据的交叉验证提供必要的基础。因此人工智能能够为司法改革决策提供数据支持并且有效帮助解决司法运行中的矛盾。但是过度依赖此类法律大数据进行裁判难以确保个案正义。因为数据分析本身无法揭示案件背后复杂的社会关系,容易抹平地区差异,也就无法取代法官在个案特别是疑难或复杂案件中的自由裁量、利益平衡及对校正公平的判断。盲目依赖对过去的大量判决进行的数据分析做出当下裁判,不仅会使法院变得保守,也会使法官变得疏于思考,放弃对社会需求的探寻和个案正义的追求。

第二是在线或机器人法律服务。

法律机器人可以向公众提供基本的法律援助和公共法律服务。就目前取得成果来看,机器人法律服务有效地解决了当事人在诉讼程序方面的疑惑。假设未来数据商能够通过公开的司法数据分析推断出某个法院内部是如何运行审判流程的,甚至能够计算某个领域的哪一位法官审判客户的案件会判决胜诉的概率。此时,通过随机选择保证审判公平、正义的回避制度就会形同虚设。人工智能发展对于司法系统的冲击是值得关注的。但从反面来看,若能判断胜诉率,自然也可以判断是否会败诉,那么是否会因此导致无讼社会的出现?

第三是依赖高水平的人工智能实现法律文件自动化审阅和生成。

虽然目前人工智能仍处于辅助司法活动的阶段。但是沿着人工智能可以消除司法活动中不确定性这个思路进行展望,人工智能可以帮助法官还原社会关系分析案情、模拟优秀法官的思维生成裁判文书,还可能出现人工智能自动生成裁判文书,而法官只需要审查签署,抑或者直接由人工智能进行裁判的情况。由此产生的司法行为归责问题应当如何解决?此外,从可行性的角度来看,人工智能或许可以就简单道路交通案件作出正确的裁判。但是面临更加复杂多变的社会现实,不满足具有法律伦理、社会知识等法官基本素养的人工智能很难说是可以胜任裁判者的角色。法律伦理中还涉及到需要维护主流价值观、维持社会稳定秩序和包容多元价值观的问题。而由于机器学习过程就是一个个黑盒子,外界也难以进行伦理审查。

第四是基于人工智能和大数据的案件预测将深刻影响当事人的诉讼行为和法律纠纷的解决。司法审判过程对于人工智能的需求在于是否能够借此形成共同的话语体系和多方能够接受的专业共识,从而使各方能够接受审判结果避免案结事未了等社会问题发生。

李鑫老师通过对上述法律大数据应用、法律人工智能应用的阐述,道出他的看法:以问题为导向寻求多元的化解路径、思考技术与法律领域的契合点,这是法律人面对诸如大数据、人工智能等新技术应当持有的立场。老师在课堂上还提出许多值得同学们研究和思考的问题,欢迎大家学习后同老师交流。


“法律大数据分析”课程:计算法学概论


2018年7月12日下午13:50,由四川大学计算机学院、数学学院、法学院联合开办的“法律大数据分析”课程第四次专题研讨课在四川大学江安校区顺利开课。本门“法律大数据分析”课程至此已经完成了全部教学内容的讲授。法学院的王竹教授展示他对计算法学学科建设的思考和他在计算法学方向的实践经历与实践成果。

计算法学的概念是近几年才兴起的,现有文献对于计算法学的研究仍不乏宽泛、模糊的问题。目前对计算法学领域进行了深入研究的著作是张妮老师和蒲亦非教授合著的《计算法学导论》,该书对计算法学的定义是“计算法学是以具有数量变化关系的法律现象作为研究的出发点,采用统计学、现代数学、计算智能等技术方法对相关数据进行研究,旨在通过实证研究评估司法的实际效果、反思法律规范立法的合理性,探究法律规范与经济社会的内在关系”。王竹教授对计算法学定位的理解则是从计算法学的交叉性入手。

根据两位数据应用的专家Drew Conway和Bin YU对数据科学所作的韦恩图显示,他们一致地认为数据科学是计算机科学(或者黑客技术)、数学与统计学和专业知识三者交叉的学科领域。王竹教授据此认为在法学领域,计算法学是计算机科学与技术、数学与统计学和法学知识的结合。考虑到中国法学界长期从事的法学与其他学科结合的跨学科研究,王竹教授将计算机科学与技术、数学与统计学和法学知识三个领域两两交叉的领域定为机器学习、司法信息学和(Legal informatics)计量法学(Jurimetrics)。理解这三个学科是明确计算法学的研究对象和特定研究方法的前提。这是本门课程教学内容安排的考量之一:帮助同学们对机器学习具备最基本的了解,鼓励同学们加强自身的法学素养,为未来从事计算法学等交叉学科的同学指明方向。

王竹教授认为计算法学的研究范围主要是三类:结论性研究、计算性研究和法学性研究。和传统民法靠逻辑推理、价值判断、个案研究等传统研究方法不同,他希望通过计算机科学与技术、数学与统计学和法学知识的结合,得出以往的研究方法不能找到且足够新颖的结论,并据此作出有助于法律发展的可靠建议。具体而言,首先需要通过计算对比模拟发现存在的问题。其次是借助数据计算辅助选择实现双向检索。还可以通过计算长期验证研究结论。值得注意的是,在进行法律数据计算之前,需要保证数据的客观性和真实性,通过清洗、剔除数据达到优化计算结果的目的。

在王竹教授主持的类案检索研究中,遇到了诸多数据内容的难题。例如由于民事请求竞合、错误分类、无可归案由等原因,导致同类案件检索裁判文书的困难。又例如,数量庞大的争议焦点的合并整理在专业能力和人力资源方面给团队带来了不小的挑战。

四天的“法律大数据分析”课程,沿着机器学习、深度学习、人工智能的司法应用、计算法学的顺序,展示了法律与大数据结合的理论基础与应用前景。这同时也体现了本门课程教学内容安排的考量:帮助同学们对机器学习具备最基本的了解,鼓励同学们加强自身的法学素养,为未来从事计算法学等交叉学科的同学指明方向。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存