大模型在真实法律任务中表现究竟如何？LawBench：多层能力体系全面评估

OpenMMLab 2024-04-23

【社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

大语言模型在各个方面都展现出了其强大的能力。然而，当将它们应用于高度专业化、安全关键的司法领域时，它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。

本期开放麦，我们邀请到宁波东方理工大学（暂名）信息学部助理教授、博士生导师，德国马克斯普朗克计算机研究所博士沈晓宇老师为大家介绍司法知识的综合评估基准 LawBench。LawBench 包含三个关键维度，涵盖 20 个子测评项，横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同，这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力。

分享内容

LawBench 的构建思路、数据集以及评测方法
现有模型在司法任务上的表现和汇总
未来研究方向的思路分析

分享时间

北京时间

2023 年 11 月 30 日（周四）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

沈晓宇

宁波东方理工大学（暂名）信息学部助理教授、博士生导师，于南京大学获学士学位（2015），于德国马克斯普朗克计算机研究所获博士学位（2020）。师从 ACM fellow Gerhard Weikum 和 Dietrich Klakow。博士毕业后在 Amazon Alexa AI 任机器学习科学家（2020-2023），负责 Amazon 智能客服问答系统的开发。

主要研究方向为隐变量贝叶斯模型、文本生成、问答、大语言模型的微调和多模态对齐，在 ACL、EMNLP、ICLR 等国际顶级会议发表论文 40 余篇。获南京大学优秀毕业论文、马克斯普朗克协会博士奖学金、优秀自费留学生奖学金、COLING 2020 最佳 demo 论文奖、ACL 2023 杰出论文奖和最佳主题论文奖等。是包括 ACL, EMNLP, NAACL, AAAI, TOIS 在内多个顶级会议和期刊的委员会成员、ACL 问答方向的领域主席和 High-Performance Computing for AI in Big Model Era 的主题编辑。

内容详情

大语言模型在各个方面都展现出了其强大的能力。然而，当将它们应用于高度专业化、安全关键的司法领域时，它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。今天我将介绍司法知识的综合评估基准LawBench。LawBench包括 20 个不同的任务，涵盖 3 个认知水平：法律知识记忆、法律知识理解和法律知识应用。

通过 OpenCompass，我们全面评估了 51 种热门的大语言模型，包括 InternLM 系列、LLaMA 系列、Qwen 系列等，以及部分模型的 Base 版本和 Chat 版本。根据模型训练数据的文本领域，我们将这些大模型分为三类：通用多语言模型、中文优化模型以及曾在法律文本上训练的法律专精模型。接下来，我们将探讨这三类模型在中文法律任务上的表现。让我们一起来看看吧。

根据 LawBench 汇报的这 51 种大语言模型在 LawBench 上的表现，包括 20 种多语言模型、22 种中文模型和 9 种法律专用大语言模型。我们发现 GPT4 在中文法律任务上也有非常大的优势，但是依然均分在 60 以下，距离真正可用仍有较大的差距。

同时基于中文针对性预训练的模型可以达到 10 倍大的多语言模型同样的效果，例如中文优化大型模型 InternLM-Chat-7B-8K，也验证了对中文进行针对性预训练的有效性。

最后，我们发现在法律数据上进行针对性微调可以获得较大的提升，但是法律专有模型在（1）任务之间的表现稳定性；（2）利用 demonstration 的能力和（3）遵循指令的能力仍然有待提高。

通过对模型表现的分析，我们讲述接下来工作的方向以及目前正在进行的一些工作。主要包含两部分：（1）改进LawBench 的主观评测、数据泄露和数据集的多样性；（2）将大语言模型迁移到司法领域的进展。

相关资料

LawBench: Benchmarking Legal Knowledge of Large Language Models

ReadPaper 论文链接：

https://arxiv.org/pdf/2309.16289.pdf

该 benchmark 已在 OpenCompass 中集成：

https://lawbench.opencompass.org.cn/home

GitHub 页面也公开了数据集、已经评测的模型的输出、以及评测的代码：

https://github.com/open-compass/LawBench

交流群

同时为了方便大家交流沟通，我们建立了语言大模型相关的交流群，大佬也在群里哦，提供与大佬 1v1 的机会，扫码即可入群~

往期回顾

上期开放麦我们邀请到 AI4Finance-Foundation 开源社区创始人、金融科技公司 AI 算法总监杨宏阳分享【开源金融垂类大模型 FinGPT 】以及书生·浦语 InternLM-20B 大模型在其中的实践应用。

感兴趣的同学，可以通过直播回放学习一下哦~

上海人工智能实验室大模型方向招聘 | 《offer来了》第4期

2023-11-24

比原始实现快8倍！PyTorch团队重写分割一切模型SAM

2023-11-23

快来抄作业！MICCAI 2023头影关键点检测挑战赛SOTA方案全面解析

2023-11-22

继续滑动看下一个

OpenMMLab

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

大模型在真实法律任务中表现究竟如何？LawBench：多层能力体系全面评估

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

大模型在真实法律任务中表现究竟如何？LawBench：多层能力体系全面评估

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡