查看原文
其他

基于中文法律知识的大语言模型

TJ君 2023-07-03

大家好,我是TJ

一个励志推荐10000款开源项目与工具的程序员

大家好,我是TJ

大语言模型持续火热,继续给大家推荐最近快速增长的相关开源项目,以开拓大家的日常工具库和创新思路。

今天要介绍的是一个关于中文法律知识的开源大语言模型:LaWGPT


项目地址:https://github.com/pengxiao-song/LaWGPT

该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。

快速开始

  1. 准备代码,创建环境
    # 下载代码
    git clone git@github.com:pengxiao-song/LaWGPT.git
    cd LaWGPT

    # 创建环境
    conda create -n lawgpt python=3.10 -y
    conda activate lawgpt
    pip install -r requirements.txt
  2. 启动 web ui(可选,易于调节参数)
  • 首先,执行服务启动脚本:bash scripts/webui.sh
  • 其次,访问 http://127.0.0.1:7860 :
  • 命令行推理(可选,支持批量测试)
    • 首先,参考 resources/example_infer_data.json 文件内容构造测试样本集;
    • 其次,执行推理脚本:bash scripts/infer.sh。其中 --infer_data_path 参数为测试样本集路径,如果为空或者路径出错,则以交互模式运行。
    注意,以上步骤的默认模型为 LaWGPT-7B-alpha ,如果您想使用 LaWGPT-7B-beta1.0 模型:
    • 由于 LLaMA 和 Chinese-LLaMA 均未开源模型权重。根据相应开源许可,本项目只能发布 LoRA 权重,无法发布完整的模型权重,请各位谅解。
    • 本项目给出合并方式,请各位获取原版权重后自行重构模型。

    本项目基于如下开源项目展开,在此对相关项目和开发人员表示诚挚的感谢:
    • Chinese-LLaMA-Alpaca: https://github.com/ymcui/Chinese-LLaMA-Alpaca
    • LLaMA: https://github.com/facebookresearch/llama
    • Alpaca: https://github.com/tatsu-lab/stanford_alpaca
    • alpaca-lora: https://github.com/tloen/alpaca-lora
    • ChatGLM-6B: https://github.com/THUDM/ChatGLM-6B

    更多相关信息,读者可以前往其开源项目地址查看:

    https://github.com/pengxiao-song/LaWGPT


    往期推荐

    阿里开源!集成了 AIGC 的免费数据库工具:Chat2DB
    如何在Linux 终端上使用 ChatGPT
    一键部署你的私人 ChatGPT 网页版,这款开源应用太牛了


    点击下方卡片,关注公众号“TJ君

    每天了解一个牛x、好用、有趣的东东

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存