首个中文医学知识LLM：真正的赛华佗—华驼(HuaTuo)

TJ君 2023-07-03

大家好，我是TJ

一个励志推荐10000款开源项目与工具的程序员

出品 | OSC开源社区（ID：oschina2013)

先划重点：中文医学知识，不是「中医」。

自从 Meta（原 Facebook）的 LLaMA 大语言模型发布以来，相信大家看到了许多以“驼类动物”命名的 LLM。比如斯坦福用了 Alpaca，伯克利用了 Vicuna，Joseph Cheung 等开发者团队用了 Guanaco。

据说南美洲的无峰驼类动物一共就是上图列出的 4 种 —— 已经被各家的大模型命名使用。

不得不承认这些以“驼类动物”命名的 LLM 都很厉害，但如果，我是说如果，我拿出下面这个 LLM，阁下又当如何应对？

没错，正是「华驼」。

见名知意，华驼肯定跟医学有关——这是一个基于中文医学知识的LLaMA 微调模型。

说到这，这个 LLM 的命名很难不让人拍案叫绝，将神医华佗与基于“羊驼”的大语言模型巧妙地结合在一起。

此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。

通过医学知识图谱和 GPT 3.5 API 构建了中文医学指令数据集，并在此基础上对 LLaMA 进行了指令微调，提高了 LLaMA 在医疗领域的问答效果。

据介绍，医学知识库围绕疾病、药物、检查指标等构建，字段包括并发症，高危因素，组织学检查，临床症状，药物治疗，辅助治疗等。知识库示例如下：

{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"],

"相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"],

"所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}

然后利用 GPT3.5 接口围绕医学知识库构建问答数据，并设置了多种 Prompt 形式来充分利用知识。指令微调的训练集数据示例如下：

"问题：一位年轻男性长期使用可卡因，突然出现胸痛、呕吐、出汗等症状，经检查发现心电图反映心肌急性损伤，请问可能患的是什么疾病？治疗方式是什么？"回答: 可能患的是心肌梗塞，需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗，并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物，以防止病情加重。"

该项目提供模型的训练数据集共计八千余条，需要注意的是，虽然训练集的构建融入了知识，但是仍存在错误和不完善的地方。

基于相同的数据，项目团队还训练了医疗版本的 ChatGLM 模型：ChatGLM-6B-Med。

这些模型在医疗领域的问答效果得到了显著提升，下面是不同模型的效果对比：

由此可见，指令微调在医疗领域具有很大的应用潜力。

同时，该项目还尝试将医学文献的【结论】融入多轮对话，在此基础上对 LLaMA 进行指令微调，以进一步提高模型的实用性。

目前，项目团队只开放针对"肝癌"单个疾病训练的模型参数。未来计划发布融入文献结论的医学对话数据集，并且会针对“肝胆胰”相关 16 种疾病训练模型。这将有助于广泛应用于更多疾病的诊断和治疗建议。

下面是训练样本的示例：

华驼项目团队称下一个发布的新模型会被命名为扁鹊 (PienChueh)。

往期推荐

GitLab CI/CD：开发和运维管理的效率神器

网页版的 Redis 可视化工具来了，已开源！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

首个中文医学知识LLM：真正的赛华佗—华驼(HuaTuo)

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

首个中文医学知识LLM：真正的赛华佗—华驼(HuaTuo)

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡