其他
上海AI实验室联合多家机构推出评测框架GenMedicalEval,助推医疗大模型能力提升
近日,上海人工智能实验室(上海AI实验室)联合上海交通大学、华东师范大学、上海交通大学附属第九人民医院共同推出中文医疗大语言模型评测框架GenMedicalEval,助推真实医疗场景下大模型应用性能提升。
面向医疗领域的大型中文语言模型发展正取得显著进展,如何验证在真实医疗场景下的模型性能,并为模型持续优化提供决策参考,成为医疗及AI领域关注的研究方向。
直面行业研究诉求,GenMedicalEval通过大规模综合性能评测数据、多维度评估场景、开放式评估方法和自动化评估模型的共同作用,紧贴临床实际应用场景,打造科学公正的医疗大语言模型评测体系。
代码链接:
https://github.com/MediaBrain-SJTU/GenMedicalEval
面向真实医疗场景的大规模数据集
三大评测维度,模拟临床诊疗流程
创新开放式评测方法及自动化评测模型
研究结论及建议