其他
30万题,覆盖57个科室,MedBench开放评测平台支撑共建医疗大模型
医疗行业因其独有的专业度和严谨性,对医疗大模型的能力提出了极高要求;如何对医疗大模型进行评测?探索方向是:与行业领先机构及权威专家共建,用“题海战术”把模型“拉出来练练”。
在近日举行的在健康中国思南峰会上,上海人工智能实验室(上海AI实验室)与多家机构联合推出医疗多模态基础模型群“浦医2.0”(OpenMEDLab2.0),为“跨领域、跨疾病、跨模态”的AI医疗应用提供全方位的能力支持。作为浦医2.0的重要组成部分,面向中文医疗大语言模型的开放评测平台MedBench同时发布。基于OpenCompass大模型开放评测体系,上海AI实验室和上海市数字医学创新中心推出MedBench,依托顶级医疗机构的专家经验和知识储备,设置了医学语言理解、医学语言生成、医学知识问答、复杂医学推理和医疗安全和伦理等5大维度,共包含15项任务、20个数据集及30万道题目,为中文医疗大模型提供客观科学的性能评测参考。
MedBench面向全球开放,上海AI实验室诚邀全球相关机构参与线上评测,共同推进医疗大语言模型全面、专业、互认的评测体系建设。
目前,上海交通大学医学院附属瑞金医院、上海交通大学医学院附属新华医院、四川大学华西医院、广州实验室、上海交通大学、复旦大学、华东理工大学、同济大学、飞利浦中国创新中心、香港中文大学(深圳)以及阿里云天池等行业顶级机构已陆续加入平台共建序列,以汇聚行业经验,助力医疗智慧化转型。
MedBench链接
https://medbench.opencompass.org.cn
五大维度全方位评测
权威医师构建的专业评测数据集
MedBench评测数据覆盖57个主要科室
“一站式”自动化在线评测