2022 IDEA大会|BIOS V2正式发布,数据驱动构建超级医学知识图谱
11月23日,以“About IDEA Beyond ideas”为主旨的2022 IDEA大会圆满落幕。此次大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋发布了多个IDEA研究院科研成果,介绍了这些创新产品取得的研发进展。BIOS生物医学信息本体系统(Biomedical Informatics Ontology System, BIOS)的V2版也在本次大会发布的成果之列。
BIOS是由深圳卫健委指导,IDEA研究院AI平台技术研究中心(AIPT)与清华大学统计学研究中心俞声团队联合研发的开放生物医学知识图谱。继去年BIOS在IDEA大会上首次亮相后,经过1年时间打磨,今年BIOS V2以近2700万医学概念和5400多万医学术语的超大规模,远远超越医学知识图谱行业标杆——统一医学语言系统(Unified Medical Language System, UMLS),一跃成为全球规模领先的超级医学知识图谱。此外,BIOS在数量大幅增长的时候,质量也做到了同步提升,英文术语的准确率和覆盖度都明显优于UMLS。沈向洋表示,不到2年就初见成效,这充分体现了数据驱动构建医学知识图谱的优势。
BIOS V2的主要发布亮点如下:
规模全球领先
BIOS是从3400+万篇全量PubMed文献中,利用深度学习、文本挖掘等前沿技术,以自动化提取医学实体和结构化知识的方式而构建的。与去年亮相时相比,经过对术语清洗、概念聚合、关系抽取方法等技术进行难点攻坚,BIOS V2实现了重大规模突破,现已收录2,693万医学概念(包括27种语义类型)、5,415万医学术语和6,960万医学关系三元组(覆盖13种医学关系类型)。其中,英文术语和概念规模更是大幅超越UMLS,分别达其4倍和6倍左右。
沈向洋介绍BIOS术语规模
术语质量提升
BIOS的术语质量评估采用的是医学专家人工抽样评测方式,对术语准确性(Term Accuracy)和术语覆盖度(Term Completeness)两个关键指标进行评测。经测评,BIOS V2的英文术语准确性和覆盖度分别为63%和51%,明显优于UMLS的55%和29%。
术语准确性:Span和语义类型都正确的术语占知识图谱全部术语的比例,测评方法为从知识图谱中随机选取3616条术语(95%置信度下的最小抽样量),由医学专家人工评测准确率。
术语覆盖度:知识图谱术语占真实世界中全部⽣物医学术语的比例。测评方法为从PubMed文献库、MIMICIII病历库、Medscape⽹站等来源随机抽取7,000句子(后续将扩增至2万句子)作为测试集,由医学专家人工标注出目标术语,再计算覆盖度。
开放构建技术和工具
继开放下载数据集后,今年,BIOS进一步在官网公布了全部构建技术和部分源代码。此外,BIOS还提供了离线医学NER工具: BIOS Helper,支持批量处理、自动识别自由文本中的BIOS术语。
BIOS全面开放
让疾病有“谱”可“医”,是BIOS的使命和愿景,沈向洋认为做这种以使命感驱动的创新型产品,与社会的需求紧密相连,将对社会产生非常正向的影响。
BIOS:让疾病都有“谱”可“医”
BIOS除了持续打磨产品外,还积极致力于推动成果转化。BIOS现已在电子病历结构化、医学科研智能选题、智能健康咨询问答等场景实现技术应用,并同时探索在疾病风险评估、体检报告解读、健康资讯精准推荐等更多场景的落地。
未来,作为数字医疗产业的基础支撑能力,相信BIOS通过为各种医疗大数据分析、医疗AI技术发展广泛赋能,将极大助力基础医疗服务能力提升,有效缓解长期存在的医疗资源缺口问题。
如有合作意向,欢迎通过以下方式与BIOS联系
邮箱:bios@idea.edu.cn
微信:扫描下方二维码或添加微信号BIOS_Asst
关于 BIOS生物医学知识图谱
BIOS生物医学知识图谱(Biomedical Informatics Ontology System)是IDEA研究院工程总监谢育涛亲自带队,与清华大学等机构合作共建的超大规模生物医学知识图谱。BIOS利用深度学习、文本挖掘等前沿技术,基于大规模、多类型的权威医学文本数据,来提供高质量的结构化医学知识,以促进生物医学信息领域的数据交换、自然语言处理和AI模型训练等,并助益医学科研、疾病风险预测、辅助诊疗等场景的更好发展。
点击阅读原文链接,浏览BIOS官网了解更多信息。
关于 IDEA Research AIPT
IDEA AI平台技术研究中心(AI Platform Technologies Research Center,AIPT)致力于建设支撑人工智能算法、算力和数据的平台,通过具体项目的研发、实施和部署来推进AI技术的落地和产业化。