通过网络社区开放源代码,为临床协作研究提供基础框架。
郑西川专栏 | MIMIC代码库:医学真实世界临床研究的重要资源
MIMIC代码库是与MIMIC数据库相配套的线上开放平台,由美国麻省理工学院计算生理实验室创建,网址为:https://github.com/MIT-LCP/mimic-code。MIMIC代码库包含基于MIMIC数据库的安装配置源代码与临床科研分析患者疾病特征代码包。随着重症医学临床研究和MIMIC数据库应用普及,MIMIC代码资源库已成为MIMIC数据库研究者的重要资源和真实世界临床研究的重要工具。
在上篇专栏文章中,笔者介绍了MIMIC专病数据库的新进展,本文介绍MIMIC代码库及涉及的相关研究内容主题,以便我国医疗机构临床专病数据库建设和真实世界临床研究借鉴参考。
MIMIC代码库概览
1.MIMIC数据集
MIMIC数据集共包括4个数据库,分别是:
(1)MIMIC-III:2001-2012年波士顿贝斯以色列迪康医学中心(Beth Israel Deaconess Medical Center,简称BIDMC)ICU收治患者的重症监护数据。该数据库包括人口统计信息、在床边进行的生命体征测量数据(每小时约1个数据点)、实验室测试结果、临床过程、药物、护理记录、影像报告和死亡率(包括出院后)等信息。
(2)MIMIC-IV:2008-2019年期间入住BIDMC ICU的患者重症监护数据,还创建了患者列表,包含与2008-2019年间入住ICU或急诊科的患者相对应的所有病历编号。在数据组织上采用模块化方法,突出数据来源,促进不同数据源的单独和组合使用。
(3)MIMIC-IV-ED:2011-2019年期间进入BIDMC急诊的患者临床数据。该数据库包含超过44万个急诊住院患者,提供生命体征、分诊信息、药物调节、用药和出院诊断信息。
(4)MIMIC-CXR:2012-2016年收治的急诊患者的胸部X射线成像和未识别的自由文本放射学报告。
同时,还计划发布患者波形数据(MIMIC-IV-waveforms),目前发布时间未定。
2.MIMIC代码库
MIMIC代码库是基于MIMIC数据集配置的源代码和临床研究源代码包,在Github线上平台可以免费下载使用。下载后对代码包进行解压缩,形成包含一个包含五个子目录的顶级文件夹,每个目录包含相应数据集的配置文件源代码和社区开发代码,具体为:
(1)/mimic-iii:为MIMIC-III数据库构建脚本和社区临床研究源代码。包含benchmark、buildmimic、concept、notebooks、test 及tutorials 6个子目录,其中benchmark提供了数据库各种速度测试基准;buildmimic目录是构建MIMIC III的配置脚本;concept目录是临床科研中各种主题的代码;notebooks是如何进行数据提取和数据分析的示例;test是如何进行数据测试;tutorial目录向使用者解释所涉及的代码术语。
(2)/mimic-iv:为MIMIC-IV数据库构建脚本和社区临床研究源代码。包括buildmimic、concept、notebooks及tests 4个子目录,分别是针对MIMIC-IV数据的相关代码文件。
(3)/mimic-iv-cxr:用于加载和分析DICOM(mimic-iv-cxr/dcm)和文本(mimic-iv-cxr/txt)数据的代码。
(4)/mimic-iv-ed:为MIMIC-IV-ED构建脚本。
此外,每个子文件夹都有readme文件,详细介绍其内容。
MIMIC代码库的研究主题
医学临床研究是不断发展的,MIMIC线上社区支持研究者在讨论区上传自己的源代码,研究者也可在讨论区提出、收集和分析数据中的问题,有经验的用户可以提供见解和建议。这种方式促进了MIMIC数据的二次利用,也使MIMIC代码库不断充实和扩展。
MIMIC代码库源代码主要包括以下临床科研主题:
1.疾病严重度评分
近十年来,业内对ICU患者疾病严重程度评估提出了各种评分方法,评分目标是实现对患者疾病风险进行监测。从回溯性研究角度来看,疾病严重度评分仍是挑战性工作:首先,许多相关数据存在于各个临床业务信息系统中,某些数据需要进行后处理;其次,由于概念术语定义不清晰,会使原始数据存在差别,严重影响评分结果;第三,护理信息系统不完善也会影响病情评分的准确性。
MIMIC代码库汇集了5种疾病严重程度评分:急性生理学评分(APS)、APS-III、简化急性生理评分(SAPS),SAPS-II和牛津急性疾病严重程度评分(OASIS)。其中,APS III、SAPS II、OASIS评分等,需要使用患者进入ICU后24小时的数据进行分析。
2.器官衰竭评分
器官衰竭是急性疾病的标志,有多种量化评分。其中,顺序器官衰竭评估(SOFA)评分和主要器官功能障碍系统(LODS)评分均评估6个器官系统的衰竭,其他评分则针对单个特定器官进行分析,例如终末期肝疾病评价模型、终末期肾病风险/损伤/衰竭标准评估、急性肾损伤网络分类等。
计算评估患者器官衰竭的程度,需要大量的实验室、诊断和治疗数据。为了对比传统试验患者数据和真实世界患者数据因数据差异而引起的评分差别,MIMIC代码仓库对比了两种方法的SOFA评分结果,使用相关算法对模型参数进行了校正,并在代码库及线上平台进行了说明。
3.临床措施干预时机
临床措施时机和持续时间受到临床研究关注,由于医院的数据采集限制,许多药物和治疗的时间和持续时间在临床业务系统不能直接采集,需要进行推导计算。MIMIC代码库汇集了急诊机械通气开始和停止时间的推导方法,也包含了类似的用于确定加压素给药的时间和持续再灌注代码。
4.脓毒症
脓毒症是重症监护室主要且花费昂贵的疾病。传统上,脓毒症被定义为并发感染全身炎症和感染的发生,最近有针对脓毒症的研究建议,将该疾病定义为威胁生命疾病,因感染引起患者器官功能衰竭。由于医院临床电子病历没有脓毒症发病记录,因此需要通过临床数据建立模型进行分析推导。
在对脓毒症的定量评估中,Seymour等研究者首次应用抗生素使用与微生物学评价,发现疑似感染脓毒症患者。MIMIC代码库采用类似方法,通过患者进入ICU后的微生物报告,判断脓毒症感染,按照脓毒症-3指南,将脓毒症归结为感染相关的器官衰竭,并用SOFA评分进行量化评估。MIMIC代码库提供了相关脚本及模型,可使用MIMIC数据进行脓毒症识别,通过获取临床计费代码,明确识别脓毒症(国际疾病分类ICD-9代码为785.52和995.92)。代码库还提供了Angus、Martin等多位研究者确定脓毒症ICD-9代码的源程序代码算法。
5.并发症
许多重症监护患者都有慢性病症状,并发症会影响患者在危重疾病诊治中的存活概率。Elixhauser等研究者通过对MIMIC临床数据分析,将合并症分为29类,并赋予了相应I的CD-9代码;还有研究者提出了一种增强ICD-9编码,使用疾病诊断相关组,辅助住院患者主要诊断费用账单检查。
MIMIC代码库除包含以上并发症分析模型代码外,还收集了住院死亡率的单点评分预测模型代码,供临床研究者在实际科研中应用。
总结
医疗机构临床科研如何建立数据驱动机制框架,加速医院临床科研转化,促进临床信息二次利用,是医学信息学发展面临的重要课题。
MIMIC的发展路径启示我们:一是真实世界数据准备,涉及业务系统真实世界数据源的数字化系统建设,才能实现临床数据采集、清洗和患者隐私保护处理;二是需要给临床医生提供研究工具,降低临床医生临床科研的信息门槛,形成临床医生、护士、临床研究者以及信息工程者协作共享的生态氛围。
MIMIC临床科研数据库不仅开放临床源数据,还通过网络社区开放源代码,为临床协作研究提供基础框架。这种模式对加快研究人员的数据理解和未来研究真实有效、研究结果可重复有重要意义。
研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。
活动预告 | 2022年南湖HIT论坛:十年,洞见医疗信息化未来
如何评价医院信息化建设的产出效能,以获取更多支持?| HIT培训问答
医院信息化项目立项,部门之间如何打好“配合战”?
专家咨询 | 需求被反复推翻,信息化项目难以按期完工,谁之过?
寻求“商务合作”,长按二维码可快速与我们取得联系
投稿:gong_chen@HIT180.com
商务合作:(010)82373062
本公众号原创文章,版权归HIT专家网和原作者所有。
未经许可,谢绝转载或以其他形式使用文章内容进行传播。