MIMIC专病数据库具有开源共享和适合科研协同的特点。
郑西川专栏 | MIMIC-IV专病数据库新进展:提高临床数据可用性
2022年6月,重症临床科研数据库MIMIC(Medical Information Mart for Intensive Care)发布了MIMIC-IV 2.0版。MIMIC-IV包含了2008-2019年之间波士顿贝斯以色列迪康医学中心(Beth Israel Deaconess Medical Center,简称BIDMC)重症监护病房收治的4万多名患者的临床数据,并且在许多方面有了改进:调整了数据组织架构,突出了数据来源;对患者标识符进行了自动识别,并且根据《健康保险携带和责任法案》(HIPAA)安全条款删除了患者标识符,实现了患者隐私保护。
近年来,MIMIC专病数据库在推动临床信息学研究、流行病学和机器学习研究方面取得大量成果。笔者曾对MIMIC-III专病数据库进行过一系列介绍。作为后续,本文介绍MIMIC-IV 2.0的最近进展。
数据预处理
MIMIC-IV的数据来自院内临床业务信息系统,主要包括临床电子病历EHR数据和ICU临床信息系统。数据预处理分为三步进行:
1.数据获取。所有数据来自BIDMC入院患者的综合临床数据。MIMIC-IV首先创建了一份患者清单,包含2008-2019年期间所有入住医院ICU或急诊科患者对应的医疗记录编号,将所有临床数据源表过滤为患者清单的患者相关行。
2.数据重组。为了更好地进行回顾性数据分析,MIMIC数据库对临床信息源数据进行了重组处理,包括源数据库表约束处理、删除财务事务数据,以及重组为更少的数据表。这个过程的目的是简化数据回顾性分析,方便临床研究。更重要的是,为了确保专病数据库的数据能反映真实的临床数据集,没有进行数据清洗。
3.去标识符。对HIPAA规定的患者标识符进行删除。使用随机密码替换患者标识符,从而避免患者、住院时间和ICU住院时间等可识别标识符泄露患者隐私。MIMIC数据库使用查找表和允许列表过滤结构化数据,在有必要的字段中,采用自由文本识别算法从自由文本中去除PHI(Protected Health Information,受保护的健康信息)。最后,使用以天为单位的偏移量,将日期和时间随机移到未来时刻,对每个主题标志字段分配一个日期移位。因此,单个患者的数据在数据库内部是一致的。例如,如果原始数据的两个度量之间的间隔为4小时,那么在MIMIC-IV中计算的时间差异也将是4小时。但不同患者在时间上没有可比性。
执行完三个步骤后,加工后的数据被导出为CSV文件,压缩后提供给申请者。
数据库架构
MIMIC-IV数据分为两个模块:HOSP和ICU。分模块的目的是为了突出数据源。
1.HOSP模块
HOSP模块数据包含来自医院EHR的临床数据。大部分生理测量数据是在患者住院期间记录的,部分数据来自医院外(如实验室的门诊实验报告结果)。HOSP模块数据包括了患者基本信息数据、住院临床信息(含入院信息)和期间转科数据。
值得注意的是,患者数据表通过ANCHOR_YEAR和ANCHOR_YEAR_GROUP两个字段提供患者的时间信息。ANCHOR_YEAR是2100-2200年之间的一个确定年份,ANCHOR_YEAR_GROUP是2008-2019年之间的一个日期范围。这些信息可以让研究人员推断出患者接受治疗的大致年份。例如,如果患者的ANCHOR_YEAR是2158,其ANCHOR_YEAR_GROUP是2011-2013,那么该患者的住院实际时间发生在2011-2013年之间。最后,ANCHOR_AGE字段为给定ANCHOR_YEAR的患者提供年龄信息,如果患者的ANHOR_YEAR超过89,则ANCHOR_AGE设置为91(也即所有超过89岁的患者都被分组到一个值为91的组中,不管他们的实际年龄是多少)。
死亡日期可在患者数据表的DOD字段中查询。死亡日期来自医院记录和州记录,如果两者都存在,则以医院记录优先。根据姓名、出生日期和社会保险号,MIMIC数据库使用基于自定义规则的链接算法匹配州记录。在MIMIC-IV中,不提供出院后一年以上死亡日期的数据。作为患者身份确认过程的一部分,每个患者的最长随访时间正好是他们最后一次出院后的一年。例如,如果患者最后一次出院发生在2150-01-01,那么该患者最后可能的死亡日期是2151-01-01。如果患者在2151-01-01或之前死亡,并且在州或医院的死亡记录中被记录,那么MIMIC数据库将包含已确认的患者死亡日期。如果患者在最后一次出院后至少存活了一年,则DOD列中将有一个NULL值。
HOSP模块的其他信息包括患者实验室数据(LABEVENTS、D_LABITEMS)、微生物培养(MICROBIOLOGYEVENTS、D_MICRO)、临床医嘱(POE、POE_DETAIL)、药物管理(EMAR、EMAR_DETAIL)、药物处方(PRESCRIPTIONS、PHARMACY)、医院账单信息(DIAGNOSTICS、D_ICD_DIAGNOSTICS、PROCEDURES_ICD、D_ICD_PROCEDURES、HCPCSEEVENTS、D_HCPCS、DRGCODES)、在线医疗记录数据(OMR)和服务相关信息(SERVICES)等数据。
2.ICU模块
ICU模块数据来自BIDMC的MetaVision(iMDSoft)系统中的患者临床生命体征数据。其中,ICULIES和D_ITEMS表链接到一组以“events”为后缀的数据表。ICU模块中的数据表包括静脉和液体输入(INPUTSEVENT)、入量成分(INGREDIENTEVENTS)、患者输出(OUTPUTEVENTS)、过程事件(PROCEDUREEVENTS)、记录为日期或时间的信息(DATETIMEEVENTS)以及其他图表信息(CHAREVENTS)。所有事件表都包含一个STAY_IDZID列,允许识别相关ICU患者,以及一个ITEM_ID列,允许识别D_ITEMS中记录术语概念。
数据库使用
MIMIC数据是在医院常规临床实践中收集的,反映了实际临床实践。总体而言,MIMIC专病数据库具有开源共享和适合科研协同的特点。
1.开源共享
MIMIC数据文件以一组CSV文件提供,同时也提供了输入数据到PostgreSQL、MySQL,以及MonetDB数据库管理系统的脚本文件。研究者在使用这些数据前,需要在MIMIC网站注册,获取使用授权。完成授权的两个关键步骤是:
研究者需要完成保护患者隐私的相关课程培训,遵守HIPAA要求;
研究者必须签署数据使用协议,明确数据使用保密标准,禁止识别单个患者信息。
申请通过后,研究者会收到在PHYSIONETWORKS下载该数据库的详细信息文件。
2.协同科研
许多研究者使用独立的数据代码进行数据处理和分析。为在共享代码标准基础上实现协同研究,MIMIC开发者建立了公共代码仓库鼓励开发和共享相关代码,地址为:https://github.com/mit-lcp/mimic-code。该仓库已有重症医学研究使用的常用变量计算代码,包括疾病严重度评分、合并症评分以及不同处理如机械通气和血管加压方法等。开发者鼓励研究者使用这些代码进行科研并进行改进。MIMIC数据仓库正日益成为临床研究者的重要工具。
总结
临床数据的共享分析和二次利用是医疗信息化发展的必然趋势。回顾性临床数据分析,通过知识发现和算法开发,为改善患者医疗服务质量提供了契机,已越来越多地用于流行病学和预测建模。尽管近年来医院临床记录电子化取得了显著进步,但获取医疗数据并改善患者临床仍面临重大挑战,医疗数据共享有限的原因是多方面的,对患者隐私的关注仍是制约数据共享的首要问题。
MIMIC重症专病数据库采用的数据组织架构方案,允许数据开源共享和协同科研,为我国临床专病数据库建设提供了参考。MIMIC专病数据库在广泛应用中取得了成功,其研究领域包括:在明确定义队列中评估治疗效果、预测关键患者的预后等。MIMIC-IV的目标是通过数据组织架构的改变来提高临床数据可用性,并使更多临床研究应用成为可能。
研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。
腾讯健康专栏 | TRUST体系:撑起医疗数据安全保护伞
HIT培训动态 | 第一期第二场学员讨论课评比结果出炉
医院IT运维服务台热线,用一个号码还是两个号码好?| HIT培训问答
黄瑜专栏 | 医院管理数据利用流程为何陷入“死循环”?
寻求“商务合作”,长按二维码可快速与我们取得联系
投稿:gong_chen@HIT180.com
商务合作:(010)82373062
本公众号原创文章,版权归HIT专家网和原作者所有。
未经许可,谢绝转载或以其他形式使用文章内容进行传播。