查看原文
其他

【郑西川专栏】临床科研大数据应用系列2:MIMIC-III数据集数据模型及其应用研究

郑西川 HIT专家网news 2021-08-11

导读

分析研究MIMIC-III数据模型和具体表结构,为临床医学大数据中心和专病数据集数据设计具有重要作用。


接上篇:【郑西川专栏】临床科研大数据应用系列1:加强对重症监护医学数据集MIMIC-III的利用分析

随着临床信息化建设发展,国内医院都会产生大量结构化、非结构化以及半结构化数据,如检验数据、影像数据、医生文本数据等,ICU病人还会产生大量时态数据。这些数据分散在各个临床业务系统中,为了实现临床医疗精细化水平和临床科研数据支撑,临床数据中心建设是迫在眉睫的事情,对特定主题的临床科研和疾病未实现专病数据库是医院临床数据中心建设的重要任务。

麻省理工大学联合飞利浦医疗保健事业部建立了MIMIC-III危重症临床数据库,该数据库整合了贝斯以色列医疗中心ICU病人的综合临床数据,包括病人基本信息、实验室检验、医护记录、影像报告以及床旁监护实时波形数据等,目前世界各研究学者和机构也基于MIMIC-III数据库进行了一系列挖掘性分析研究。分析MIMIC-III数据库的数据模型,对临床专病数据库的建设及应用具有现实性指导意义。

EVA模型的提出

传统关系数据库设计采用实体关系ER数据模型。实体描述离散的对象或概念,关系描述实体之间的联系,从应用角度看,ER模型是通过关系表实现的。由于ER模型对医疗信息处理存在局限性,IBM提出了应用于临床信息处理的EAV模型,在EVA模型中,表中每一行都相当于一个三元组:实体、属性和值。EVA模型的优点是对数据库中的实体添加新的属性不需要改变数据库的设计。

在临床医疗过程中,病人通常具有很多临床指标,如心率、血压、MRI、CT、体温和昏迷指数等等,但是对于给定的某个病人来说,往往只有其中的某些指标是需要的,某些指标是不需要的,而且随着医疗技术的发展,不断有新的临床检验指标被纳入疾病诊断或严重度评估系统中,此时传统的ER模型就很麻烦。

当每一列代表一个潜在的属性时,往往在数据表里存在大量的空值。此时数据模型可采用实体属性值模型(EAV),利用行建模的思想,每一行代表一个属性且只存储有效的属性,当有新的属性增加时只需再增加一行数据即可。EAV模型的属性值会有多种多样的数据类型,如数值型、字符串型、日期类型等,属性值表可直接用通用类型字符串表示所有值数据,也可以根据数据类型分组表示,将不同类型的数据存储到不同的属性值表中。

MIMIC-III数据模型:EAV模型应用实例

1、实体的表示

临床数据中的实体一般是诸如一次血压测量、一次实验室检验、一次影像报告等的一个医疗过程或者医疗事件,由病人ID、检查时间,有时候有上传至数据库的时间或病人入院方式等附加信息组成。MIMIC-III危重症临床数据库的实体结构如下所示:

<病人ID,住院号,住ICU号,记录时间,数据存储时间,医护人员ID>

其中,记录时间代表检查项目的测量时间或者医护人员文本、影像报告记录时间,数据存储时间代表数据上传至数据库时被医护人员录入或被确认的时间。对于危重病人,常常需要重复性、连续性测量各项指标,因此,检查项目会连续性存储,用户可根据记录时间查询特定病人特定指标的趋势,从而判断病人预后情况和治疗效果。

2、属性的表示

MIMIC-III数据库中的属性包括各种护士需人工记录的项目和实验室检查项目,分别存储在d_items和d_labitems字典表中,其中实验室检查项目经过了LOINC编码系统标准化。属性表中除了存储项目代码外,还有基本的元数据信息。

3、值的表示

EAV模型的值类型可以简单地使用通用类型字符串来表示,但是会丢失必要的数据类型信息,不利于索引的创建以优化查询,如数值型和日期型表示为字符串后,无法进行高效的范围搜索,使用一些专用于数值型或日期型的操作符之前必须将字符串型转换成相应的数据类型。因此,数据库增加了额外的数值型字段valuenum,当value是数值型的时候,valuenum存储了相同的数值形式,否则valuenum为空值,特殊情况如昏迷指数时,valuenum存储评分值而value字段存储分值和表明分值意义的文本。

此外,属性值表还设置了值的单位字段等信息。虽然属性值表存储了一些冗余信息,但是研究者可根据数值型设置索引进行高效的范围查询,也可以根据值的单位信息来匹配特定的指标,缩减搜索范围。

EAV模型的典型表chartevents表结构如图1:

图1:MIMIC-III记录护士测量病人生命体征生理参数的表结构(charevent)

MIMIC-III数据库关于临床各项参数的存储采用了EAV模型,对于病人入院信息、ICU转移等具有固定属性数目的类来说,采用更加合适的传统关系表来存储。

此外,MIMIC-III数据库的数据模型适用于数据的存储和整合,对于查询和分析有时候并不十分有效,研究者可自己重新抽取建立新的表结构或创建视图。

4、元数据管理

在EAV模型中,物理结构和逻辑结构有很大的差异,元数据提供了必要的信息以便用户理解数据和设计良好的用户界面。

属性表里除了项目编码外,还包含基本的元数据信息。其次,属性值的数据类型信息被隐藏,为了实现从EAV到满足分析的传统列模型的转换过程,MIMIC-III的属性表存储了param_type的数据类型信息,有以下几种数据类型:Process、Numeric、Solution、Checkbox、Numeric with tag、Text、Date time。

属性表中还有分组元数据,将d_items表中的测量项目分为95组,将d_labitems表中的实验室检验项目分为6组。具体表结构如图2所示。

图2:MIMIC-III 数据集属性表元数据信息

【小结】

以实体属性值EAV数据模型来设计临床专病数据库,能够适用临床数据的稀疏性和动态性特征,便于在不修改数据库结构的基础上增加新的数据类型,即数据集数据结构具有可扩展性。

分析研究重症医学数据集MIMIC-III数据模型和具体表结构,为临床医学大数据中心以及专病数据集数据设计具有重要作用,对医院临床电子病历应用为主的临床信息化数据模型有借鉴意义,也是目前临床科研数据支撑和转化医学信息化的重要基础。

【作者简介】

郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。

研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。

近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。

 近期热门文章: 


HIT专家网∣致力推进中国卫生信息化

想加入HIT专家网专业交流群吗?

请扫码添加“HIT专家网”小助手微信好友后提交你的申请哦!(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)

微信订阅号:HIT180com

微信服务号:chinaHIT

投稿: public@hit180.com

商务合作:(010)82373062

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存