基于多源异构临床数据的科研专病数据库的建设需要数据模型标准和工具方法。
郑西川专栏 | OMOP CDM为我国临床科研数据利用分析带来了哪些启示?
在医疗机构数据中心建设过程中,需要对患者临床数据进行数据清洗、转换和后结构化处理,以满足医生对专病临床科研数据的检索需要。笔者在重症监护病房ICU、肿瘤内科以及耳鼻喉等科室重点病种数据库建设中,深切体会到多源异构临床数据整合的复杂性,认识到数据模型标准和工具方法在临床科研数据利用分析中的关键作用。
美国OMOP(Observational Medical Outcomes Partnership)为患者临床数据科研分析利用提供了典型案例,其通用数据模型为多源异构数据整合、转换以及数据分析利用提供了可借鉴的应用样板。本文对OMOP数据模型及应用特点进行分析总结,就医院科研专病数据库建设提出建议,以便同行在临床科研信息化建设中参考。
OMOP项目致力于在多源异构数据中寻找药物医疗干预措施和具体健康结果之间的相关性,进行了医学观测数据主动监测方法和相关标准的可行性及实用性研究。项目成功实现了以下目标:①进行了方法学研究和各种工具方法效果评估,包括识别干预措施与观测结果的关联性和避免错误结果的能力;②开发了一系列工具对不同数据源进行转换和分析,实现了医疗数据标准化、装载和分析;③建立了开放共享的资源联盟,使得更广泛的研究团体可以开展互相协作。
OMOP项目验收后,观察健康数据科学和信息学(Observational Health Data Sciences and Informatics, OHDSI)共享并向全世界推广其数据模型、工具和应用成果,助力科研人员利用真实世界数据进行临床数据分析,并共享相关成果。2017年,OHDSI成立了中国工作组,以促进我国健康医疗数据研究工作。
OMOP开发了通用数据模型CDM(Common Data Model)。其作用是:创建共同结构和框架来组织和标准化观察性数据,允许研究人员开发各种分析方法工具,运行在采用自有格式的数据源上,而不会改变原始数据的内容。OMOP CDM数据库独立于各种商业版本,既可应用于分布式网络,也可以应用于集中式数据库。OMOP CDM已经发展到第六版,其内容包含了患者临床数据、健康信息数据、标准化派生元素、用药观测结果数据、健康经济数据、医学术语词汇等6大类共39张表。
OMOP起源于基于主动观测数据的药物安全主动监测,其成果已应用到更多领域,包括实现多源医学数据综合利用,解决跨机构患者数据临床整合问题,以及促进专病多中心临床科研等。
OMOP CDM的主要特点如下:
1.开源共享,广泛协作。OHDSI建立了一个开放科学社区,进行方法学研究,通过使用观察健康数据建立最佳实践,工具都以开源共享的方式公开,推进了跨机构临床研究的广泛协作。
2.推进临床信息标准化。由于异构数据源中的数据描述不尽相同,科研人员对数据进行整合、分析和挖掘时面临标准不统一难题,OHDSI要求数据映射时不仅要进行数据格式的标准化,还要对内容标准化,目前已对近百个临床领域的术语标准提供支持,推进了医疗健康信息的标准化。
3.研究需求出发,技术独立。CDM基于关系数据库进行设计,可以在各种软件平台上实现,不依赖某一特定软件环境;其SQL基本语句都相对标准化,不同数据库环境只要稍作修改就能使用,提高了其适应性和应用能力。
4.方法工具使用。OHDSI创建了一个强大的开源分析工具库,以支持临床科研应用分析,比如临床特征分析:描述疾病的自然史,治疗利用率和治疗质量的改善;人群水平效果评估:将因果推理方法应用于医疗产品安全性监视和有效性比较;患者水平预测:将机器学习算法应用于精准医学和疾病干预。
5.多种研究分析模型。OMOP CDM包含了对象疾病队列数据框架,根据患者的组合特征组成不同的研究队列,使得大规模针对患者个体的预测模型成为现实。CDM标准化数据库网络使得在不同医疗场所中进行外部模型验证成为可能,为多源临床数据多队列大规模研究提供了基础。
我国医疗信息化建设正处于转型时期,主要标志是从“临床业务信息系统建设”到“数据驱动临床决策应用”的转变,临床数据分析再利用已成为新的增长点。
结合笔者所在医院多年来的实践,我们对基于多源异构临床数据的科研专病数据库的建设,提出如下建议:
1.构建本土化临床科研通用数据模型。OMOP CDM是真实世界数据临床研究的关键,根据国内电子病历系统的建设与应用情况,直接应用OMOP CDM存在不少问题。借鉴OMOP CDM经验,建立适合我国医疗机构临床科研的通用数据模型,对促进国内临床科研真实世界数据的利用分析有重要意义。
2.加强临床电子病历数据标准化工作。临床过程中产生的患者诊断、治疗、随访等数据是科研对象的主要数据源。要获取高质量的临床科研数据,就对临床数据的结构化提出了更高要求,对于非结构化数据需要进行相关处理,使其成为便于利用的形式。医院电子病历应用需要提升结构化数据采集能力,从数据源头保障临床数据的内容准确与正确程度。
3.加强数据转换工具研究。特别是基于中文医学信息标准化的相关工具研究,建立我国电子病历标准化术语体系,以实现临床数据到研究真实世界数据的能力提升。
4.建立临床科研和信息部门广泛参与的数据联盟组织。临床数据的价值发挥,需要临床医生参与,医疗机构建立合作联盟、开展临床专病研究与协作是未来的发展趋势。目前医院临床信息系统存储了来自真实世界、基于大量且不同人群、用于各种原患疾病治疗、使用各种诊疗技术组合、各种检查设备应用、各种结局结果、特别是发生了安全性风险的各种数据,要实现多机构、多来源医疗数据的综合利用,医院临床科研信息化建设尚处于探索阶段,将数据模型方法工具运用到医疗大数据的整合中还存在不少问题,需要各方共同努力。
将国际上现有模型与我国数据整合的实际情况相结合,努力学习国际先进技术工具,建立和发展符合国际化发展方向和趋势的技术支撑体系;充分利用医疗卫生数据资源,研究开发科学适用的技术工具,是新环境下临床科研信息化建设的重要任务。
郑西川,上海交通大学附属第六人民医院计算机中心教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息专业委员会(CHIMA)委员,中国医药信息学会(CMIA)委员,上海市医院协会信息管理专业委员会委员,中国医药信息学会上海分会常委,中国生物医药技术协会医药信息分会常委,《医疗卫生装备》杂志特约审稿专家。
研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。
吴恒专栏 | 年度回顾展望:踌躇前行、心向远方(下)
两会观察 | “十四五”蓝图中的医疗健康信息化高质量发展新机遇
HIT视频课堂 | 瑞金医院赵艳:医院如何主导信息化建设?
3月18日直播预告 | 医院网络安全实战化防护研讨会即将来袭!
商务合作:(010)82373062