MIMIC数据集、代码库及相关工具应用为未来的临床科研数据采集、代码复用及研究过程重复迭代提供了保障。
善用信息工具,保障医学真实世界研究的重复性 | 郑西川专栏
在临床研究中,研究结果的重复性是必不可少的,只有可以被重复验证的研究结果才是真实存在的规律。医学临床研究环境复杂,难以保证每个临床研究的结果一定揭示了真实规律,如果将有偏差的临床研究结果应用到临床实践中,则可能造成严重的临床后果。
传统的临床科研方法,如双盲随机临床对照的试验结果重复成本巨大,临床科研的可重复性已成为日益突出的问题,某些学者甚至称之为“临床科研危机”。与此同时,医疗健康正在经历一场数字革命,医院临床电子病历应用已经普及,大数据机器学习以及人工智能等应用日益深入,医学真实世界数据利用为克服临床实践中缺乏证据的难题提供了契机,临床科研正在从传统研究方法转向真实世界研究。
信息技术的普及为真实世界临床科研结果的重复性提供了基础保障。重症监护医疗数据集MIMIC就是具体实例。该数据集免费提供给世界各地的研究人员,被广泛应用于专科疾病预测等科学研究和研究机构教育课程。基于常规临床诊疗过程中的原始数据,MIMIC数据集将数据转换为临床科研可用形式,进行了大量标准化预处理工作,为真实世界数据临床专病数据库建设提供了范例。
本文讨论用于保障临床研究重复性的信息工具及其应用。我们认为,先进的信息工具与开放数据、开源代码同样重要。信息工具的应用,能够加速研究人员对数据集的理解,提升临床数据二次分析质量,并促进临床研究的一致性和有效性。
工具之一:Jupyter Notebooks
Jupyter Notebook 是一个基于Web的交互式计算可执行文档环境,允许用户创建和共享各种内容,包括实时代码、方程式、可视化和叙述文本文档等。其用途包括:数据清理和转换、数值模拟、统计建模、数据可视化与机器学习等。
临床研究中,当专科数据和前人研究代码都可以免费获得时,就为研究人员提供了一个能够完全复制别人研究的环境。使用Jupyter Notebook工具,能够将文档和代码无缝地结合起来创建可执行文档。MIMIC代码库提供了Jupyter Notebook可执行文档示例,图1显示了利用Jupyter Note提取患者信息的应用示例。Jupyter Notebook不受语言限制,支持用Python、R、MATLAB、SAS和其他语言编写的源程序代码。
图1 运用Jupyter Notebook提取患者ICU病房住院天数
Jupyter Notebook可执行文件有助于数据分析师和领域专家之间的协作沟通。使用Jupyter Notebook有三个目的:(1)允许以有组织且易于阅读的文档方式(MarkDown,MD格式)描述代码背后的逻辑;(2)有助于快速编写代码,特别是在需要协作讨论期间的代码;(3)提供了一种共享已发布临床科研项目的机制与手段。
Jupyter Notebook的可执行文档也是一个非常合适的科研辅导平台,其交互性有助于实验数据处理过程透明,促进了项目参与者的协作学习。例如,将临床参数(如肾脏内科血液过滤)转换为所需的临床参数概念(如血液净化治疗CRRT的长度)时,使用Jupyter Notebook可执行文档,可以概述收集MIMIC数据预处理过程,评估数据库中符合CRRT定义的数据;除了解释CRRT,还可作为在MIMIC数据库和其他类似ICU EHR中定义概念的模板,为临床医生基于真实世界的科研提供了很好的示范。
工具之二:Github开源网络社区
GitHub是一个面向开源及私有软件项目的托管平台,每天都有成千上万的项目在上面诞生。作为全球最大的代码托管平台,它为开源社区做出了不可磨灭的贡献。
MIMIC代码库除具有源代码分发和增强结果再现性等特点外,还建立了MIMIC数据用户和数据开发者之间的交流渠道。通过Github MIMIC代码社区(https://github.com/MIT-LCP/mimic-code/discussions,图2所示),研究人员可以了解源数据的基础细节,实验室和临床工作人员能为下游数据提供上下文分析,有助于临床研究人员对数据的理解把握。研究人员可以发布问题,询问所关心领域的数据收集和分析数据的最佳实践,同时也可以提供见解和建议。通过Github社区的这些做法,促进了真实世界数据有意义的使用,并且社区内的所有讨论公开可用,鼓励研究人员逐步改进建立代码库,开放源代码,从而提升重症医学的临床研究质量。
图2 MIMIC开源社区
总结与思考
正如开放数据、临床科研透明化能够帮助临床医疗质量改进和管理水平提升一样,为了实现临床科研的过程透明,研究者需要提供临床科研数据以及实现科研结果过程的程序代码。MIMIC数据集面向所有重症医学研究者,免费提供真实世界源数据;同时,MIMIC代码仓库提供了一个完整的重症医学真实世界数据驱动临床科研的框架,通过先进的信息技术工具,保证了临床科研结果的可重复性。MIMIC数据集、代码库及相关工具应用为未来的临床科研数据采集、代码复用及研究过程重复迭代提供了保障,对于新功能开发以及建立新模型提供了可复制的案例,这在目前医院数字化转型背景下显然具有特别重要的意义。
不过,这种方法也有一些局限性。首先,临床科研人员需要熟悉技术工具,如GIT和SQL,这就要求临床人员与信息技术人员加强协作;其次,SQL代码依赖于具体的数据库系统,需要对不同具体数据库系统进行调整,研究人员需要具备数据库的基础知识;第三,MIMIC代码仓库是为MIMIC数据库量身定制的,尽管大部分代码广泛适用于重症监护发展的数据模型,但对于现实世界具体医疗机构的数据而言,仍需要进行改进;最后,随着时间的推移和数据模型变化,代码仓库需要不断发展以适应新的发展。
研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。
陈金雄:从“工具支撑”到“战略引领”,医院信息化需要思维转型 | 2022年南湖HIT论坛
中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》
专病库的建设与管理,有哪些好的思路?| HIT培训问答
薛万国:医院信息化迈向DT时代 | 2022年南湖HIT论坛
寻求“商务合作”,长按二维码可快速与我们取得联系
投稿:gong_chen@HIT180.com
商务合作:(010)82373062
本公众号原创文章,版权归HIT专家网和原作者所有。
未经许可,谢绝转载或以其他形式使用文章内容进行传播。