查看原文
其他

联仁大咖说|利用“化学反应”模式构建科研数据治理体系

LIANREN 联仁健康 2024-01-09

摘要



  • 传统医学数据治理技术,做到了数据汇集和连接,但已不能满足临床对真实世界研究应用的需求。
  • 没有打破临床信息系统数据结构,只改变了数据的物理存储位置,是面临诸多挑战的根本原因。
  • 我们提出用“化学反应”的思路实现数据重组,以产生可服务临床的真实世界证据为治理目标。
  • 建立阳光数据工厂,通过医工技术结合,结合医学知识重组临床数据,进行特征提取和展示。

前言



随着医疗数字化转型过程,越来越多的医疗数据被收集,数据治理技术可为医院提供更好的数据,利用数据科学和信息学方法,揭示大数据的价值。当前,国内外对于通用数据治理的理论研究和治理实践已有一定的成效,但针对医疗数据治理的研究尚处于起步阶段,原因在于医疗数据治理需要考虑医疗行业的独特需求。因此在数据治理过程中要理解临床研究需要解决的问题,需要长时间反复和临床研究者沟通以便充分理解研究过程,从医学临床问题出发定义规则处理临床数据进而解决问题。

本文旨在医疗信息互联互通的背景下,对目前医疗数据治理存在的问题进行分析,并对下一代医疗数据治理技术提出展望。

一、传统数据治理的1.0时代



1. 数据治理1.0:初步实现数据集成与连接

经典的数据治理1.0初步奠定了真实世界数据应用的技术基础。经过数据汇聚,把分散在HIS、LIS、PACS、EMR等不同医疗健康系统中的真实世界数据,整合到一个数据池中,重复信息被筛选剔除,相同类型的数据被规范统一,如时间格式、单位转化等,从而方便研究中对数据进行比较和分类。正如图1中水被处理的过程一样,医疗数据的治理需要经过有计划的反复提取清洁提纯等环节之后,被广泛运用于临床活动及研究中。

图1 传统数据治理1.0时代的技术方法论

2. 传统数据治理方法的不足

现代循证医学研究理论中,对于大数据应用管理有两个必要要求:1)可根据复杂需求灵活查找数据;2)导出的数据可直接用于统计分析。尽管过去几十年来,医疗健康大数据管理的成果斐然,不断有新技术、新标准和新组织推动真实世界数据的建设。然而我们仍然感觉到,完全支持可查找、可分析的数据资源仍然很少。显然,现有的数据治理并没有满足我们做研究的数据需求。可分析数据的不足、数据访问的障碍和获取信息的缓慢阻碍了科研人员的研究进度。具体来看,问题体现在以下几点:

  • 找不到想要的患者
随着医学研究领域的不断深耕,研究目的不断细化,对入组患者的定位要求逐渐提高。例如,外科手术后出现术后并发症的II期肿瘤患者,在数据中往往很难定位,但这种需求在临床研究中却并不少见。
  • 导不出想要的指标
科研数据集成为研究者提供了患者的整体视角,患者唯一ID连接来自不同临床科室的数据,随时间收集的临床数据描绘了患者全生命周期临床事件的轨迹,在此基础上进行的纵向分析,如疾病进展、不良事件跟踪、疗效评价等,进而以CRF表单的形式导出,成为真实世界研究中的重要部分。然而,不能准确定位到感兴趣的事件,找不到时间窗内的数据,时序数据完整度不足等问题再次阻碍了科研的进展,而且因为导出的数据不尽人意,往往还要进行大量的人工数据补录核查。
  • 导出的数据不能统计分析
如何将真实世界数据转化为真实世界证据,是打通真实世界研究最后一公里的关键。但统计软件对数据质量要求较高,临床研究数据中常见的问题主要有五方面:数据填充缺失、数据分布异常、数据逻辑冲突、数据维数过多、数据标准化程度低。这些问题不仅会降低研究的可靠性,还会给分析结果带来偏倚。然而由于缺乏数据质控和溯源机制,这些数据问题一直得不到有效的梳理和解决,成为数据治理过程中的一道顽疾。

3. 问题分析与改进方式

造成问题的原因我们分析主要包括下面三个方面:

  • 数据的用户是谁:现存技术主要面向临床诊疗和医院管理而不是面向临床研究,用户使用数据目的不同造成了需求错位。
  • 数据模型如何定义:目前的数据模型有着很深的信息系统烙印,数据组织形式不足以支持面向患者全生命周期构建队列,遴选指标等业务。

  • 数据将如何被应用:只解决了“计数的统计”问题,没解决“计算的分析”问题,数据治理分析方法跟不上数据日益复杂的发展趋势。

究其根本,当前的第一代数据治理体系只对数据进行了“物理加工”,数据没有产生质变,若要成功催化医疗数据的“化学反应”,使得数据发生质变,第一代数据治理技术体系急需一次进化。

二、现代数据治理的2.0时代



1. 数据治理中的“化学反应”

实际工作中,医生需要的是患者全生命周期数据,例如真实世界研究中,对真实世界数据的收集、标准化清洗和深度数据处理与解读等,在药物研发和疾病诊疗过程中的占据了很重要的比例。

从临床信息系统的数据库中,我们会发现存在大量的多源异构数据:

  • 大量的主观文本数据,如手术记录,病程记录等大量自然语言文本。

  • 异构的数据源,同一病人的诊疗数据由不同设备采集,存储在多个不同数据库系统中,其间经常存在冗余和冲突。

  • 更高维的指标,大量检验数据,以及综合基因组、代谢组和影像组学的多组学数据。

这些情况造成海量数据并没有在临床场景中发挥更大的作用,反而在系统中产生信息冲突和错误。同时,由于医疗行业的特殊性,对信息错误的容忍度很低,因为错误的信息会导致不良的医疗保健结果,甚至在最坏的情况下会导致死亡。因此就需要对临床数据进行深度治理,就如光合作用一样,让多源异构数据通过数据治理产生化学反应,如下图所示:

图2 将临床数据治理工作类比为光合作用通过数据治理后得到的真实世界数据,几乎覆盖了患者全生命周期的多源异构信息,与传统的360视图报告相比,能够更全面且精准地体现症状和追踪疾病趋势,具有更好的时效性,将更有效地协助医生了解患者病情发展和疾病预后转归情况。

2. 阳光数据工厂——“化学反应”的制造工厂

正如树叶是光合作用的发生的绿色工厂,数据治理过程也需要一个阳光数据工厂来支持化学反应的进行。在阳光数据工厂中,集成了必要的技术和组织,保障了真实世界数据治理过程中的三个基本任务能够高效、安全、高质量的完成:

(1)将原始数据拆解为基本组成部分(即“分解”过程);

(2)按数据模型对数据进行重新组装(即“重组”过程);

(3)基于医学知识对数据进行标准化(即“归一”过程)。

如果将科研数据治理过程比作一种化学反应,用大数据和人工智能技术,打破多源异构数据融合的那堵墙,助力真实世界“数据”变“证据”的顺利转化,如下图所示:

图3 将科研数据治理类比为氢氧化合生成水

3. 数据治理2.0的实现方法

数据治理工厂首先要支持建设真实世界数据标准,从底层建立规范,坚实基础。然后运用多重技术手段,支持院内外多中心、随访及移动端多源数据的融合与标准化处理,从而保证数据质量。

完善的技术支持和健全的数据治理组织结构,是全面开展数据治理工作的基础。数据治理2.0的能否落地实现,主要依赖以下三点:

  • 通过打破原有信息系统数据结构,实现患者维度的数据重组,是数据治理的“化学反应”发生的前提条件。

  • 构建治理真实世界数据的阳光数据工厂,为“化学反应”提供适当的孵化环境。

图4 通过阳光数据工厂实现真实世界数据治理

  • 通过大数据技术,打通数据产生与应用的屏壁,实现数据在临床和科研两个场景之间的良性循环。


图5 实现数据在临床和科研两个场景之间的良性循环

三、小结



结合实际应用效果,我们发现,数据治理2.0的优势主要来源于3个方面:
  • 数据用户:面向临床、医院管理、药企及政府等医疗生态端角色,提供更好的数据服务。

  • 据模型:打散信息系统,按病人维度重组,让数据找得到,看得懂,可分析。

  • 数据应用:覆盖多源异构数据,锚定临床诊疗事件,做到搜索可视化,展示动态化,分析自动化。

图6 数据治理2.0的效果和产出

经过30多年医疗信息化建设,医疗机构的数据量及数据复杂性连年攀升,医疗行业的关注焦点已经从信息系统建设延伸到了数据资源管理和利用。

而要实现数据资源的有效利用,数据治理是关键环节。只有在数据治理领域奋发创新,让数据应用有效支撑医院发展,才能进一步提高医院管理水平,实现数据对医疗业务发展的价值赋能,持续推动我国医院的高质量发展。

供稿:医疗科技事业部


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存