查看原文
其他

联仁大咖说|看过才知道!真实世界数据究竟有多复杂?

LIANREN 联仁健康 2024-01-09

什么是真实世界数据(RWD)


真实世界数据(Real World Data,RWD)是指从传统临床试验以外其它来源获取的健康医疗数据。这些来源包括:大规模简单临床试验、实际医疗中的临床试验、前瞻型观察性研究或注册型研究、回顾性数据库分析、病例报告、健康管理报告、电子健康档案(EHR)等。这些数据是真实世界研究的基石,做好真实世界数据的治理是真实世界研究的重要一环。但是使用这些数据,往往面临诸多困难和挑战,就让我们来了解一下,真实世界数据究竟有多复杂,在使用过程中会遇到哪些问题。


真实世界数据来源杂


真实世界数据往往是从各医院的系统中采集而来,不同的医院,对数据的重视程度不同,并且对每个字段的填写要求不同,会导致最后汇聚起来的数据在同一字段的数据标准不同。举个简单的例子,如【用药剂量】字段,同一种药品有些以mg为单位,有些则以μg(亦可能错写为ug)为单位。若不进行加工统一,计算时将会出现错误,导致分析中产生谬误。


真实世界数据体量大


真实世界数据的数据包括了非常多的内容,就医院数据而言,记录了患者从入院后每一个环节的数据,包括基本信息、住院记录、门诊记录、各项检查数据。仅电子病历(EMR)就包含了近千个字段,每个患者的每次就诊都会产生大量记录。这类体量的数据,其应用已经无法使用传统方法和数据处理工具。


难以处理的长文本字段


在真实世界数据中,有些字段存储着长段的自由文本,有时高达数千字。以现病史、影像报告为例,会包含大量的对于疾病和影像的描述,包括现病历次就诊检查情况,影像所见形状、性质、大小。但这些特征信息被埋藏在自由文本中,如果我们需要从中找到分析研究所需要的信息,这就必须对这些文本进行一些处理,以达到批量生产研究变量的目标。例如智能后结构化,就是处理长文本内容的有效工具。


总结:


数据来源杂,初始数据质量不齐,需要治理、标化;

数据体量大,导致无法用纯人工处理数据;

长文本字段,导致无法简单通过正则匹配的方式进行标化。


因此,RWD在服务于最终的研究目的前,往往需要大量处理和转换工作,这些工作常常占据了研究者50%以上的研究耗时。例如真实世界研究中的关键信息抽取与变量生产,如果使用人工方式,需要耗费大量精力阅读病历等记录,而使用人工智能工具时则可以调用自动化手段,例如正则表达式、智能映射、自然语言处理(NLP)等技术,将疾病特征信息从形态多变的各类结构化和半结构化信息提取出来,再配合医学人员的专业审核,才能使RWD达到研究型数据集(Study dataset)的质量和完整度。

免责声明:本文仅用于解释数据分析的基本技术。这并不意味着为分析结果提供任何医疗建议。


供稿:医药事业部

  • 联仁大咖说|真实世界数据(RWD)驱动的医药研发思维转变

  • 众志成城,同心抗疫|联仁健康党委号召党员先行,抗疫有我③

  • “青”力而为|联仁有我 联仁健康召开五四青年节座谈会

  • 给全体青年员工的一封信

  • 【建团百年】共青团从这里走来

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存