查看原文
其他

薛万国:医院大数据中心建设的六个常见问题

姜浩 龚晨 HIT专家网官微 2022-11-03

导读

理想的状态是:信息中心提供原始数据,大数据中心分析数据、建立模型,所得成果再通过医院信息系统赋能临床。

“每当探讨医院大数据中心建设这个话题时,有些问题经常会被人谈起。”解放军总医院大数据中心主任薛万国从中整理出六个常见问题,在2020年12月19日举办的医疗大数据应用与智慧医疗高峰论坛上分享了他的思考。

解放军总医院大数据中心主任 薛万国

问题一:医院已经建立了CDR,还需要再建设大数据中心吗?

在不同场景下,“医院数据中心”的含义也并不相同,通常有两类数据中心:
第一类是以业务支撑为主、面向电子病历的数据中心,也即CDR,其作用是支撑日常的医疗活动,进行医疗过程中的数据收集与呈现,同时兼顾常规报表统计等功能。从技术手段来看,CDR一般通过系统集成实现实时联通,在数据组织方面通常针对患者个体进行多方面的信息收集,具有实时性、长期性与稳定性。
第二类是以管理和科研利用为主的数据分析中心,也即大数据中心,其作用是面向临床研究、医院管理与智能产品开发,满足数据批量处理的挖掘与分析需求。从技术手段来看,大数据中心一般需引入ETL等方式,在数据组织方面以群体数据为中心,通常对实时性要求不高。
薛万国认为,在医院已经建有CDR的基础上,为开展大数据分析工作,仍需建立大数据分析中心。原因有三。首先,二者收集与使用的数据内容有异,在进行大数据分析时,除业务数据以外,还需患者的随访数据、基因数据等,这些数据是CDR里没有的。其次,二者工作模式不同,依托CDR进行的工作是日常的、规律性的、通过系统实现的,而大数据中心的统计挖掘工作是随机的、大批量的。第三,二者技术形态也不一样,通常在CDR里会采用关系数据库,采用实时的办法,但在进行大数据挖掘时,则需要分布式并行系统等非常规手段的支撑。

问题二:医院数据能否一次性治理到位?

数据治理通常有两种路径。第一种路径是将不同来源的异构数据进行整合,建立数据库;再对文本数据进行解析,将数据结构化;最后对于非标准术语进行归一处理,形成清洗后的数据,后续可以以其为基础进行数据分析。第二种路径是整合原始数据形成原始数据资源池,待研究问题产生以后,再针对特定问题选取相关数据进行结构化和归一化处理。
这两种路径究竟哪种更好呢?薛万国认为,首先,由于当前技术成熟度的限制,第一种路径很难实现一次到位。以结构化为例,对肿瘤病例进行分析时,经常需要提取患者的肿瘤分型与分期数据,这些数据涵盖在病理报告内。由于不同肿瘤病症的分期方法不同,因此在进行自然语言处理时,难以针对不同肿瘤病种实现通用化的一次性提取分析。其次,第一种数据治理路径存在信息损失问题。由于病历文本、报告在结构化过程中一定会遇到语义的信息丢失问题,因此结构化后的元素不能完整表达文本原意,同时标准化也可能会导致信息丢失。第三,第一种路径还存在历史数据的处理问题。以医院从ICD-9到ICD-10的过渡为例,现有技术无法将既往病例的ICD-9编码全部自动转换为ICD-10编码。想要解决这个问题,只能保留原始数据,按各自编码进行处理。
综合上述因素,薛万国表示,数据治理是贯穿数据分析整个过程的,没有办法一次性完成。他建议:在数据整合阶段,以数据结构转换为主,尽量保持数据的原始性,但为了便于数据检索,可以在整合完成后进行数据特征抽取;数据加工与深度治理,则放在面向特定目标和问题的研究阶段再进行处理。

问题三:专病数据库是不是数据研究的必由之路?

目前医院常见的专病数据库分为两种:一种是基础病例库,也即在建库时并未确定具体的研究问题,因此一般要求特征数越全越好,数据整理的工作量很大;一种是面向问题的病例库,也即针对特定科研课题的数据收集,对数据质量要求较高。
过往在建立专病数据库时,需要临床科室对所有病例数据进行人为加工,其优点是数据质量高、后期的数据处理量小,缺点是工作量巨大,需要建立长期的工作机制,临床科室往往很难把这件事坚持下来。这也是大部分专病数据库效果不佳的主要原因。
薛万国认为,当医院建有大数据中心和相应的服务能力以后,可以将病例原始数据整合在数据资源池内,临床科研人员针对具体的研究问题,利用大数据中心提供的服务进行数据加工、特征抽取和数据分析。这种方式的优点是前期的工作量小、难度低,适合缺乏长期专门团队的临床科室,缺点是数据质量不及专病数据库。这种方式的好处在回顾性科研课题中表现较为明显。

问题四:是否存在一体化的大数据平台?

大数据的利用通常分为四个阶段:数据整合、数据处理、数据建模分析及数据可视化,在每个阶段需要用到的工具都有所不同。在数据整合阶段,通常会用到ETL、SQL脚本等;在数据处理阶段,会用到Excel、SQL语句、结构化工具以及专病数据库等;在数据建模阶段,数据分析工程师可能会用到R语言、Python、SPSS及TensorFlow等;在数据可视化阶段,会用到各类商品化或开源的数据展现工具。
不同阶段所用工具五花八门,各有特点,也都有各自优秀的厂家和产品。因此,医院的大数据平台实质是一组工具集,不同用户的使用偏好也各不相同,没有必要将所有人都束缚在单一平台上。薛万国认为:“一体化的大数据平台很难适用,即便存在,效率也未必会高。”

问题五:在大数据中心建设过程中,是否一定要用到Hadoop?

医疗大数据往往是“大”和“小”并存的,“大”是指医院内的全量数据很大。但在研究具体临床问题时,所涉及的数据量又是很“小”的,往往是几万例、几千例,甚至是几百例病例。
薛万国认为,在处理医疗大数据时,混合技术更为适宜。传统技术,特别是关系数据库技术,其数据加工、管理、分析功能都非常成熟,生态环境也非常好,适用于大部分数据处理场景。而在追求检索速度时,则可能需要用到Hadoop或其他分布式并行处理技术。
“如果把所有的工作都放在Hadoop上来做,无异于自缚手脚。”薛万国认为,诞生于互联网环境下的Hadoop有其用武之地,但在医疗行业也面临很大的局限性:技术体系较为复杂,生态圈较小,常用工具的匹配性相对较差,不太适于数据录入和数据加工。所以,医院的大数据中心建设不一定要采用Hadoop。

问题六:医院是否需要在信息中心部门之外设立大数据中心部门?

大数据中心和信息中心的职能与特点不同:传统的信息中心通常以信息系统建设和运维为主要职能,而大数据中心的职能是提供数据服务,尤其是为临床医学研究提供服务,这些服务是个性化的,需要特定技能的团队来提供。同时,大数据中心和信息中心的关系又非常紧密,大数据中心的建设紧密地依赖于医院的信息化建设,所有的数据都来源于信息系统,二者密不可分。另外在数据质量方面,也需要通过信息化建设来不断地提升数据质量。
薛万国认为理想的状态是:信息中心提供原始数据,大数据中心分析数据、建立模型,所得成果再通过医院信息系统赋能临床。二者的紧密结合,可以在诸如VTE(Venous Thromboembolism,静脉血栓栓塞症)风险预测、医疗质量控制、临床辅助决策等方面发挥重要作用。
薛万国表示:“大数据中心和信息中心并非简单的分与合的问题,应该在医院内建立一个大信息体制,这个体制要体现出大数据中心是传统医院信息化内涵的扩展。至于大数据中心是否需要独立设置,这只是行政管理、分工管理上的形式问题。”
近期热文
HIT专家网∣致力推进中国卫生信息化长按二维码可申请加入HIT专家网专业交流群投稿:gong_chen@HIT180.com

商务合作:(010)82373062


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存