衡反修:医院数据利用合作与选型之道
医疗和临床科研大数据专业委员会主任委员、北京大学肿瘤医院信息部主任衡反修
北京大学肿瘤医院(以下简称:北大肿瘤医院)的信息化建设始于2000年,而该院基于信息系统开展数据的分析利用工作起步于2004年。12年过去,北大肿瘤医院信息化建设与应用持续深入的同时,在数据利用方面的摸索也从未停歇。2016年,北大肿瘤医院通过引入大数据技术方案,彻底解决了历史数据高速查询的性能问题,在临床科研查询的准确率和覆盖率上也达到了新的水平。
在2017年3月18日由中国研究型医院学会医疗信息化分会医疗和临床科研大数据专业委员会主办、HIT专家网承办的“医疗大数据应用与实践研讨会”上,医疗和临床科研大数据专委会主任委员、北京大学肿瘤医院信息部主任衡反修回忆起,2012年他就应邀在首届南湖HIT论坛上分享北大肿瘤医院数据利用的经验,如今5年过去,衡主任依然用了5年前的PPT文档模板以示“纪念”。所不同的是,这次分享的内容已经不可同日而语,不仅回溯了该院数据分析利用方面的建设历程,而且归纳出当下最为CIO所关注的“医院数据利用合作与选型之道”。
当前医院数据利用的实际问题和需求
健康医疗大数据持续为公认的HIT热点,被业内人士形象地称为健康医疗产业的下一座“金矿”。那么医疗大数据的价值和需求到底在哪里?衡反修结合北大肿瘤医院在数据处理和临床应用等方面遇到的问题,梳理出了现阶段医院数据利用存在的实际问题和需求。
“目前我院大、小系统共有208个,而这些系统由各个供应商承建,分别存在于不同的数据库、不同的地点和不同的服务器中。”衡反修表示,众多的系统导致了医院数据积累的三个现状:一是数据量大,如PACS系统产生的医学影像数据达300TB;二是数据历史久,如该院最早的随访系统可追溯到建院初期;三是存储分散,大量的医学数据分散在数百个信息系统中。
同时,在院内各科室以及诸多业务流程上,反映出了对数据利用的五点需求:
一是医院管理上的需求,包括精细化管理、医疗改革等需求,要实时掌握并分析相关数据,为医院运营管理提供决策支持;
二是科研方面的需求,包括临床数据的录入、整理以及快速查询等,主要体现在如何提高科研效率和质量;
三是在临床上的需求,从临床医生角度看,他们希望获得患者从门诊开始到住院结束的全方位诊疗信息;
四是教学方面的需求,可以为学生提供临床学习的病例分析;
五是信息系统建设方面的需求,通过搭建数据应用平台来提高为医院各方面服务的效率和质量。
但与需求对应的是目前实际存在的问题。衡反修表示,首先是标准化问题,在不同的建设时期内没有统一的设计标准,甚至最基础的科室、人员、物品字典都没有。其次是异构系统的问题,所有数据存在不同的数据库中,技术文档也存在缺失情况,加上长期以来的“快餐式”数据利用,导致没有继承性和连续性……“这些实际问题和需求像滚雪球一样越滚越大。”衡反修形容道。
北大肿瘤医院数据应用系统的四个建设阶段
技术与需求是推动医院信息化建设的“两架”马车,这同样也适用于医院数据应用系统的建设。衡反修表示,北大肿瘤医院根据每个时期和阶段的不同需求和相关技术的不断进步,从2004年至今,该院的数据应用系统的建设经历了四个阶段。
第一阶段是2004-2008年的“学习探索”阶段。从利用HIS数据的相关课题研究入手,以“购买产品+自主研究”的模式进行数据挖掘,完成了患者就诊行为分析、单病种分析等课题。在这个过程中,北大肿瘤医院认识到了数据仓库的新技术以及数据价值、数据规范的重要性。“当时我们还有一个思考,即如何在科研数据中实现从门诊次、住院次等传统时间轴模式转化为具有肿瘤疾病特色的以患者全生命周期为视角的治疗次时间轴模式上。”衡反修说,“当时还考虑了如何实现将单机版应用扩展到全院网络化的新需求。”
第二阶段是2008-2012年的搭建“全院BI平台”阶段。从完成院长综合查询系统的任务出发,选择了以“三年产品免费+双方合作开发”的模式与厂商进行合作,接入了HIS、病案、医保等数据,完成了包括院长查询、医保分析、核算、运营管理等在内的目标。“我们将‘黑匣子’变成了‘白匣子’,实现了数据分析功能。更重要的是,在数据清洗的过程中对生产系统进行了提升数据质量的改造。”衡反修表示,尽管如此,但BI也存在一定软肋,不能把握系统稳定性以及数据的准确性、实时性,在对数据分析结果难以预测的同时,如何处理非结构化数据以及接入更多的临床数据广泛应用等也都是待解的难题。
第三阶段是2012-2016年建设“临床数据中心 (CDR)”阶段。衡反修认为,医院数据利用是刚需,临床数据中心晚建不如早建。面向更多临床业务需求,北大肿瘤医院加大了投入力度,与国际化公司合作,采用了市场成熟的产品。在平台建设方面,先后实现了多院区数据的互联共享、EMPI患者主索引、病历后结构化处理以及科研辅助等目标。在前端应用上,则完成了包括临床统一视图、微信数据罗盘、医疗质量监控、单病种科研库等多个应用的开发。而与此同时,系统的稳定性、数据的查询速度、基于SQL的后结构化处理,以及如何快速实现科研评估,则成为了接下来需要解决的难题。
第四阶段是2016年开始至今完成的“大数据技术平台”阶段。主要是以解决科研数据的科研评估查询为目标,与具有互联网背景的新兴大数据公司合作,采用“免费提供软硬件、远程实施、数据脱敏”的合作方式。从2016年10月启动到12月底产品内部上线,仅用了两个多月的时间就将全量历史数据导入了平台,数据检索反馈时间也仅为1-2秒,同时还支持复杂条件的查询和导出数据的定义,以及进行简单的数据分析,由此也彻底解决了历史数据高速查询的性能问题。
“虽然目前我院的科研数据查询平台达到了3200多个数据项,但还是远远不能满足临床的需求。”衡反修表示,现阶段面临新的挑战是如何持续改进NLP(自然语言处理)的后结构化处理和机器学习进展的测量,以及怎样解决增量数据机制和实时数据等问题。
与新兴大数据公司合作的三点感悟
有别于传统的HIT厂商,新兴的医疗大数据公司是在新技术下应运而生。新的合作模式和特点也产生出了新的问题,对此,衡反修也给出了自己的三点感悟:
一是合作免费的问题。“前期免费的合作方式可以尝试,但是否免费不是决定因素。是否免费不是问题所在,解决问题才是真正的需要。”衡反修认为,虽然免费可以降低医院在初期的投入门槛,但是从长期角度看,收费是可以接受的,医院要对合作的大数据公司的后期收费做到有预期、有控制,最终实现双赢。
二是数据的安全问题。“安全问题是最大的挑战,当时我们与大数据公司合作的合同在内部就审计了近两个月。”衡反修坦言。他表示,需要特别应对的是,在合作公司的工程师不驻场进院的情况下,无法进行人员的统一管理,通过VPN等形式的远程处理方式也不能进行有效的监控,还有关键的数据脱敏工作由谁来操作、在哪个环节操作、数据脱敏的时点和范围以及访问控制等。所有这些可能的问题,都要有实际的切实可行的技术和管理措施应对。
三是能否使用公有云。尽管对于公有云选择,业界依然有不同的看法。在保证一定安全和可控的前提条件下,公有云还是可选项。站在数据安全角度,首先是能保证数据不出医院,包含个人隐私的患者数据不能放至云端;而诸如医学影像这类个人信息少且不连贯、量大、能解决容灾备份问题的数据,可以存储在云端使用。其次是能保证在技术上可操作,在业务上可控。此外,在国家相关规定下,建议与国产背景的公司合作,不要踩政策红线。
对医院数据利用合作与选型的建议
最后,衡反修谈到对大数据公司的选型时,为医院提供了三点建议:
首先是关于厂商和技术的选择问题。“不管白猫黑猫,抓得住耗子就是好猫,能解决问题的技术才是需要的技术。”衡反修认为,医学本身的知识深度和专业性很强,很多大数据公司虽然能提供技术和工具,但是从医院角度更多想要的是解决方案。
其次是关于协议和项目管理的问题。衡反修认为,所有承诺必须落在协议中,并在后续工作中监督其实施,同时要做到以我为主,将安全和业务控制等内容掌握在信息部门,而不能让公司“牵着鼻子”走。此外,还要保持和厂商的良好沟通,避免“店大欺客、客大欺店”的情况发生,及早发现解决问题,从而形成多个合作公司的良好竞争,医院可以“渔翁得利”。
三是关于产品之间的功能重叠问题。“大数据公司的最大特点,都是在利用数据而不是生产数据。很多时候这些公司在数据利用和产品功能上是有重叠的,要充分了解其各自的技术优势,不要指望一个项目和产品就解决所有问题。”衡反修表示,可以将决定权交给业务科室的使用者,信息部门可以推动各个项目内容重叠建设,最后形成多产品互补局面。
同时,对于大数据公司在与医院合作过程中需要注意的问题,衡反修也给出了自己的四点建议:
第一是医学专业性的问题。解决医疗问题要有专业的医疗知识积累,大数据公司要与医院多接触,要与临床和信息等科室多交流。最重要的是能追根溯源,认真听取和分析出甲方所提需求的根源,要有针对性的解决思路。
第二是数据和技术的安全问题。“一定要有可操作、可控、可落地的数据安全和技术方案,且控制端的这把“钥匙”需要交给医院,而不是公司自己掌握。”衡反修表示,数据安全必须要由医院信息部门来掌控,大数据公司需要做到如何让甲方放心。
第三是把握好院级项目的切入点。“医院信息化项目的归口管理一定是在信息部门的,而不是业务科室。”衡反修表示,任何一个信息化项目都离不开信息部门的参与,很多项目的失败的原因在于大数据公司没有与信息部门保持良好的沟通和协调。
第四是适时适度探索免费合作模式,要给甲、乙双方更多的机会合作发展。
【责任编辑:谭啸】