从医院信息管理到临床数据服务,必须做好思路转变、知识转变、技术转变以及环境转变。
【南湖HIT论坛】西南医院汪鹏:临床数据利用能力建设实战感悟(附视频)
“走出第一步,就不想再回到过去,在医学大数据与人工智能领域有更多的挑战和期待。”在HIT专家网主办的2019年南湖HIT论坛上,陆军军医大学第一附属医院(以下简称:西南医院)医学大数据与人工智能中心主任汪鹏如是说,他此前曾负责9年的信息科工作。对于角色转变,汪鹏深有体会,他发表了题为《临床数据服务实战与感悟》的主题演讲。
据汪鹏介绍,该院医学大数据与人工智能中心主要有三方面工作:一是临床数据服务,满足临床医生大量的科研需求;二是创新应用的落地,按照项目的方式在医院实现;三是承担军队相关卫生数据平台建设和开发的工作。
临床数据利用的驱动力
“临床医生如果只关注临床,那他只能成为名医;只有具有科研思维的名医,才能成为医学家。目前,越来越多的医生关注临床科研,这也为他们职称晋升和科研学术产出提供支撑。”据汪鹏介绍,从2019年国家自然基金项目的名称中可以看出几个高频词:大数据、预测模型、机器学习。这些项目大都是临床医生主导的,可以看出,他们对数据有很大的需求,同时这些项目也需要IT人员的支持。
“未来医生的进阶需求是正从传统诊疗模式向数据化、智能化方向发展,这需要大量临床数据挖掘的支持。”汪鹏说。临床科研对数据的需求有三个特点:一是操作简单;二是数据全面,不仅包括HIS、电子病历,还包括一些不太受关注系统的数据,如:化疗放疗等;三是能准确高效地获取数据。
从学科发展来讲,需要真实世界的大数据。一是大样本量、有结局研究,数据全部纳入与跟踪是关键;二是长时程观察研究,需要长期有效的观察和随访,形成科研数据的闭环;三是建立多标准、立体的评价体系,逐步形成标准;四是多数据源整合,有助于精准判断预后,过去单维度数据挖掘的方法已经过时了。
汪鹏认为,临床数据挖掘和利用已经成为临床医学学科发展的重要驱动力和核心竞争力。应用大数据与AI技术进行临床医学研究时,能够自动化地采集信息、高效地分析数据,并对医疗行为进行定量评估。这些优势就奠定了其在未来临床医学中的重要位置。临床大数据的AI能力无外乎几个方面:疾病风险预测、辅助诊疗过程、辅助检查与诊断设备、慢病健康管理和临床科学研究。
建设数据平台,提升数据分析能力
临床科研数据来源多样,可分为三大类:一是基础数据,通常包括:HIS、电子病历、影像、检查检验、监护、放化疗、康复、生物样本等;二是特有数据,比如科研随访数据、基因组学数据、专病数据库、其它二次分析数据;三是外部数据,包括中外文文献、临床指南、医学知识库。目前我们能够利用的数据占整体数据的比例还不足10%,还有大量数据没有进行挖掘,这都是下一步做临床数据挖掘的任务。
临床数据类型复杂,如:结构化数据、自由文本文档数据、DICOM影像数据、非标准影像数据、动态影像数据、PDF文档数据、专有格式数据等。
西南医院采用了相对易学易用的Hadoop架构搭建医院大数据基础服务平台。“什么样的平台并不重要,关键是数据要能被利用好,平台能完成数据收集、存储、数据清洗等工作,为上层应用提供准确的基础数据支撑。”汪鹏介绍说,“目前我们把HIS和电子病历的数据处理完了,正在处理手麻、急诊、放疗、移动护理等相关数据。”
据介绍,目前西南医院大数据平台存储了900多万份病人资料、4000多万份病历资料,结构化字段有6000多个,用来进行搜索、统计和查询。实现了多维度、细粒度、全景式医疗大数据搜索引擎,围绕EMPI做数据全景视图,在此基础上,把病历数据、病程记录的各种数据等进行结构化处理后,实现跨数据域、异构数据的快速搜索,实现全院临床资料秒级遍历搜索。
“目前我们还承担了一些相对传统的信息化项目建设,目的是补充临床科研数据目前存在的缺陷。”汪鹏介绍说,比如正在建设的临床科研随访,能够实现任务管理智能化,与整个临床数据进行完全无缝的集成、共享和利用。“基于现有临床数据,我们也做了一些开发性工作,如智能化临床辅助决策支持信息系统(全科版CDSS),临床医生可以快速搜索临床相关知识以及院内病历。”汪鹏说,还可以把数据推送给临床医生,推荐相关的诊断、用药、治疗方案等作为参考。这样就把过去的历史数据用活了。
“医院大数据中心的关键能力是数据分析支撑能力建设,这是我们主要的工作方向,也是我们目前相对欠缺的方面。”汪鹏谈道,“我们做了一些医疗大数据处理的基础性工作,是按照数据利用的链条实现的,如数据存储、数据采集、数据清洗、构建数据仓库、数据处理、数据挖掘等,并保证数据安全,这都是每天进行的常规工作。”据介绍,2019年1-10月份西南医院大数据平台的使用情况是,(1)在搜索服务方面,病例搜索PV:3398、高级搜索PV:3764、条件树搜索PV:1085;(2)在科研服务方面,科研首页PV:23856、纳排条件页PV:1784、导出预览页PV:283、导出数据PV:53。虽然使用量不是特别大,但已有越来越多的医生开始喜欢这样简单易用的数据搜索系统。
谈到“医学自然语言处理(NLP)”时,汪鹏认为,这是一项非常复杂的工作,它不仅有技术难度,还需要建立大量的知识规则,仅依靠自身力量很难做好,需要与公司合作,把数据通过自然语言处理的方法变成结构化数据。
此外,还有医学术语标准化处理、医疗文书结构化建模、数据统计分析、数据智能推荐等。关于“数据处理中的编程技术”,汪鹏举了两个实例:一是数据清洗,以往常采用人工查找的方式逐个对病人数据进行提取,效率低,耗费大量的人力、精力,而用编程方法能对数据进行自动提取,高效快捷;二是疾病预测,通过分析常规的检验数据来对疾病预测,能够有效发现病人的患癌风险,尽早介入观察。
近两年,西南医院大数据中心协助完成了多个国家、军队、省部级科研项目,汪鹏重点介绍了“基于人工智能的危重监护新型服务模式研究”项目,这是国家重点研发计划项目。以往,危重症患者不仅治疗费用高,而且容易产生后遗症。希望基于数据分析,利用遗传算法、进化算法、深度神经网络算法等,建立一些预测模型,预测患者发生危重症的几率。
该项目的主要步骤包括:首先进行数据采集,主要是从术中监护获取数据,还包括前期的电子病历、检查检验等数据,实现数据融合、分级脱敏、审计和开源。其次构建数据集。利用平台检索功能,实现危重症检索,完成危重症事件标注。三是基于算法对危重症数据进行相关性分析。四是构建预测模型,包括:心衰预测模型、脓毒症预测模型、重症死亡预测模型。五是构建知识图谱,依据医学指南、专家共识构建支持危重事件干预决策过程的医学流程图,把知识图谱嵌入到应用系统,监护系统可以实时发出预警。
实践感悟与下一步思考
“从信息管理到统计学,再到大数据分析,还有很长的路要走,我们还要不断学习。”汪鹏谈道,在数据处理过程中会碰到如下一些障碍。
1.与医生需求之间的障碍。在数据处理过程中,从实际数据出发可能与医生的意见相左。如在对胰腺癌数据的处理中对空值的处理,医生希望以病人该指标的平均值来填充,但该案例并不适合填充平均值,若填充平均值会导致最后的预测结果并不理想。医生的个性化需求也难以用统一方法处理。
2.数据缺失等质量因素影响巨大。医院数据看起来很多,但精度不够。患者的一些健康数据、生活数据不够精确、缺失严重是数据分析中所面临的主要障碍,影响机器学习的最终结果。同时,多维数据的分析能产生更大的作用,而单独维度的数据价值很低。
3.算法与模型的解释性。人工智能的预测,是算法依据数据特征自行提取其中的特点来进行的预测,我们并不能从中知道病人被预测成为癌症类或非癌症类的缘由,利用人工智能方法所做的疾病诊断、预测仍需要结合大量的医学场景来验证其准确性和可信度。
汪鹏认为,从信息管理到临床数据服务,必须做好四个转变:一是思路转变,数据思维、数据驱动、数据反馈(如何反馈给管理和业务流程);二是知识转变,学科交叉、基础知识链、科研创新意识,需要不断地积累知识,才能实现转变;三是技术转变,过去是三五个人开发系统,现在需要大量专业人员的协同配合才能让大数据产生智能。在技术层面,要熟悉大数据架构、数据处理的基本技术、算法设计、程序开发;四是环境转变,为临床提供服务,向医生学习临床经验、诊疗思路,与大数据、人工智能公司或科研院所合作。
展望未来,汪鹏提出了五个方面的思考:一是方向,坚定不移地围绕医学大数据开发和智能化应用进行职业生涯规划;二是知识,居安思危、迎难而上,坚持不懈地学习大数据和AI领域知识;三是交叉,多与医生交朋友,深入临床一线挖掘需求,碰撞思想火花;四是合作,广泛开展合作,向科研院所和优秀企业学习先进技术和经验;五是团队,打造专业化团队,让每个人都参与数据开发,这样才能打造未来的核心竞争力。
进入“阅读原文”观看视频回放:《汪鹏:临床数据服务实战与感悟》
HIT专家网∣致力推进中国卫生信息化
想加入HIT专家网专业交流群吗?
请添加“HIT专家网”小助手微信好友
(请务必注明姓名、单位名称、职务、主管技术或产品领域等实名信息)
微信订阅号:HIT180com
微信服务号:chinaHIT
投稿:tan_xiao@hit180.com
商务合作:(010)82373062