查看原文
其他

袁永福专栏 | 与熵搏斗:医院信息化的未来使命

袁永福 HIT专家网官微 2022-11-03

导读

病历文档数据是医疗大数据“数据贫矿”中的“富矿脉”,“局部熵减”很有必要。

目前,HIT行业的“新一代医院信息系统”潮流方兴未艾,云大物移智等新技术逐渐发展和落地,医疗大数据的建设与应用成为热门话题。过去,医院信息化的重点在于流程的电子化和原始数据的积累,现在正逐渐转移为对数据的加工利用,以挖掘其中蕴含的价值。医院信息化的未来之路正如卷轴一样徐徐展开,我们将会面临何种重大挑战?

医疗数据矩阵是高维的

目前医疗信息系统处理的大部分数据,其本质都是测量数据,也即描述什么人在什么时候、什么地方测量了什么指标,产生了什么数值。比如:2021年10月24日门诊,患者张三主诉“头剧烈疼痛三天”。这个数据描述的是:患者张三2021年10月24日在门诊部测量了“疼痛时长”指标,产生的数值是“3天”;测量了“疼痛部位”,产生的数值是“头部”;测量了“疼痛程度”指标,产生的数值是“剧烈”。
这些测量数据具有5个维度(时间、地点、人物、行为、结果),形成了一种5维的数据矩阵。医院应用场景复杂,存在大量异构数据,包括自然文本、非结构化数据、树状结构、图状结构等,有的数据可能具有更高的维度。
传统的医院信息系统都是基于关系型数据库,推崇IOE架构。而关系型数据库的数据矩阵只有1.5维:横向(字段)能缓慢扩展,属半维;纵向(记录行)能自由扩展,属一维。将海量的高维数据“硬塞”进1.5维的结构中,必然存在大量的信息丢失和信息冗余,短缺和浪费并存,很快就超出传统IOE的处理能力。这就出现了生产工具限制了生产力发展的现象,生产工具的升级换代是必然趋势。

熵增与熵减

我们可以借助物理学的“熵”概念来描述数据点的质量。熵的物理意义是体系混乱程度的度量,可认为是表现物理指标均匀分布的程度。科学家很早就证明:对于一个封闭系统,必然是持续熵增的。如果整个宇宙是封闭的,也是持续熵增的。例如泼水是让水分子均匀分布到一个空间中,是熵增,这很容易;而把外面的水分子一个个收回来,是熵减,很难实现,所以才说“覆水难收”。
进一步推广:对于一个可逆过程,如果某一个方向的发展很简单、很顺利,则是熵增;另外一个方向的发展很艰难,需要外界持续投入,则是熵减。比如禁锢思想、闭关锁国是熵增,解放思想、改革开放是熵减;长胖是熵增,减肥是熵减。
“天之道,损有余而补不足;人之道,损不足而益有余。”这句话说明大自然是熵增的,而人类社会是熵减的。“不患寡而患不均”却揭示作为个体的人有熵增的期望。政府应该维持“整体熵减”和“个体熵增”之间的动态平衡,所以才有“大锅饭”到“让一部分先富起来”再到“共同富裕”的政策变化。
无论现实物理世界还是虚拟数字世界,熵无处不在。对于虚拟数字世界,我们可以定义:数据矩阵的熵值=无用数据点的数量÷有用数据点的数量。数据矩阵的熵值越低,数据就越有序,越容易分析出客观规律,也就越有价值;数据矩阵的熵值越高,数据就越平庸,一滩死水,越难分析出客观规律,越没价值。可以将熵类比为“数据温度”:熵越高,数据温度越高,表示越浮躁并难于驾驭;熵越低,数据温度越低,表示越温顺并方便使用。
随着医院信息化系统的不断发展,不但产生了大量的新型数据,使得医疗数据矩阵快速膨胀,同时伴随着熵增。
比如,医院使用远程可穿戴设备测量居家休养的高血压患者的实时心率数据。由于人体在大部分时间的心率数据是正常的,也就是“平淡无奇”的数据,但仍然要存储到数据矩阵中。因此,在远程可穿戴设备的业务系统中,有用的实时心率数据点肯定比医院原来系统的要多,但无用的数据点则更多。
假设某医院原系统的数据矩阵中,有用的数据点为10万个,无用的数据点为10万个,数据矩阵的熵值为1。而新系统中有用的数据点有100万个,无用的数据点有1亿个,此时数据矩阵的熵值为100。医院信息化系统的发展过程是熵增的过程。这是整个宇宙都是熵增的规律在医院信息化领域中的具体表现,是不可避免的。
人们要做的工作,是利用各种软件工具进行“局部熵减”,分析原始数据矩阵,找出有用的数据点,然后获得其中蕴含的客观规律。比如使用SQL语句找出吸烟和肺癌相关的统计数据,试图找出吸烟和肺癌的因果规律。
随着数据矩阵的膨胀和熵增,有用数据点在矩阵中的分布越来越稀疏。虽然数据蕴藏的总价值在增加,但“富矿”变成“贫矿”,越来越难处理。当超过某个阈值,传统的软件工具的熵减能力急剧失效,此时有针对性的云计算和大数据等新技术就有了用武之地。
这些新技术抛弃了IOE模式,提供新型的算法和运算能力,能高效处理海量的高维数据,提供更为强大的数据熵减能力,帮助获得大量低熵的数据,从而创造更大的价值。

病历文档大数据需要“局部熵减”

在医疗数据中,各类病历文档数据占有重要位置,是医学大数据必须要处理的部分。可以说,高质量的病历文档数据是医疗大数据成功的必要非充分条件。
在现有条件下,病历文档数据还是依赖医护人员经过思考后手工填入的,数据量小,但质量相对高,有可能在巨大的数据贫矿中形成局部的富矿脉。因此,医疗大数据必须要特别照顾到病历文档数据。
但在现实中,病历文档数据质量还有不小的提升空间。主要表现为:
第一,自然文本转换为结构化文本。
在一些医院系统中,病历文档还是以自然语言文本的方式录入和存储。相对于结构化文本而言,自然语言文本是高熵的。
比如,自然语言文本为“主诉:头部剧烈疼痛三天”,对应的结构化文本为“{{数据编号:主诉}:{测量部位:头部}{测量程度:剧烈}{测量类型:疼痛}{测量时长:3天}}”。
从结构化文本转化为自然语言文本是熵增过程,很简单;从自然语言文本转化为结构化文本是熵减,很艰难,需要动用NLP等高级技术,由于各种原因,短期内无法达到广泛实用的程度。
为此,一些专家提出的“以结构化电子病历为核心的医疗机构信息化建设”的指导思想,就是为了解决这个问题,尽量减少自然语言文本这种高熵原始数据的录入,从源头上缓解这个问题。
在结构化电子病历的推广应用中,会产生大量的结构化病历模板。有人认为大量使用病历模板妨碍了医生个体的独立思考,不利于医生能力的提升。但从医院IT的角度看,结构化病历模板能降低病历文档数据的熵值,很划算。另外从提升整个医疗行业的同质化程度来说也是有利的。总体来说是利大于弊。
南京都昌的电子病历编辑器可以提供强大的全结构化电子病历文档编辑功能,已经在多家医院实际运行,时刻产生大量的低熵病历文档数据,支援医疗大数据的建设运行。
我国有几十万个医疗机构、数百万医生,个体之间对于结构化文本的接受程度差异很大,无法一刀切地做到全体使用结构化文本。为此,都昌编辑器提供灵活设置,同一个软件能实现从纯自然文本到全结构化的平滑过渡,帮助大量基层医疗机构进行平滑的技术升级,保护已有IT投资,减少实施阻力,帮助“以结构化电子病历为核心的医疗机构信息化建设”的指导思想真正落实到病历文档的字里行间。
第二,封闭文件格式转变为开放文件格式。
一些医院虽然在用户界面上采用结构化病历文档,但后台文件格式是加密的。应用系统私藏数据,少数公司以此来“卡”住医院的脖子。加密是熵增的,破解或做数据接口是熵减的。医院大数据系统为了获得病历文档数据,不得不做数据破解或者依赖厂家提供数据接口,平白无故地要多执行一次熵减操作,费时耗力,有时可能还实现不了。
因此笔者建议,医院今后采购系统要坚持采用开放透明的病历文件格式,遇到封闭病历文件格式应该红牌罚下,因为封闭格式可能会堵死未来医疗大数据的发展之路。
笔者曾在《数据崛起:新一代HIT系统的基础》一文中专门讨论数据的开放透明问题。都昌编辑器从一开始就支持开放透明的文件格式,病历文档的所有信息都以明文XML方式存储,任何第三方软件都能完整获得和利用,让医院建设大数据时没有后顾之忧。
还有一些医院采用PDF格式来归档电子病历文档。PDF是难以分析的二进制格式,而且PDF文档可能只有万分之一的概率被调阅而发挥作用,它也会增加系统的熵值,因此建议寻找替代方案。都昌编辑器产生的病历文档支持内嵌电子签名,可直接连接电子签名服务器进行签名和验证操作,提供了一个可选的PDF归档的替代方案。

小结

整个宇宙都在熵增,医院信息化系统也“难逃一劫”。人们发挥聪明才智,创造出云计算、大数据等新技术工具来对抗熵增,实现局部熵减,通过低熵数据发现客观规律,并利用客观规律来实现医疗行业的价值最大化。与熵搏斗,这就是医院信息化的未来使命。
作者简介
袁永福,男,微软MVP,80后,南京都昌信息科技有限公司联合创始人,中国医院信息化领域知名软件技术专家,长期从事电子病历编辑器等行业核心技术的研发和推广,一直为整个医信行业的价值最大化而努力。

近期热文
HIT专家网∣致力推进中国卫生信息化长按二维码可申请加入HIT专家网专业交流群投稿:gong_chen@HIT180.com

商务合作:(010)82373062

本公众号原创文章,版权归原作者所有。

未经许可,谢绝转载或以其他形式使用文章内容进行传播。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存