查看原文
其他

袁永福专栏 | PDF+XML:归档病历文件格式的能力互补

袁永福 HIT专家网官微 2024-01-09

导读

PDF虽然目前应用广泛,但也有其固有缺陷。此时我们需要平衡短期利益和长期利益,在病案归档中考虑引入XML格式进行补充,虽然这会带来不少工作量,但却有助于HIT行业长期价值最大化。

HIT行业的有识之士呼吁:要建设20年不做颠覆性改变的新一代医院信息系统。为了实现这个目标,需要高瞻远瞩的系统设计,同时在一些关键技术路线中需要慎重选择,减少给未来带来本可避免的损失。

按照有关规定,门(急)诊病历的保存时间为自患者最后一次就诊之日起不少于15年,住院病历保存时间为自患者最后一次住院出院之日起不少于30年。因此,新一代医院信息系统中的一个核心模块:“病案归档”中的归档病历文件采用什么存储格式,就值得深入探讨。

点击查看更多【袁永福专栏】文章

PDF与XML各有特点

目前,很多系统采用PDF作为病历归档的文件格式,原因很明确:PDF格式公开,是国际标准,能很好地展示排版格式,而且可以加上电子签名,而且很多人以为PDF文件是不可修改的。更近一步的,软件业界对PDF支持得很好,生态丰富,很多电子签名产品就能直接操作PDF文件。

但是落实到医院行业,PDF文件格式无法“独立”撑起业务系统20年不做颠覆性改变的重任,此时需要加入另一种XML格式的能力补充。笔者对这两种技术进行了对比,如表1所示。

表1 PDF与XML的技术能力对比(部分)
对比领域PDFXML
显示和打印差一些
人工阅读支持支持
机器阅读(软件自动分析)
临床业务有欠缺贴合
文件类型二进制格式纯文本格式
数据恢复
经济动力
敏感数据保护
零信任安全不支持支持
电子签名支持支持

以下是详细说明:

第一,功能需求方面。

PDF是通用技术,不能很好地满足很多医院的特需功能。根据百度百科:PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图像模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图像。

也就是说,PDF的初心是“显示”和“打印”。医疗行业所特需的结构化文档、质控规则、敏感数据保护等,都是需要深入二次开发的,难度未知甚至可能无法实现。这就为PDF未来在医疗行业中的深入发展带来了不确定性。

而XML格式具有很强的扩展性,全球IT界的大量成功案例证明了这点。基于XML格式足以满足医院特需功能。

第二,文件格式方面。

目前一些医院会使用光盘、磁带机等低成本介质来存储离线归档的病历文件。从物理学上说,光盘和磁带都是塑料制品,不是晶体,本质上是非常粘稠的液体,会缓慢发生不可逆的变形,这导致存储数据有可能发生随机变化。这里的数据变化包括在随机位置处修改、插入或删除字节。

PDF是二进制文件,经不起长期低成本存储的考验。例如一个PDF文档只包含有效内容“1111111111”,其文件内容在记事本中显示如图1所示:

图1

对这样的文件,随机位置处的任何一个字节的随机修改都会有很大概率对文件整体造成致命性的破坏,很难进行猜测式修复。如果保存在磁带中的数据发生多处随机错误,导致部分PDF文件无法读取,这样就无法合规保存病历文件。

当然我们可以采用三处异地备份的方式提高文件的保存质量和修复效果。但是长期离线存储的病历文档再次被调阅的概率实在是太低了,从利用价值来说,这是一个巨大的稀疏矩阵,冗余存储的性价比太差。

相对而言,XML属于具有自我描述的纯文本文件,更能经得起时间的考验,有可能做到快速猜测式修复破损的内容。XML虽然有一定的数据冗余,但就像当年的爱多VCD一样具有较好修复能力。

比如,对于结构化文档内容“{吸烟史:烟龄[5]年,每天[10]根。}”,此时XML可以为“<field label="吸烟史" ><field label="烟龄" unit="年">5</field><text>undefined</text><field label="每天" id="每天吸烟数" unit="根">10</field><text>。</text></field>”。如果XML片段发生随机的字节修改,比如变成“ <field label="吸烟?" ><field label="烟龄" unit="年">5</field><text>undefined</text>?ield label="每天" id="每天吸烟数" unit="根">10</fie?<text>。</text></field>”。对于这样残破的XML片段,人们仍然能轻松恢复出大部分信息,开发自动修复程序的难度也不大。

再比如文本“袁永福的电子病历”,若采用UTF8编码,其16进制编码为“81 88 38 6C 8F 79 84 76 35 75 50 5B C5 75 86 53”。若某些字节数据损坏,比如第一个字节丢失,其可辨认的16进制编码变为“88 38 6C 8F 79 84 76 35 75 50 5B C5 75 86 53”,则以UTF8格式读取的文本就变为“㢈转葹㕶偵앛虵”,这就是不可识别的乱码了。

而如果采用XML实体模式存储这一文本,则保存为:

&#x8881;&#x6C38;&#x798F;&#x7684;&#x7535;&#x5B50;&#x75C5;&#x5386;

若某些字节数据损坏,例如变成:

&#x??1;&#x6C38;&#x798F;&#x7684;&#x7535;&#x5B50;&#x75C5;&#x5386;

这段受损的数据仍然可以准确辨认出文本“永福的电子病历”,这样就能实现数据的最大程度的恢复。

第三,经济因素。

如果归档数据能参与大数据分析,持续创造价值,人们就能有足够多的经济动力来改善这些数据的存储环境,提高生存质量。此时即使是二进制文件也能妥善处理。

PDF更适用于人工肉眼阅读,没有自动化数据分析的能力;而XML能够持续参与大数据分析而创造价值。如果以XML作为归档病历文件格式之一,人们就有足够的经济动力,来妥善长期保存归档病历。

第四,合规性。

病历文档包含了大量的敏感数据,包括患者姓名、电话、详细住址等能精确匹配个人身份和位置的信息。敏感数据保护是新一代医疗信息系统必备的合规性要求,不可跳过。

PDF文件目前缺乏可靠的敏感数据保护或者自动化脱敏机制,而XML具有很强的扩展能力。我们都昌公司基于XML开发了敏感数据透明加密技术,能加密病历敏感数据,而普通数据则是明文存储,这样就能实现对病历文档的局部加密。

在医院内部等可信运行环境中,敏感数据在内存中实时解密显示,用户及开发商无感;而在医院外部的低安全等级环境,敏感数据表现为不可逆的加密,此时数据使用方由于无法收集敏感数据反而能“避嫌”,从而获得更大的发展机会。这样XML格式能同时满足医院内部和外部的合规数据利用需求。

第五,零信任安全

据媒体报道,国家计算机病毒应急处理中心在2022年9月5日指出:“美国国家安全局对我国进行网络攻击,控制相关网络设备,窃取了超过140GB的高价值数据”。为此,新一代医院信息系统必须要贯彻“零信任”的安全理念。不法分子可以利用网络攻击,甚至人工渗透到系统内部,直接用移动硬盘拷贝数据库文件来获得高价值数据。“不怕贼偷,就怕贼惦记”,PDF文件以明文包含医患敏感数据而成为高价值数据,从而始终被不法分子“惦记”。而如果以XML作为病历文件格式,利用其强大的扩展性,可以采用敏感字段透明加密等技术手段来实现“零信任”,降低数据离开医院后的价值,可以减少黑客的攻击动力和攻破后的损失。

第六,电子签名。

PDF的一大特点是可以实现电子签名。基于XML仍然可以实现电子签名。电子签名本质上是对一段二进制数据进行签名,XML也是一种二进制文件,而且签名验证数据也可以嵌入在XML中随身携带。

另外要解释PDF的一个误解,很多人以为PDF文件不可修改。其实修改它并不难。目前有大量的软件能方便修改PDF文件。PDF加上可靠电子签名后,能形成法律上可靠的文档数据,其功劳应归功于电子签名,和PDF没有任何关系。

PDF和XML互补,满足“机读”和“人读”的不同需求

根据薛万国主任在《医疗数据长期保存面临挑战,归档管理是解决之道》一文中的论述:从技术角度解读医疗数据的使用需求,可以将其分为两大类:一类是非结构化使用,也即“人读”,以文档记录为单位,需保留数据内容及外观;一类是结构化使用,也即“机读”,以结构化元素为单位,不考虑数据的外观,通过归档数据模型以纯数据形式进行保存。

PDF和XML各有优缺点,能形成互补,满足“人读”和“机读”的不同需求。因此建议可以形成如下做法:

第一,病案归档时可以PDF和XML两种文件格式同时归档。

第二,由于单个PDF被人工调阅的概率很低,而且为了防止数据有意无意的泄露,PDF文件需要高强度加密存储,只有被调阅时才在内存中临时解密。

第三,XML采用敏感字段部分加密的方式存储。在医院内部的可信运行环境中,只有被调阅时才在内存中临时解密敏感字段;脱离医院可信环境,XML只能显示普通数据,无法显示敏感数据。

第四,医院对外发送病历文件时,可以比较放心地发送XML文件,但发送PDF文件时需要非常谨慎小心,因为PDF文件中含有未加密的敏感数据。

第五,由于XML文件能参与大数据分析而持续产生经济价值,这样人们有动力改善XML文件的存储环境,顺带改善PDF文件的存储环境,实现归档文件的长期可靠存储。

综上,要开发出20年不做颠覆性改变的新一代医院信息系统,就需要选择能持续20年的技术路线。PDF虽然目前应用广泛,但也有其固有缺陷。此时我们需要平衡短期利益和长期利益,在病案归档中考虑引入XML格式进行补充,虽然这会带来不少工作量,但却有助于HIT行业长期价值最大化。

作者简介
袁永福,男,微软MVP,80后,南京都昌信息科技有限公司联合创始人,中国医院信息化领域知名软件技术专家,长期从事电子病历编辑器等行业核心技术的研发和推广,一直为整个医信行业的价值最大化而努力。

近期热文
HIT专家网∣致力推进中国卫生信息化长按二维码可申请加入HIT专家网专业交流群

寻求“商务合作”,长按二维码可快速与我们取得联系


投稿:gong_chen@HIT180.com

商务合作:(010)82373062


本公众号原创文章,版权归HIT专家网和原作者所有。

未经许可,谢绝转载或以其他形式使用文章内容进行传播。


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存