医院需建立能够解决各种发展矛盾的、完善的数据归档管理和日常巡检机制。
医院核心数据库需要减负,数据存储管理有待加强(附视频)
伴随着各类医院信息化应用的迅猛发展,医疗数据量正在呈指数级增长。作为医院最宝贵的资源之一,如何做好医疗数据的长期存储管理,已成为医院不容忽视的问题。“医疗数据的长期存储管理是一个复杂的系统工程,医疗机构需建立起能够解决各种发展矛盾的、完善的数据归档管理机制。”
2021年10月14日,在由HIT专家网主办、日立数据(Hitachi Vantara)协办的“医疗数据存储管理在线论坛”上,与会专家分享了医疗数据存储、备份、归档的相关实战经验与技术实现方案。上述观点是与会专家们的一致共识。
核心数据库需要减负
数据安全是数据存储管理的基础,更是确保业务系统连续性的核心保障。为确保数据安全,北京大学肿瘤医院信息部主任衡反修建议,医疗机构应通过运维巡检建立起以问题为导向,追踪问题并彻底解决问题的闭环管理,也即运维巡检PDCA循环。
其中,P为Plan(运维计划),根据科室年度计划制定巡检计划,输出年度科室整体运维工作清单。D为Do(运维执行),责任人按照巡检计划进行巡检,重点在于保质保量的落实。C为Check(巡检核查),是过程监督,是事中反馈机制;同时,过程检查、阶段性检查,也是过程纠偏机制。A为Action(改进),根据执行及检查中的问题不断改善和持续改进,使已发现的问题得以彻底解决。
在介绍运维执行经验时,衡反修特别强调了以下几项巡检内容的必要性:
核心数据库每日巡检。北京大学肿瘤医院信息部要求,每日对重要系统(如HIS、EMR、LIS、病理、手术麻醉等系统)进行巡检,检查备份数据的大小、备份完成情况、设备剩余存储空间等内容,同时还需检查HIS服务器主备机的数据一致性。为此,北京大学肿瘤医院信息部还自主开发了核心系统巡检软件。
数据质量每日巡检。“使用数据的最关键因素即数据质量。”据衡反修介绍,北京大学肿瘤医院建立了数据核对巡检制度,坚持每日进行巡检,已持续数年之久,以此保证数据中心与HIS系统内数量、金额、条数等量值的一致性,保障CDR、BI系统数据的质量与可用性。
软件系统月度巡检。衡反修介绍说,每位工程师对应巡检6至7个系统,巡检内容包括操作系统磁盘空间,数据库、归档日志、备份数据库所在磁盘空间,以及其运行和备份情况、时间一致性、关键服务运行健康评价等。
在谈及Action(问题改进)时,衡反修重点提及了核心数据库减负问题。随着医院信息系统运行时间越来越长,医院中的HIS、电子病历等核心系统一直在负重前行,如果将其比作一辆“数据拖车”,其装载的货物已越来越多,外挂的车厢也越来越长。衡反修表示,医院的核心数据库已不堪重负,经巡检发现:数据备份时间超长,备份恢复时间超长,维护和应急窗口极短,数据安全风险越来越大。对此,衡反修提议,应及时将在线数据库进行分库处理,将存储时间过长的“冷数据”剥离出来,并尽可能将数据库减负工作提上日程。
医疗数据的长期存储管理面临挑战
医疗数据主要分为结构化数据、文本数据及影像数据,据解放军总医院医学大数据研究中心原主任薛万国介绍,三者数据量比例大约为1:10:1000。
“由于政策法规要求、患者个人终身健康需求以及医学研究需求,医疗数据需要长期保存。”然而,实现医疗数据的长期存储管理仍面临诸多挑战:
集成问题。数据集成难度大:异构系统接口数量大;缺乏统一的接口标准支持;部分专科系统医疗记录结构复杂。数据统一管理难度大:不同类型的医疗文档结构不同;同一类文档结构可能发生变化;数据存储需兼顾结构化内容与外观样式。
容量问题。薛万国表示,伴随着医学科技的进步,数据类型正在逐渐增多(如新型影像数据、组学数据等),影像空间分辨率增加,每例数据体量增加,整体数据量激增,大型医院数据积累已达PB级并持续增长;存储扩容成为医院信息化常态;“热数据”与“冷数据”使用频次明显不同,对二者采用相同的存储技术既不合理也难以持续。
性能问题。数据长期积累影响数据库与系统性能,医疗数据需长期在线访问,数据量持续增大,运行时间延长,系统性能下降成为普遍现象;数据长期积累影响数据备份与恢复时间,数据全备份“窗口期”持续增长,备份策略愈加复杂,故障后数据恢复周期也将延长。
标准与可解读问题。历史数据的长期“解读”问题突出:医疗数据缺乏统一的存储管理模型,不同厂家的系统数据结构完全不同,不同厂家、不同时期的数据编码不同,部分数据甚至采取了私有加密方式存储;更换或升级系统面临数据迁移困难,更换厂商或升级系统不能“解读”旧数据,结构差异、数据量大导致数据转换迁移难。
对于上述问题,薛万国提出以下七点解决方案:建立医疗数据归档管理机制,定期分离“冷数据”“热数据”;以患者和文档为中心,采用混合技术建立统一归档模型;保留文档的原始外观与数据内容;使用基于KPI的数字签名技术确保数据的原始性;建立业务系统对归档数据的访问机制;对医疗数据进行分级分类存储;采用大容量、长期可靠、绿色节能、管理简便的存储设施。
“建设用于数据集中存储的临床数据资源库(CDR)仍然是医院信息化当前的关注重点,不能忽视的是需要探索能够支持长期存储的CDR系统架构以及与之相匹配的存储设施方案。”薛万国认为,未来随着数据的积累,长期存储体系的需求将更加突出,CDR的架构形态还会进一步发展演变。
分级架构助力医学影像数据长期储存管理
“数据是医疗信息化未来发展的基础元素,日立数据正致力于为医疗机构提供跨业务与应用的数据抽取与加工能力、数据集成存储与检索能力,并最终做到数据的深度分析与商业洞察。”Hitachi Vantara医疗行业解决方案专家李岩说。
李岩着重介绍了日立数据的Hitachi医学影像大数据中心解决方案。该解决方案的基础架构可分为数据集成层、协议支持层、数据存储层及任务调度层。
其中,数据集成层与协议支持层相对接,可集成数据并将其抽取至大数据中心。同时,数据集成层还可对接医疗信息集成平台,通过数据抽取工具将病理报告、诊疗记录、影像报告等整合至对象存储中。
数据存储层可为医疗机构提供元数据支持、对接S3访问接口、底层数据保护、Hash校验、数据自动更新、纠删码保护、免备份技术、逻辑多副本等功能。
在任务调度层,可通过NFS协议在文件系统底层直接抽取DICOM文件,无需对现有系统进行大规模改造,即可完成DICOM文件扫描;抽取DICOM至对象存储;建立DICOM索引;数据抽取、分发、压缩、查询工作流调度;协议转换、解析等工作。
李岩列举了Hitachi医学影像大数据中心解决方案的两大使用场景:
一,影像数据迁移、归集。通过NFS协议在旧PACS中提取DICOM数据,将其存入大数据中心,完成数据统计、索引。当新PACS查询历史数据时,大数据中心可将数据通过DICOM协议发送至新PACS。据李岩介绍,以此方案完成120TB数据迁移仅需15天。同时,对于PACS厂商或其他影像应用提供商而言,也无需对应用系统进行改造。
二,医学影像备份、归档。此方案应用分级存储架构,将SAN存储或NAS存储作为前端数据访问载体,配置少量“热数据”,而全量数据则会写入大数据中心。此时,系统内将存有两份数据。第一份在在线系统内,系统会定期清理“冷数据”以保持系统性能;第二份在大数据中心的数据池内,系统可提供免备份、数据自动校验、纠删码保护、设备自动更新等功能。同时,这套解决方案中的一大亮点是硬盘休眠功能,当数据未受访问时,硬盘将处于休眠状态,以此节约能源。
目前,许多医院已在无纸化存储方面进行了探索,但仍缺少能够解决“长期管理与访问性能”“冷、热数据管理”等发展矛盾的、完善的数据归档管理和日常巡检机制。对于希望加强数据存储管理的医疗机构而言,应做到未雨绸缪,以防数据激增拖垮核心业务系统,为医院带来不可挽回的损失。(点击“阅读原文”,观看视频回放。)
商务合作:(010)82373062
本公众号原创文章,版权归原作者所有。
未经许可,谢绝转载或以其他形式使用文章内容进行传播。