【e医疗原创】朱杰:大数据技术给电子病历数据的“后标准化”提供了一条通路:打标签
点击上方蓝字关注我们,点击文末“写评论”激扬观点。
e医疗专栏作家:朱杰
医渡云高级产品总监
十二年前加入通用电气医疗信息部门,当时作为PACS产品的先行者公司正在大力推广DICOM标准概念,我也由此接触了DICOMStructureReport(结构化报告)规范。遗憾的是在国内RIS产品逐步与PACS产品分流,所以“报告”还在,但是没有走进DICOM结构化。
再次见到“结构化“是六年前进入电子病历市场后,此时的市场已经普遍接受电子病历系统不是“文本编辑器”,一定要支持“结构化”才是“真正的电子病历”。
当时大家的期望是通过“结构化”一劳永逸地解决病历“书写方便性“和病历“数据利用”两个难题,然而后期经过“结构化”“半结构化”“全结构化”的一轮争辩和实践,行业逐渐认识到:上述两个目标前者可以达到,而后者似乎遥遥无期。
越来越多的HIT建设者发现,在面对医学领域专业专科细分、实际案例病情多变、新技术疗法层出不穷的特性时,能够制定出一个内容基本完整、支持快速录入的“病历模版”已经实属不易。如果还要支持“数据利用“则需要在这个模版背后制定、加载并维护相应的标准化数据集,其工作量之大已经超出了大部分医院的承受能力。经过五年左右的实践,也只有少数专科病历在限定场景下,可以实现有标准数据集支持的结构化病历记录。
难道电子病历的数据利用从此走进了死胡同吗?只能说:不能用产生问题的思路解决问题。
对于病历来说最大的困难在于完成病历的时候往往不知道后期“数据利用”的目的,为了未来的数据利用而建立数据标准往往陷入迷茫,而站在后期数据利用的角度要求病历数据节点内容标准化,有多少有点“事后诸葛亮”的味道。
两难之中,大数据技术给电子病历数据的“后标准化”提供了一条通路:打标签。
“打标签”的思路类似于文库管理中的“关键字”标注,通过对一篇文档中内容的归纳在可控词表中选择一组“关键字”附在文档后面,便于快速检索和定位出文档本身。这些“标签数据“就像图书馆里面的索引卡片,本事并不是原生数据(图书)的一部分,但是通过其身的标准化解决了原生数据的利用问题。
在大数据时代,这些“关键字标签”不再是对应一个固定的可控词表一次性生成,而是通过可定制的规则引擎随时运算生成,一个文档中可以提取和生成的标签甚至比文档本身的内容还要多。
更妙的是,随着机器学习技术的成熟,更大的数据量意味着更准确的规则引擎和更全面的可控词汇表,而两者结合产生了更智能的标签数据。
想一想我们在使用某宝的时候,每次我们从海量的商品中搜索自己需要的类目其实我们搜索的是商品的“属性标签”,而非商品名称字符串,更有趣的是我们搜索商品的行为本身也让我们被系统打上了“败家娘儿们”“IT宅男”这样的标签。最终的搜索结果不过是商品标签集和用户标签集的匹配。不能想象,这样的工作如果通过“前置标准化”如何完成,难道要我们先填个“采购注册表”再给我们返回正确的商品信息?
对于大数据来说,这样的算法技术并非新鲜事,唯一需要是我们做的是建立合理的标准表库并且开始调优规则引擎,就可以逐步享受这一技术带来的方便。
写到这里,却突然发现:不知何人将其命名为“电子病历后结构化”。“结构化”这三个字还真是——才下眉头却上心头呢。
©以上文章来源
e医疗原创文章,转载请注明来源。