朱杰:资产和垃圾
e医疗专栏作家:朱杰
医渡云高级产品总监
大数据时代数据资产的价值越来越多的得到认可,但是数据产品经理有句话叫“ Garbage in,Garbage out”,抱怨没有质量的数据产出不了好的结果。那么数据在“垃圾” 和“资产”之间到底差在哪里了呢?最近恰好和一位业界前辈共同做了一个课题,有一些心得写下来和读者分享。
首先
好的数据“准确性”很重要。达到准确性的成本是最高的,相对于物联网的机器采集和互联网通过页面挂码获取用户操作数据,医疗数据很大程度上依赖于人工录入完成数据采集,前端业务系统的任何覆盖漏洞都会极大地影响数据准确性。比如“医嘱执行时间”,在移动护理系统推广之前大多数医疗机构的这一数据等于没有,部分HIS甚至会以“摆药计价时间”替代,即便在移动护理系统已经实施的现场,准确的“医嘱执行时间”仍然有赖于一线操作人员严格的业务操作流程。
其次
数据“一致性”和“关联性”是考察业务系统集成完善度的数据试金石。前几期的专栏中曾经提到过严格参照IHE互操作性规范完成系统集成,有一个重要的好处是数据质量得到保证。这一点当时没有展开讲,现在从数据质量来看,草率的系统集成接口确实会严重影响数据质量。举例来说,HIS系统与LIS系统之间的检验申请单数据,除了检查项目、患者基本信息之外还应当包含完整的患者诊次信息(住院号,以便关联入院诊断、主诊医生等信息)和医嘱信息(检验医嘱ID,以便关联下达医生、医嘱下达时间等信息)。虽然从业务流程支持角度,只需要检验项目内容、标本ID和住院患者信息无误就可以安全完成,但是从数据角度来看,诊次信息和医嘱信息的缺失会损失数据“关联性”,基于这样的数据做医生诊疗时间序列分析就困难重重。
各个业务系统之间,甚至同一个业务系统的不同模块之间,对于同一个业务对象采用不同的数据描述是不可避免的,例如:“费用类型”在财务、病案、发票、绩效等模块中定义必然不同。一个好的集成接口需要完成不同字典表之间的转换,通过对照关系保持数据的“一致性”。遗憾的是,类似“检查方法”这样的数据,在太多的系统集成场景上采用了简单粗暴的方法:有什么传什么,接收方人工判断二次录入得到自己系统的对应字段。可以理解像CT这样的大型设备,成百上千的检查方法完整对应到收费字典或者医嘱字典里面的检查方法有工作量,但是一旦开了这个人工录入的口子,再想后期把数据对齐真是难于上青天了。
再次
数据“规范性”。这个事情说起来很简单,实际一看“世界真奇妙”。劳动人民的智慧是无穷的,经常能在系统功能不具备的情况下通过发明一些数据来解决具体业务问题。比如在药品名称后面加一个“*”表示是进口药,在挂号费上增增减减省去维护不同身份患者的特殊挂号类型等等。这种“大坑套小坑”的玩儿法,后期处理数据的工程师如果不找到当年的“系铃人”还真不好破解。
除了上述由于系统覆盖不完整、接口开发不严谨、人员操作不规范之外,一些过于老旧的业务系统由于模块之间耦合过紧(例如:不办理出院就不能结算住院费用),无法适应实际使用场景造成用户被“逼上梁山”故意用一些不合规的操作(患者原地不动,系统操作出院再入院)来实现合规的目的,至于操作造成的数据结果就惨不忍睹了。
如果说2013年之后的医院集成平台建设为各个业务系统之间的数据流通建立了稳固的渠道,那么在2016年之后的数据平台建设就将流通中的数据质量、可用性问题充分暴露了出来。机构大量资金投入后希望沉淀下来的是“资产”而不是“垃圾”,那么对新产生数据的“溯本清源”和历史数据的“沙里淘金”两个基本工作都必不可少。
对,我说的就是数据治理。
-END-
文章来源:e医疗2018年第1期
点击链接查看作者往期精彩专栏内容
基本按时间先后顺序
【e医疗原创】朱杰:新政策来袭,医保“支付方”力量正在整合、崛起
10.05来读书|朱杰推荐:一套关于罗马人的书——全景,客观
【e医疗原创】朱杰:马拉松的战争与和平 (1)——“家徒四壁”
【e医疗原创】朱杰:马拉松的战争与和平 (2)——“望山跑死马”
【e医疗原创】朱杰:马拉松的战争与和平 (3)——“终于不用跑了”
【e医疗原创】朱杰:大数据技术给电子病历数据的“后标准化”提供了一条通路:打标签
©以上文章来源
e医疗原创文章,转载请注明来源