查看原文
其他

【袁永福专栏】“编辑器+AI”在病历质控中的应用

2018-02-07 袁永福 HIT专家网news

导读

让AI在实践当中从零开始自我学习,并在病历内容质控中发挥一定的作用。

在医疗行业中,AI的使用大多是以一个巨大的医学专业知识库为基础的,这使得AI的应用费时费力,而且辛苦努力之后发现实际应用效果并不理想。本文中就参考了AI机器学习的原理,但没有准备任何知识库,而是让AI在实践当中从零开始自我学习,并在病历内容质控中发挥一定的作用。

关于病历内容质控

病历质控是先进医院的刚需,其重要性毋容置疑。质控大体分为时效质控和内容质控。时效质控就是限制病历的书写时间,比如入院24小时内写入院记录之类的,比较简单规范,实现起来没啥难度。但是病历内容质控则变化多端,实现起来有些难度。

都昌公司的DCWriter电子病历编辑器已经实现了以下内容质控功能:

1.必填项。编辑器可设置某个输入域或单元格是必填项。如果为空白,则提醒用户必须输入。

2.文本长度检查。可以设置输入域输入的文本的最小长度和最大长度,另外还提供字符数检查和二进制检查两种模式,在二进制检查模式下,英文字母占一位,而汉字占两位。比如我们可以设置主诉域限制为输入不超过20个字符。

3.数字范围。可以设置输入的数字的最大值和最小值,超范围则提醒。比如年龄取值范围是从0到150。

4.日期范围。可以设置输入的时间日期数值的最大值和最小值,超范围则提醒。

5.正则表达式。此时可以检测是否符合电话号码、邮件地址之类的格式。

6.违禁关键字。比如对于男性病人,病历中不能出现“月经”、“子宫”、“流产”、“妊娠”之类的字眼;女性病人的病历中不能出现“前列腺”、“睾丸”之类的字眼。否则编辑器会提醒。这样能检查出拷贝病历而导致的原则性错误。

7.主动引导输入。编辑器提供“级联”功能。使得输入的内容具有一定的逻辑关系。避免局部的逻辑错误。比如对于文档片段“患者【吸烟】,烟龄【3】年,每天【5】根,【有】戒烟治疗。”当医生选择“吸烟”,则后面的文本完整地显示出来。当医生选择“不吸烟”,则文本显示为“患者【不吸烟】”,后面的“烟龄【3】年,每天【5】根,【有】戒烟治疗”会自动隐藏。这个操作过程是可逆的。这样就能主动引导输入逻辑正确的内容,避免局部逻辑错误。

8.强制限制可编辑区域。比如对于文档片段“主诉:【水肿5年,反复加重2月。】”,编辑器可以强制限制用户的可编辑区域在两个方括号中间。方括号之外的内容无法插入、修改和删除。这样就能保护文档框架结构不会遭到破坏,保证文档在结构上的正确。还能避免将“知情同意书”擅自更改为“志愿书”、“协议书”之类的错误。

9.关键字引用文档片段。比如在编辑的时候,使用快捷键能弹出下图的下拉列表:

在这个列表中用户可以使用拼音码进行检索。比如选择“肾病”这个项目,则文档自动插入以下内容:

“患儿于【 年 月 日】【上感】后出现【颜面、双下肢】浮肿伴尿检异常,尿蛋白【阴性】,隐血【阴性】,尿RBC【阴性】,伴【肉眼血尿】,外院诊为【肾炎】,予【抗感染】等治疗,疗效【不佳】,遂来我院住院治疗,经【检查】,确诊为【急性肾炎】,经【强的松、环磷酰胺】等治疗后,病情【缓解】,今日来我院复查。”

医生选择“肾病”这个节点不是无缘无故的,肯定是有着明确的原因。此时插入的文档片段就是和肾病密切相关的内容。这样病历内容就和病情有着高度的关联。这样也保证了文档的内容质量。

10.拷贝限制。可以设置成限制禁止从MS WORD、记事本或其他病历文档中拷贝内容。这样也能避免拷贝而导致的内容错误。另外当允许拷贝时,还能设置成禁止拷贝过长的内容,比如最多拷贝20个字符,这样避免拷贝大段内容。

11.局部内容只读。编辑器可以灵活设置文档局部内容只读。比如对于会诊单分为上下两联,上联只能是发起人填写,下联只能是会诊科室填写的,两者不能修改对方的内容。这样也能避免由于修改不属于自己负责的内容而导致的错误。

12.字符自动修复。输入法存在全角输入和半角输入,而大多数医护人员不精通IT技术而无法区分两者,从而导致输入的数据错误。比如对于“体温【请输入体温】℃”,如果不小心设置为全角输入模式,则实际输入的内容为“体温【39。8】℃”,虽然人类能识别,但对于计算机来说是错误的内容,妨碍了后期的数据自动化处理。

都昌编辑器具有字符自动修复功能,能在全角输入模式下输入半角数字,比如“体温【39.8】℃”,这种数据人类和计算机都能识别,有利于数据自动化处理。

自动学习

我们的编辑器已经提供了大量的内容质控功能,但还应该进一步识别异常内容,也就是胡乱输入的内容。比如“发几个就爱不放假艾丝凡家的私事”、“aaaaaaaaaaa”。此外还有一些笔误,比如“阿莫西林”写成“阿莫斯林”。

如何识别异常内容?目前业界一些公司的可能做法是首先预定义一个庞大的医学知识库,然后使用AI算法,让机器进行文本理解和判断,挑出异常内容。不过预定义知识库是件难事,这种功能无法大量普及。而先进的技术只有普及开来才能发挥最大的价值。

为此,我们和合作伙伴正在合作开发一种具有自动学习功能的AI引擎,从零开始,来让编辑器自己学习病历内容,从而逐渐提高挑出异常内容的能力。这样就多了一种更实用的内容质控的功能。另外由于无需预制知识库,这降低了落地难度,方便推广普及。

比如,在这个AI第一次运行时,由于没有积累任何知识库,就像一个刚出生的婴儿,白纸一张,啥都不能理解。由于采用“人性本恶”的策略,于是看什么都认为是错误。此时软件运行界面如下:

此处我们设置最多检查前30条异常内容。数量太多时就不后续检查了。

当我们让软件通篇学习这个文档的内容,此时AI以某种方式记住了这篇文章中出现过的自然文本内容,此时再挑刺就认为是完全没有毛病的,校验通过。

如果我们换一个新文档,则软件遇到不曾识别过的新内容,此时检查结果如下:

在这里的“住院号”,由于在人生第一次学习中遇到过了,于是AI不再认为“住院号”是异常文本了。但“超声检查诊断书”还没遇到过,于是认为是异常文本了。

我们让软件再次通篇学习这个文档,然后软件又获得了一些新知识,此时检查这两个文档都是通过的,但检查全新的文档又会出现问题。这样通过不断的学习,掌握了更多的知识,使得这个婴儿AI成长为儿童、少年,而后成年。成年的AI见多识广,于是能以较大的概率来识别异常文本。如下图所示:

这个功能和MS WORD中的字典纠错功能是不同的。字典纠错是需要预定义字典的,而这里的检查异常内容的功能是无需定义字典的,从零开始自动学习。

另外,这里的截图不是PS的,乃是真实截屏。

和其他AI相比的优势

这个从实践中边学边做的功能和传统的“知识库+AI”的功能相比有着很大的优势:

1.准确性。传统AI需要预定义知识库,很多AI产品号称灌输了数万篇论文、几十万份存量病历。不过原始文档的质量是AI产品质量的基础。从准确的原始文档中能学到的是准确的知识库,从错误的原始文档中学到的是错误的知识库。正所谓:“龙生龙、凤生凤,老鼠生的儿子会打洞。”如果训练用的原始数据光有数量没有质量,AI产品会误人子弟的。因此以后AI产品销售时需要举证原始数据是真实有效的。

而都昌编辑器是运行在实际生产环境的,每天产生的文档是真实的实时数据。真实才能准确,准确的原始数据才能训练出准确的AI。

2.适用性。训练AI用的原始数据一般来自特定区域的,比如获取了西北某医院3年前的数据。但训练产生的知识库放在广东沿海医院来用,由于病情在地域上和时间上存在统计学的差异,受到当地水土风俗的影响,因此AI需要大量的调整和优化,这影响使用效果。

而都昌编辑器经手的都是实际在线的病历文档,能实时反应当前科室中的诊疗内容,无论是地域上还是时间上都是和医院及科室完全契合的,无需担心适用性的问题。

3.敏感数据。AI公司在获取训练AI时使用的原始数据都需要进行脱敏处理,去除患者姓名、联系方式等敏感信息。脱敏工作比较繁琐耗时,这不仅加大了成本,而且脱敏涉及到医学伦理和信息安全,大幅降低了医院提供原始数据的意愿。

而编辑器+AI被限制运行在医院现有信息化系统内部,不突破现行信息安全保护制度,无需进行脱敏操作,不会引起医院的疑虑。而且部分敏感信息也是有分析价值的,依据患者身份敏感数据能将多份文档串联成一个系列来进行个体精准分析。因此这方面有着很大的优势。

4.AI学习过程中需要人工标记校正。传统模式是由AI公司专门请人标记校正,工作量大,质量难以保证。而编辑器和AI结合后,医院里经验丰富的医生就在用编辑器书写病历的同时顺带校正AI的学习结果,质量很高,又便于AI功能落地。

5.推广普及。AI公司即使融资数千万元,其AI产品都会遇到推广普及的难题。主要是应用场景的技术问题以及销售渠道的商务问题。目前AI公司若要服务于临床业务大多需要和传统HIT企业密切合作来解决这些难题,否则寸步难行。这限制了AI产品的推广普及。

而我们都昌公司已经有了自己的生态圈,和业界数百家HIT企业有着广泛而深入的合作,编辑器运行在数万家医疗机构中,因此销售渠道不成问题。只剩下应用场景的技术问题,我们目前正在研究在质控这个普遍刚需领域来使用自然文本AI技术的应用。此处的异常文本检查是其中一个功能点。

应用

在目前情况下,默认是关闭AI功能。如果启用AI功能,当编辑器正式保存文档时(已通过主任医师的审查),也就是调用编辑器控件的Save()方法时,AI会后台自动学习这篇病历的内容,对用户界面没有任何影响。当AI学习了超过1000篇文章时(此参数可调),此时AI就开始参与文档内容校验。并将校验结果以文档批注的方式展示出来。此时AI就开始发挥作用了。

AI自我学习会产生知识库文件,目前是存在本地的,AI只能在一台电脑中自生自灭。但也可以存在服务器,让整个医院共享一个AI知识体系,使得AI识别更准确。由于初始化的时候是零知识库的,使得系统的更新维护很方便。

目前这个功能点还在内部研发阶段,正在少量试点。软件功能成熟后就可以大面积更新了。

【小结】

高大上的技术只有落地解决实际问题,并方便推广普及,才能带来真正的价值。比如核裂变技术只有通过大量的原子弹和核电站才能体现出价值。目前很多AI初创企业在这方面有所欠缺。

我们都昌公司借助都昌生态圈而获得强大的推广普及渠道,以及扎实的底层工程软件研发能力,还有对医疗业务的长期接触和理解,以小团队来发挥大公司的影响力,让一些AI技术能够落地实现并推广普及。

这种从零开始自动学习的AI来识别异常文本的功能是我们的一个尝试。希望新技术能通过我们来真正为医疗行业服务,帮助广大医护人员摆脱繁重的低级劳动,以更加智能高效的方式来完成医疗工作,从而帮助整个医疗行业的产能最大化。


【作者简介】

袁永福,南京东南大学毕业,微软MVP,南京都昌信息科技有限公司创始人,长期从事电子病历编辑器控件的研发和推广工作,其产品成为编辑器细分市场的第一品牌。(邮箱:28348092@qq.com)



 近期热门文章:【回顾展望】系列 


HIT专家网最新鲜的医疗信息化资讯,不一样的专家视角

微信:HIT180com

投稿: public@hit180.com

商务合作:(010)82373062

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存