特辑 | 谈谈人工智能与数据治理:我们的系统为谁而建?(上)
"医疗信息化十周年”专题
第6篇文章
全文字数:2000余字
中国医院协会信息管理专业委员会、《中国数字医学》杂志社编写组编著的《中国医院信息化30年》这本书上,我写了一篇《那些年走过的HIT路》,文章开篇用了古希腊哲学家芝诺说过的一句话:“人的知识就好比一个圆圈,圆圈里面是已知的,圆圈外面是未知的。你知道得越多,圆圈也就越大,你不知道的也就越多。”
我在传统医疗行业经历了十五年,转战到互联网+医疗、人工智能的企业,再到近期在健康领域耕耘,把保安哲学三问升华为:
我知道,我知道什么;
我知道,我不知道什么;
我不知道,我不知道什么。
这一篇是整个主题的“上篇”,探讨人工智能与大数据的千丝万缕,以及科研平台的变迁历史。
孙立峰
e医疗专栏作家
工业技术是“老”IT(IndustrialTechnology),信息技术是“旧”IT,智能技术是“新”IT(IntelligentTechnology)。工业技术解决了人类发展资源不对称的问题,互联网信息技术很快会解决信息不对称的问题,智能技术将面临解决人类智力不对称问题的艰巨任务。
未来的IT,一定是“老、旧、新”三个IT的平行组合和使用。当然这一段不是我的总结,只是“拿来主义”。时光倒序,先从智能技术着手,以我的认知从解决方案的角度分享人工智能在医疗行业的应用。
不说大数据的人工智能都是耍流氓
春秋战国,七雄争霸,那时候就出现了伟大的“数据治理专家”秦始皇,将国家(“数据”)治理的三要素:组织架构、制度流程和技术支撑大集成,更将标准化发挥到极致。
这两年,医疗人工智能更是发展迅速,产业格局亦风起云涌。互联网医疗健康产业联盟发布的《医疗人工智能技术与应用白皮书(2018年)》对人工智能在医疗行业的宝贵价值、细分领域的应用、面临的问题与挑战进行了概括性的综述。
在中关村,程序猿们把人工智能叫“养狗”(阿尔法狗),“养狗”是要有“狗粮”的,没有“狗粮”吃的“阿尔法狗”肯定长不大;反之,没有消费者,“阿尔法狗”的“狗粮”也没有任何存在的意义。
这里的“狗粮”说的是经过数据治理过后的大数据,这样才可以把面粉加工(AI/DG)成面皮(数据开放平台),做成包子(专病研究)、馄饨(临床辅助决策)、饺子(真实世界研究)等。如图1所示:一望无际的麦田,好比临床医生(各自的一亩三分地)写的病历(种的麦子)各不相同(良莠不齐)。结构化电子病历系统的普及,对临床质控、临床科研发挥了巨大作用,而模板化的病历不仅限制了医生的思维,且归档后的病历千篇一律,生生把“大数据”变成了“数据大”。更为重要的是,很多医学信息因为电子病历模板没有预设“元素”而被隐藏掉了。
(建议手机横屏观看下图)
图1:一望无际的麦田,好比临床医生(各自的一亩三分地)写的病历(种的麦子)各不相同(良莠不齐)。
近些年,医院信息平台建设如火如荼,随着互联互通测评“政治任务”式的推广,平台建设达到高峰,标准规范得到越来越多的应用普及。但如弗吉尼亚·梅森医疗中心在精益变革中提出的:我们的系统为谁而建?
建成的数据中心依然有80%的是非结构化数据,此结构化非彼结构化、此标准非彼标准。医生种的麦子,收割后加工不成面粉,制作不出包子。
科研平台的变迁历程
以临床科研为例。
1.信息平台下的科研应用
“集成平台”到“信息平台”叫法的改变,是信息化建设从“数据集成共享”到“标准规范建设”的转变。是从着力解决信息孤岛、烟囱林立,资源共建、数据共享、业务协作,到传统业务领域、重点信息工程、新兴技术领域标准体系的建设和应用的转变。
60项基础类信息标准(卫生信息数据元目录、卫生信息数据元值域代码、疾病分类与代码……)、88项医院信息化标准(电子病历基本数据集、电子病历共享文档规范、电子病历与医院信息平台标准符合性测试规范……)、76项区域卫生信息化标准(健康档案共享文档规范……)(数据来源:国家卫生健康委统计信息中心、中国卫生信息与健康医疗大数据学会卫生信息标委会),日趋完善的信息标准体系框架下,医院、区域建成了以患者为中心的病人主索引EMPI系统、临床数据中心CDR、运营数据中心ODR和科研数据中心RDR。
然而,海量的医疗数据却很少能转化成相应的科研成果。
医学信息分散且不完整,医学文本信息利用很难,基于关系型的数据仓库,病例筛选检索耗时之长,信息提取效率之低,数据统计挖掘之繁琐,是临床医生无法接受的。
走访一下医院,临床医生都在抱怨信息平台花了上千万,想要的数据却没有,做科研要检索的病例样本出不来。导致这种情况其实至少有两个重要的原因不能忽视:一是源数据非常差;二是那么多的标准规范,公司开发的产品遵循得太少。
信息平台说:这个锅,我不背。
2.大数据平台的科研应用探索
现如今,有些医院已经采用Hadoop集群计算框架,分布式存储、分布式运算,非关系型数据库NoSQL建设医疗大数据平台。
相对于信息平台,其海量数据处理能力让查找样本病例达到毫秒,多维度数据导出统计也是小菜一碟,只是这时候的“面粉”稍显粗糙。
数据结构化程度欠佳、准确匹配程度不够、科研数据不全——麦子通通结了穗,那穗在麦浪中随风波动,只是还不是那么饱满。
3.基于人工智能的科研应用
也许是之前的预算有限,或许之前的供应商服务虽好、技术却停滞不前,可能是顶层架构虽好、落地却有偏差,同一家医院换过几家公司的HIS、LIS或PACS系统的现象已经很普遍。而在建设信息平台、大数据平台的时候,之前的数据库、数据仓库还是孤立地躺在数据库服务器里,数据得不到全面整合。
从数据库、数据仓库,到数据湖、数据海,我们不讨论是应该建一个“大湖”,还是建不同的数据仓库。从临床科研的角度,我们需要对历史数据全集成、所有数据全覆盖,才能得到全面的病例样本;我们要将非结构化数据相对全结构化、全标准化映射,才能做到智能检索;我们要无边的麦田,绿油油、清爽爽,清风吹来,阵阵清香,精细的“面粉”方唾手可得。
在和某医院相关科室沟通数据经过人工智能治理后应如何用于科研,于是就有了如图2的架构,满盈盈的湖面下瞬间蹦出了鱼虾蟹。
湖里有大鱼、小鱼、大虾、小虾、大螃蟹、小螃蟹(“信息平台”),一网下去啥都能打捞上来,但我只想要小虾(“大数据平台”),但小虾里是不同品种的小虾,怎么过滤(基于人工智能的科研平台)?
(建议手机横屏观看下图)
图2:满盈盈的湖面下瞬间蹦出了鱼虾蟹。
在下篇中,我们将探讨闪亮登场的NLP,以及其带来的新IT变革。
-END-
微信改版
星标/置顶 e医疗
深度好文不迷路哦~
“医疗信息化十年——2008到2018”系列专题同时刊登在2018年第6期和2019年第1期上,欢迎订阅(后台回复“订阅”获取订阅方式)。
特辑 | 支撑新医改的人口健康信息化,如何防止 “焦、骄”二气(上篇)
近期专题推荐点击阅读
……
更多专家和主题
请在菜单栏“搜往期”输入关键字查看。
杂志订阅
微信后台回复“订阅”获取订阅方式
©以上文章来源
e医疗原创文章,转载请注明来源。
^_^我好看,戳戳我呀