查看原文
其他

专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?

海若镜 财健道 2022-04-25
‍最近微信改版打乱了发布时间
请将“财健道”设为星标★
持续关注,不错过好看

  
文 | 海若镜
编辑 | 杨中旭
 
1月15日,医疗大数据和AI技术企业医渡科技(2158.HK)登陆港股,上市当日收报65.20港元/股,较发行价上涨近148%,市值达到588亿港元。医渡云(即医渡科技)在资本市场的表现,也为医疗AI行业注入一剂强心针。
 
在医疗AI行业,高质量的数据、算法、算力是企业竞争力的核心,对于医渡云而言,凭借数据智能基础设施YiduCore,为医院、监管机构、药企等多方提供大数据解决方案支持,截至2020年3月31日止财年营收达5.58亿元,同比增速达447.1%。
 
医渡科技上市敲锣仪式现场,医渡云首席AI科学家闫峻博士接受了《财经》专访,从技术层面深度解析如何通过数据治理技术积累、算法创新等,逐步构筑起医渡云的护城河。闫峻博士毕业于北京大学数学学院信息科学系,曾任微软亚洲研究院资深研究经理、微软北京大学联合实验室副主任等职位,在医疗AI领域深耕多年。

▲ 1月15日IPO仪式之后,闫峻接受《财经》专访


01
正向迭代的YiduCore,构筑数据治理护城河

《财经》:医渡云治理的医疗数据,其服务对象都有哪些?主要是治理何种类型的数据?

闫峻:主要服务于医疗机构、监管机构。医渡云帮助他们进行数据的加工、处理、计算,支持医疗机构的科研、临床辅助决策、院内管理等多种场景。

数据类型以文本为主,因为医院会用到HIS(HospitalInformation System, 医院信息系统)、LIS(Laboratory Information Management System,实验室信息管理系统)、手术麻醉临床信息系统等,主要还是处理这几类信息系统的文本数据。 
    
《财经》:中国的医疗信息化已进行了十多年,HIS、LIS系统等已普及。目前医疗大数据治理的难点主要在哪些方面?

闫峻:信息化不等于数据化。虽然医疗的信息化已经做了很多年,但以前的信息化建设以“记录”为主,医生的临床判断、检测检验等都会记录下来,但它并不面向应用、科研,无法直接用这些记录构建面向AI的智能模型。

所以需要做“翻译”工作:通过医疗数据的集成、基于知识的数据质量治理、再到数据的结构化、数据的标准化,通过这样的链条把信息化时代记录的内容翻译成机器可计算的、数据化的东西。

各环节拆解来看,首先要进行数据集成。医院在进行信息化建设时,通常先上线一个子系统、过几年再上一个,每一类信息系统又有很多供应商。所以,一家医院内部可能存在过几十个系统,且彼此间没有打通。这意味着想看一位病人完整的病例数据都很困难。所以先要把数据集成起来,才能相对全景化地看到一份病历。

第二,需进行数据质量治理。医疗数据大多是人工记录,难免因各种原因产生错误和偏差,有一些还很严重,比如,“月经史8年,男”。在构建临床辅助决策系统时,如果数据本身是错误的,相当于误导了机器,反馈的结果就可能失真。如何通过AI建立数据质量治理的解决方案?

所以我们要建立规则体系,类似专家系统,通过知识推理发现存在错误的数据。这个系统的构建,背后需要非常强大的医学知识库。当加工处理的数据越多,越“见多识广”,就越能清晰地知道病例中可能出现的问题,然后输出为计算机可识别的模型,再让机器发现其中的问题。

下一步是数据结构化。把医生记录的内容,翻译成计算机可以读懂的结构化的数据表单。

最后还需要进行数据标准化。因为即便面对同一个表单,医生的表述习惯也不同,比如二型糖尿病,有的医生写阿拉伯数字“2”,有的用罗马数字“II”,有的写英文“type 2”。人看了知道是同一件事,但计算机识别的是符号,因此还需要用语义分析把它们关联在一起,清晰地说明描述的是一件事。

这项工作最大的难点不是构建一个强大的AI模型,而是需要大量的积累和投入。医渡云2014年成立,做第一家医院时花了一年的时间、很高的成本,公司在2017年前没有进行商业化,而是在解决行业的基础性难题。

《财经》:医疗大数据行业里,各家的路径会比较相似么?在这个过程中医渡云的核心技术能力体现在哪些方面?

闫峻:行业里每家企业都有自己的特点,定位和目标也不太一样,我们现在追求的目标是:要解决医疗的数据化到智能化进程中最基础的这一步。因为如果用现成的数据训练AI模型,再用这个模型去构建应用场景,那这件事情反而不需要太重的投入。

医渡云在做的相当于行业基础设施的建设,它需要非常长期的积累,无论是数据质控的知识库建设,还是结构化、标准化模型,实际执行时并不简单。

举一个医疗数据结构化的例子,通常意义上,自然语言处理有非常标准的算法,叫做NER算法,它主要的功能是从文本里面识别实体,比如定义症状叫一类实体,它就帮你识别症状;定义诊断为一类实体,它就可以识别诊断。

但医疗行业比较复杂。比如做肿瘤的临床研究,肿瘤分期非常重要,我们天然认为医生会写在病历文本里,机器只需识别即可。但实际上你用尽了一切手段,即使识别率、准确率、召回率都是100%,最后比较高的数据填充率也只有50%-60%,为什么?

原来大部分情况下,医生基于检查检验指标、病理结构可以轻易判断出肿瘤的分期,所以并不习惯在病历中直接标注,而对AI来说,没有这个数据,就意味着无论用什么算法,都不可能识别。

如何解决这类问题?其实有一整套非常严谨的医学逻辑,一方面要从病历里识别各类指标,另一方面要建立一个医学推理引擎,通过推理得出这份病例的分期。所以看似是一个简单的机器学习算法问题,实际上要嵌入大量的医学逻辑,所以我们研发团队中医学人员比例很高,跟医学团队的配合非常紧密。

医渡云较大的优势就是我们对整个算法的创新、对问题的定义,很多情况下把问题定义清楚格外重要。接下来就是我们在积累的过程中,花了很多时间和资源构建知识体系,而后算法逐步迭代,使得YiduCore处理数据的能力越来越强,也就有更多合作伙伴委托医渡云加工处理数据,形成正向循环。

所以我们一直说,YiduCore是一个迭代的过程。

02
法创新,重新定义知识图谱

《财经》:你曾提到医渡云的技术方案跟业内机器学习、深度学习的模型不太一样,是“以知识图谱、逻辑知识库为主,嵌入智能驱动”,这该怎么理解呢?


闫峻:这是一个技术专业性非常强的问题,可以从两个方向来看,一是AI技术的发展脉络,二是医疗健康产业的特殊性。

首先看AI发展的进程,早期的AI是以数理逻辑为基础,就是符号系统,或者叫专家系统。它通过一系列的符号逻辑的推理,比如有A且有B,或有C,这几个条件下可以推理出一个怎样的结论。条件描述可能很复杂,但它可以做机器定理证明、辅助决策支持等很多事情,这是早期的符号逻辑。

符号逻辑通常不是数据驱动,而是知识驱动,把专家的知识描述成符号,翻译成机器可以处理的文本,机器就可以通过符号逻辑进行运算。

后来随着数据技术、统计学算法算力的发展,大家开始发现数据不需要人来定义,而是可以让机器通过数据学习这个规律,这就是统计机器学习。随着算法、算力局限性逐渐被突破,近期深度学习发展了起来,也是目前市场上最热门的策略。

这是AI从符号逻辑到统计机器学习的脉络,结合医疗健康产业来看,还有两个重要特性。

第一,相比于整个医学发展的千百年历史,医疗信息化积累的时间很短,仅有这十多年的系统信息数据。如果今天的医疗AI是100%依赖于数据,会有大量珍贵的历史医学知识用不上;如果单纯走符号逻辑拆解,今天的数据就又用不上,所以必须把两者融合起来。

第二,在医疗领域,对结果的可解释性要求非常高。比如在临床辅助系统帮助医生判断病情、推荐诊疗方法时,仅告诉医生该病人得各种疾病的概率值是不够的,从循证医学角度,系统必须告诉医生原因。单纯的机器学习模型,可以输出结论,但无法告知原因。所以最近延伸出来比较热的研究方向,叫做可解释机器学习——希望我的机器学习能够解释。

医渡云现在构建的整个体系是以符号逻辑为基础,把历史医学知识拆解好,变成一个大的知识图谱。数据在其中的目标是,把图谱里所有的东西变成一个可个性化解决的场景问题,这才能满足精准医疗的需求。

传统的知识图谱中,构建的实体和实体之间,会有一条边。举个例子,二型糖尿病、糖尿病足,之间的“边”叫做并发症,意味着糖尿病可能有一个并发症叫糖尿病足。单纯基于知识图谱的临床辅助决策系统会提示医生,他有可能得糖尿病足,给出的概率预测也是基于人群,而非个体。

但在精准医疗的范畴里,该如何解决这个问题?我们把知识图谱中的每一个节点的常量(一个确定的符号),变成一个预测模型。比如以前“糖尿病足”是一个确定性的符号,现在它成为一个变量,病史、生活习惯等指标则是影响变量的因素。

预测模型从哪儿来?就是从构建的深度学习模型来预测。相当于通过千百年的医学知识沉淀,先构建出整体的逻辑架构,基于此,再把通过数据学到的规律逐步嵌入到知识图谱中,让每一个节点之间都是可预测的模型关系。

03
产品创新,助力新冠疫情防控

《财经》:在新冠疫情防控中,医渡云有哪些产品助力提升疫情防控的效率和质量?

闫峻:一个是城市免疫平台,其实也是用到上述技术。我们知道疫情发生后,都需要做流行病学调查,流调报告跟医疗的文本非常像,也是人记录下来的内容。如果靠人工去分析数百份流调报告之间的传播链路,是非常困难的。

我们通过机器把所有行程轨迹里的时间、地点识别出来,并进行人工校验,之后通过AI系统就可以推算出整个链路的交集、最可能的传播路径是什么。

另外还有通过仿真模型,助力政府进行防疫政策。如果疫情防控举措过于严格,虽可以控制好疫情,但也会给生产生活带来巨大负面影响;反之,经济可以快速回归正轨,但对国民健康和安全又存在风险。所以,通过仿真模型跟踪疫情动态、监控医疗资源、还原传染路径等,能有助于疫情防控的动态平衡。

整体而言,从疫情监测预警、模拟仿真、辅助研判,到最后的疫情防控执行追踪,整个链路医渡云有一套完整的解决方案。现在,我们还有小伙伴奋斗在河北战疫的一线。

(作者系《财经》研究员)
 
 - END -

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存