查看原文
其他

对话平安集团首席医疗科学家谢国彤:AI像一个钟摆,在“知识”与“数据”两侧摇摆【先行者访谈】

赵泓维 动脉网 2021-04-21


担任平安集团首席科学家之前,谢国彤已在IBM与认知医学深交了15年,算得上国内认知医学从“0”到“1”的见证者。

 

认知医学,是以认知计算为核心技术,以医疗大数据为底层数据支撑,借助AI对患者数据进行深度挖掘和分析利用,探索医学问题新解法。描述之中有个两个关键,一是AI,二是数据。

 

理论上,AI人人可有,数据却不一定可有。训练围棋AI时,DeepLearning团队可以轻松调用丰富的棋局数据,通过不断模拟演练,对AI的决策方式、决策能力进行调整完善。相比之下,打造医学AI则困难得多,这一难度的提升很大程度上归结于“医疗数据”本身的特征。

 

医学数据存在非标准化与伦理限制两个特点。一方面,由于学习、习惯的不一致,不同医生的病历录入往往不尽相同;另一方面,数据的归属权虽然没有定论,但肯定不属于想要创造AI的企业。

 

这便是谢国彤来到平安的原因之一。坐拥完整医疗生态的平安拥有充分的动力去生产并标准化医疗数据,这意味着它拥有成熟的AI造血能力。在这里,谢国彤可以解决“知识”与“数据”的问题。

 

在平安集团,谢国彤看到了什么?AI的未来将要发生什么?近日,动脉网和谢国彤一起,展开了一场深刻的对话。


平安集团首席医疗科学家 谢国彤


“AI的发展就像一个钟摆,它在两级之间摇摆,一级是知识,一级是数据。”

 

Q:算法、算力、数据三要素外,现在尤其强调知识这一新要素。新阶段下,如何同时做好知识与数据?

 

A:人工智能概念刚兴起时,走的便是“知识”这一重推理的方向。具体而言,研究人员尝试将人积累的知识转写为机器可以理解的逻辑算法,又名专家系统。

 

专家系统的尝试以失败告终。要想把专家的知识变成规则,就需要一个非常强的规则表示语言,还需要拥有非常强领域知识的工程师对知识进行编码。实际操作下来,就算能把专家的经验转化为知识,但实际上也就只有五、六成的水平,医院是跑不下来的。

 

知识方向的失败推着大家走向另外一个极端,许多研究人员开始沉迷于数据,将海量的数据堆至算法之中。这种重学习的方式在别的领域或许可以,但医院领域不行。医疗太大,你永远不可能说你的大数据是大而全。

 

GPT-3便是一次关于数据量的尝试,它聚焦于通用的NLP模型,使用了45TB的数据进行训练,但在关于医疗相关任务的测试之中,“人工智能暴力美学”的表现仍然不尽人意。

 

因此,无论是“重推理”,还是“重学习”,偏重任何一侧都不能充分发挥AI的力量。但要找到其中的平衡点也并不容易。许多学者都在其中进行了深入浅出的尝试,希望在一个框架下让机器学习和逻辑推理二者能更均衡更充分地发挥效用。

 

AI的发展就像一个钟摆,它在两级之间摇摆,一级是知识,一级是数据。到目前为止,没人知道这个平衡点在哪里。这也意味着,处理知识与数据的方法,没有最好,只有更好。我们一直在路上。

 

Q:到了今天,创造AI的方式是否因时代的进步而发生变化?医疗领域是否因变化而受益?

 

A:打孔机时代,数据存储的方式是在卡片上打孔;数据的传输是由交通工具对卡片进行物理位置上的转移后再进行读取……60年过去了,数据的处理方式依然是收集、治理、存储、应用,但其中的每一个环节,都因为技术的介入而使得数据的价值得以提升。譬如,过去只能处理存储文本信息,现在能够存储影像、声音等等各式各样的信息。越来越多的非结构化信息进入可处理的范畴,这赋予了AI被创造的可能。

 

游戏领域便非常适合打造AI算法,因为这里有确定的规则,丰富的可供调用的数据。谷歌AlphaStar开发的星际争霸AI便是以百万份游戏《星际争霸2》的游戏录像为数据进行学习,短短一年时间便能与职业选手一争高下。

 

相比之下,医疗数据往往是非结构化数据,且不同数据之间的差异与联系需要专业人士进行甄别。这意味着,要理解医疗数据并用机器进行处理并不容易。以糖尿病为例,医生的治疗有一线二线三线四线药物,你不能一上来就给医生推荐四线药物。四线药物的疗效支撑是有前提的,AI不能对前提条件视而不见。

 

另一个问题来源于医疗数据分布的不均匀,我们曾尝试做一个覆盖大多数眼疾诊断的人工智能软件,但当我们综合了四家顶级眼科医院的脱敏数据后,我们发现常见病如青光眼、白内障占据了大部分数据,而网膜裂孔、视网膜动脉阻塞等病种的数据便非常少,这些病种便很难打造出成熟的、符合临床需求的AI工具。

 

总的来说,创造AI的根本路径没有变,但细节一直在变。医疗领域的确因此受益,但就现在而言,这些益处非常有限,AI还需要很长一段时间的发展。

 

“辅助医生工作的AI,不应想着做一个破坏者”


Q:如此看来,现阶段的医疗AI功能还十分有限,我们应该怎样正确的认识AI,以避免盲目乐观,或带给医生过高的预期?

 

A:指出错误认识,剩下的便是正确的认识。

 

首先是要理解医疗行业。很多AI企业在同医生沟通时,把他们的诉求想得太过简单。答应得很容易,但做着做着就开始认清现实了,发现自己办不到了。这种情况不仅仅出现在医疗领域,当你把任何一个算法应用到一个具体行业中时,必须先有对这一行业的深刻理解。包括行业的应用、流程、关系生态……然后你才知道怎么把你的东西嵌进去。

 

其次是认清自己在做什么。过去几年,很多AI企业总想着“破坏”与“重构”,想着用AI代替医生。就像往平静的湖面上丢石头,这会打破医院现有的平衡关系,但没人会欢迎破坏者。医疗是个慢行业,互联网思维在这里很难走通。

 

到了今天,医疗AI与医生的磨合也就短短数年,医生从一张片子里看到的信息关联着他的认知,他对患者情况的理解……这不是一个从影像中找到可疑区域的过程,医生的推理贯穿这过去与今天的知识,还夹杂着想象力。

 

要学习这些,AI任重道远。

 

Q:探索至今,现有的AI应用场景中,哪些有前景?哪些还需要变革?

 

A:谈论这个问题,一般需要区分为院内和院外两个部分来思考。

 

先谈院内。俗话说“三分靠院内治,七分靠院外养”。现在我国慢性疾病患者人数剧增,年诊疗量从70亿到80亿再到90亿。患者出院后,医院是想管的,希望留住客源,收集完整的患者数据,这对医院的收入、后续的科研都是有帮助的。同时,患者全程由同一个医生跟踪管理,也会有更好的效果。

 

不过,院外疾病管理全靠医生来管,肯定是管不过来的,全靠患者自觉,患者也没那么自觉。所以,院外管理是可以由机器帮助医生进行统计、监督的。这是一个有效的应用场景,药企、医院都有需求。

 

当然,很多企业想要切入三甲医院的核心流程,不过到目前为止,我觉得没有什么AI真的切入到了三甲医院的核心流程,肺结节没有,病理也没有。可能有小案例确实做到了,但成规模的现象没有发生。

 

那么AI能在诊疗中发挥大作用吗?我认为是的。不过不是在三甲医院,而是在基层医疗。

 

中国有100万家医疗机构,三级医院才不过3000多家,基层医疗是一个拥有庞大AI需求的场景。当然,基层医疗的需求自然与三甲医院不同,那里的医生跟大医院相比确实有差距,医生们也没有那么忙,更多需要的,不是效率的提升,而是规范性的提升。AI开发者要抓住这些特征。

 

规范下来的好处很明显,第一是对患者好,能够提高诊治准确率;第二是省钱,避免了各种不合理的医疗行为。

 

院外的AI应用场景合理的非常有限,最重要的便是药物研发。

 

药物研发是一个需要大量数据密集计算的领域,从上亿个分子中去寻找,从无数临床试验中去探寻,最后看到底什么物质最有可能成为药。

 

如今一款创新药的研发全流程花费动辄十亿美元,时间跨度也长达十年。但其中的每一个环节,都有很多可以用算法优化的地方,这里拥有很大的市场。

 

到目前为止,有很多创业公司在里面竞速,但都没跑得太远,如今包括平安、腾讯、百度等企业都加入了其中,要追上去,并不困难。

 

Q:有了方向,怎样才能做好AI?

 

A:第一是动力问题,就我个人的经验而言,简单说可分为两点。

 

第一点是这个问题得足够有挑战,不是我伸手就能够到的。我得对这个问题花点力气、花心思,然后做好他,这样我才会去做这件事。

 

第二点是解决这个问题得有意义,不能说为了挣钱来做这个事。医疗本身特别有价值,当你看见医生逐渐通过医疗手段将肿瘤患者从死亡边缘拉回来时,帮助他重获新生时,你会觉得这事特别有意义,我们也想用科技手段帮助医生,进而帮助到患者。

 

有了动力,其次便是执行的问题。为什么选择平安?因为医疗科技并非任何地方都可以做,需要多方共同开拓,而平安拥有这样的生态。三十年的保险业务经验,十年的医疗业务、数据积累,这些东西研发AI很需要,也很难复制。

 

如今我们正在将这么多年积累的用户体检数据、保险理赔数据、互联网问诊数据、影像中心数据等等数据沉淀下来,知识图谱化,然后变成医学大脑,去服务更多的患者,为患者构建疾病全生命周期的管理。

 

只做单一环节的AI很难发挥作用,这样的AI企业要么做不大,大多在做好后被整合,能啃下硬骨头的企业太少了。最后能活下去的,一定是一个有医疗业务的公司,而不是单纯的医疗科技公司。

 

“如果没有NVIDIA的GPU,没有Google,Microsoft的开源算法,我们怎么办?”


Q:医疗AI,需要怎样的底线?

 

A:数据问题一直是医疗AI中最为敏感的问题,也是企业需要遵守的底线。过去大家少有隐私意识,但随着人们对于隐私问题越来越敏感,从事医疗大数据的公司将会越来越困难,这个行业发展会相对放缓。

 

当然,这种发展的放缓是相对于近年来的AI医疗野蛮生长而言的,一家从事数据处理的公司,首要任务便是处理好数据的安全问题,保护用户的隐私,做不到这一底线,就不要去谈发展速度。

 

做好数据安全不单单是企业的事,我们也需要国家推动数据的使用指南。海外一些国家对于数据的交易拥有明确的定义,主要满足相关的要求便可进行合法交易。在一方面,我们还很缺乏。需要向外学习。任何产业,有了规范,遵守底线,才能蓬勃发展。

 

Q:中国能在AI方向做到世界最前沿吗?


A:毫无疑问,我们会站在世界的最前沿。

 

当我还在IBM的时候,无论是纽约的同事,还是硅谷的同事,我都告诉他们,做医疗AI,中国是一个不错的选择。五年过去了,看着他们这些年的成果,我觉得当时的话更在理了。

 

中国拥有开发医疗AI源源不断的动力,病人多,医生少,需求就摆在这里。同时,对于新技术,我们拥有其他国家人民难以望其项背的热情,所以我们能做成,也能做到最好。

 

现在要解决的,是我们仍缺乏的两个关键点。第一是定义问题的能力;第二是底层的核心技术。

 

为什么需要定义问题的能力?一直以来,我们都拥有浓厚的实用主义精神,从来不缺乏解决问题的能力,别人做什么,我们就能跟着别人做,甚至做的更好。不过,当我们逐渐走到最前面时,这时就迷茫了,因为我们缺乏开创性的想法,没有东西可学了。

 

所以,我们需要为企业构建创新发展的环境。

 

其次是底层的核心技术。现在的AI就像沙滩上的城堡,很辉煌,但也很脆弱。如果NVIDIA不向我们出售GPU,Google、Microsoft不向我们开源算法,我们怎么办?

 

华为是一个很好的案例,我们要引以为戒。

 

现在是一个很好的机会,由于美国对于华人科学家的打击,很多人都回国了。他们知道应该怎么去做开创性的东西,问题的关键在于我们能不能给他们一片适合他们生长的土壤。说到底,我们需要为人才构建创新发展的环境。


*封面图片来源:123rf






声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
进攻是最好的防御

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存