查看原文
其他

50万奖金终有归属!天池医疗AI大赛背后的产业逻辑究竟是什么?

2017-10-14 郝雪阳 动脉网

10月11日,云栖大会的前一天,杭州阿里云基地内,一位国内高校的参赛者,正在演讲台上神情严肃地进行最后的项目演讲。耗时半年,天池医疗大赛终将在这一天决出赢家。50万奖金池,也将迎来最终的归属。



作为国内首个医疗AI大赛,天池大赛获得了多个行业第一,包括世界最多的参赛队伍(2887个)和最大的数据集(超过2000份标注后的CT)。

 

这场大赛,吸引的团队除了北京大学、浙江大学、上海交通大学、早稻田大学等国内外知名高校,还不乏国内知名企业的队伍,如点内科技、宜远智能、联氪云影、掌中全景、百纳(武汉)信息等。

 

究竟这场大赛有着怎样深刻的意义,对于主办方的三家企业(阿里云、英特尔、零氪科技)来说,各自的想法又是什么?带着这些疑问,动脉网对这次大会的各方进行了一番采访调查。

 

这场大赛的意义在哪儿?


“我们把这件事叫做‘开球’。一场体育竞赛,开球的动作非常重要。在中国提供一个全球领先的影像诊断数据级算法、运算平台非常具有意义。”这是决赛赛场,零氪科技CEO张天泽的开场白。

 

按照他的的观点,影像数据只是医疗数据中的一个很小的类别,目前,影像AI大致可以分为三个阶段:


  • 1、检出病灶5-10毫米(需要大量统一标准和质控的医生标注的影像病例)

  • 2、鉴别病灶良恶性及病灶分型分期(需要大量的含有准确病理结果并标注精准的影像病例支撑)

  • 3、肿瘤病人治疗方案优化推荐及预后评估(不仅需要大量的含有病理结果及精准标注的影像资料,同时还需要病人的治疗、手术、用药、随访等连贯的病例数据作为支撑,且不断进行更新)

 

利用人工智能检测出肺结节,仅仅是影像中特征的提取阶段。而结节的良恶性、分期以及治疗方案是什么,这些都是人工智能下一步需要实现的功能。


这需要更多的数据帮助系统进行判断,包括患者的检验检查、CT、内镜等数据。根据不同患者不同的并发症,将影像报告、病理报告和患者后续手术的配套用药以及后续存活等数据串联起来,人工智能才能得出个性化的治疗方案、周期以及存在的风险。


也只有这样,人工智能才有机会真正成为临床应用。

 

张天泽认为:“毫无疑问,这是实现安全可控的大数据交易模式的一次成功试验。天池平台为图像、声音等敏感数据的拥有者和深度学习技术的开发者搭建了跨界协同的桥梁,为未来将此类合作演进成为一种新型的商业化数据交易模式提供了技术和经验的参考。”

 

阿里云提供了什么样的云计算服务?


据阿里云天池技术平台项目经理之毓介绍,数据、算法、计算力是人工智能的核心三要素,在本次大赛中,阿里云平台将这三者有效结合在了一起。


该平台包括基础设施层、飞天分布式云操作系统层、云和大数据层三层架构,云和大数据层由阿里云自主研发的云计算产品(ECS,NAS,SLB,VPC)以及大数据产品(ODPS,PAI)构成。


“阿里云就像是搭建了一个舞台,参赛选手可以尽情的释放在医疗影像算法方面的才能,让数据在云中飞舞。 ”


医疗行业的数据敏感性是一大难题,安全性永远是医院关心的首要问题。本次天池大赛,阿里云团队专门开发了一个数据安全“笼子”,经过“笼子”的清洗与禁锢,可以把影像数据中的敏感数据过滤掉,并保证它们不会被泄露。

 

之毓继续谈道,“一开始,阿里云认为80%的团队都会使用2D方案,只有20%的团队会使用3D的方案。结果我们发现,有90%甚至95%的团队都用的3D方案。”


阿里云飞天的PAI基于强大的线性扩展能力,提供了针对3D的解决方案。参赛队伍可以每次迭代中高速处理32张以上128x128x128甚至更大规模的3D图片,提升结节检测精度和效果。

 

英特尔提供了什么样的算力?


对于算力,英特尔云计算事业部人工智能资深专家胡潇举了一个形象的例子:“如果将云平台比作土地,土地要长好庄稼,不仅土地要肥沃,而且还要有趁手的耕地工具。所以,英特尔一方面为天池云平台这块‘土地’配备了英特尔至强融核高性能计算集群,另一方面还提供了专门的‘耕地工具’,名为天池定制版Caffe框架。”


首先,关于高性能计算平台,胡潇认为:“平台的‘算力’不仅仅是单纯的计算能力。用于医学影像分析的AI模型同其他一般的深度学习模型相比有一个很大的不同。尽管其模型本身的规模并不是太大,但是在训练时常常需要一次性处理很大规模的多维图像数据,因而在传统的GPU架构上极易超越显存的容量。所以,对于这些医疗AI应用而言,‘算力’不仅仅指高计算能力,还要求有高存储能力。如今,医疗AI行业以及其他具有类似多维图像数据分析需求的相关行业,大内存架构的重要性已越来越成为共识。”


本届大赛采用的第二代英特尔®至强融核™处理器作为深度学习计算引擎,配备了192GB(最高可达384GB)的超大内存,正是为了满足当前医疗AI对大规模3D神经网络的需求。


而关于深度学习框架软件,胡潇介绍,公版Caffe框架由于抽象级别较高,可以比喻为所使用的耕地工具不是待组装的零件,而是组装好的“拖拉机”,因而具有性能较高的优点,但也造成灵活性较差的局限。


并且,公版Caffe框架基本上不支持3D神经网络功能。因此考虑到参赛者对医疗算法都有很多定制化的需求,尤其是对各种3D神经网络操作的需求,英特尔又贡献了近35000行代码,推出了天池定制版Caffe。


它包含各种3D神经网络操作在内的43项超新功能。是英特尔专门为此次大赛定制的新型“拖拉机”,极大保障了选手在天池平台上耕耘创新的灵活性。

 

零氪科技提供了什么样的数据?


任何AI技术的基础都是高质量、大规模的结构化数据集,而医疗领域恰恰缺乏这一条件。作为本次大赛的主办方之一,零氪科技提供了目前全球最大规模的“科研级胸部CT数据集”。

 

本次大赛的原始数据包括影像数据的搜集、脱敏、转化、统一化的工作。


赛前,零氪科技与16家全国知名三甲医院专家进行了沟通合作,并组建了以素有“东方神眼”之称的复旦大学附属华东医院张国桢教授和北京大学肿瘤医院影像科唐磊教授等为代表的数十人的中国顶尖影像专家指导团,让他们在后续的数据接入、脱敏、标注等环节提供医学影像支持。从而确保参赛选手拿到的数据是最顶尖、最精确的数据。

 

正是这16家合作医院和这个数十人的中国顶尖影像专家指导团,合作提供了2000多份经过安全脱敏处理和精准标注的胸部CT扫描科研级数据集。


据零氪科技CTO罗立刚透露,这2000多份数据集的投入至少在百万以上。

 

“如此大的数据量绝对是全世界所有医疗AI比赛前所未有的,可以毫不夸张地讲,这是全世界最大规模的肺部薄层CT数据集。”零氪科技CTO罗立刚表示。

 

在数据的搜集过程中,零氪科技专门开发了定制版数据采集系统。同时针对不同的医院的影像工作站厂商,分别定制开发了专用自动脱敏工具,把CT的敏感信息去掉,保证不泄露患者的隐私信息。

 

在数据标注环节,为了尽可能的让影像专家快速地进行标注,零氪科技定制开发了若干针对性数据标注软件,开发了来自不同影像工作站的标注信息统一转化为普适开放标注格式。


为了加快标注的速度、降低标注人员的训练成本,零氪科技还提供了全套培训服务和录像资料,帮助参与标注的医生快速上手。

 

在数据处理阶段,零氪科技提供的每份数据都是由三位影像专家分别独立标注,最后处理阶段与其进行比对。


如果各自差异很大,就集中起来进行重新标注,反复迭代五六轮,最终才得到了大赛能够使用的较高质量的数据信息。

 

零氪科技首席架构师王晓哲表示:“深度学习模型现在能够达到的天花板是人类的最高水平,我们的数据级只能尽可能地保证接近顶尖专家水平,但由于是人标注的,所以其中难免存在一些潜在的问题,这会随着陆续开展的数据标准化和天池大赛得到改善。”

 

为什么国内的团队愿意来参赛?


一位学院派的参赛队伍导师告诉动脉网:“其实我们每年的科研经费都很充足,来参赛肯定不是为了奖金。作为学院派,我们主要还是想来锻炼一下学生的个人能力,学习一下目前人工智能先进的操作环境和技术。”


一家企业参赛方的创始人则表示:“英特尔提供的是算力,阿里云提供的是平台,零氪科技提供的是数据,而我们的优势就在于场景。我们团队已经从前期的肿瘤检出、良恶性判断,发展到了辅助诊断结果。包括治疗方案的优劣、风险预判等因素。用过天池大赛与他们建立合作,对于我们项目的协同来说具有很大的价值意义。”

 

作为评委的医院方,怎么看AI的落地?


企业要想训练AI,需要到医院采集原始数据、验证算法。作为天池医疗大赛的评委之一,上海肺科医院影像科主任孙希文告诉动脉网:“我们是全国最大的一家肺癌治疗的单体医院,与其他医院相比,我们治疗的病种最全,每年有12000多例手术,如此的庞大的医疗数据,就像一块肥肉一样,几乎所有的AI公司都想和我们合作。”

 

人工智能其实最关键的一点是数据的结构化,很多医院的数据量很大,但是没法用,就是因为数据是非结构化的。对此,上海肺科医院与零氪科技在病历结构化方面也开展了合作,从数据源头保证医疗数据的可利用性。

 

“临床数据结构化这一块非常难,一般单纯做人工智能的公司很难做到,所以我们看好零氪科技这种既有大数据,又涉及人工智能的企业。”

 

谈到人工智能在医院的接受度,孙希文认为:“这要看站在谁的角度,对医院普通医生来说,基本是拒绝的,因为人工智能就像是抢饭碗的一方。而对医院管理层来说,则是乐于接受的,因为它能降低医疗的差错,减少漏诊误诊,既提升了医院医疗服务的水平,又降低了医患纠纷的发生率,相当于加了一层防火墙。”

 

在协调人工智能和医生的关系方面,上海肺科医院也有着自己的解决方式:“目前人工智能产品不成熟,就像一个处于公测阶段的游戏一样,有着大量的BUG需要解决。所以我们可以让医生参与修改和设计游戏(人工智能),通过这种参与感,降低他们的排斥感。过去企业更多提的是挑战医生,现在大家都改成辅助医生了,就像警察和缉毒犬一样,这就是角色定位的转变。”

 

上海肺科医院影像科在人工智能影像应用方面基本有两种形式,一是先由人工智能在当天晚上将患者所有的体检数据跑一遍,并将疑似病例筛选出来,第二天医生只需要确定人工智能正确与否即可。


第二种则是医生在白天完成病历报告的书写,晚上由人工智能跑一遍,并与医生的报告进行匹配,看是否有出入。


第二种方式,人工智能像一位监督裁判,与医生之间是对立的关系。而第一种方式,人工智能更像助手,能够帮助医生减轻压力。

 

目前医院采用人工智能企业的产品,更多是考虑两个方面,一是行业内口碑,考虑的是公司的产品在哪家医院用过,同行的评价如何;二是试用情况,医院提供几份脱敏数据,让公司的人工智能产品现场演示,从误诊率、漏诊率数据就可以得出结论。

 

对于人工智能目前的诊疗水平,孙希文表示:“过去很早就已经有人工智能的概念,那个时候叫CAD(计算机辅助诊断),包括西门子、GE、飞利浦等国际大公司都会在自己影像系统的工作站内集成一套肺结节识别CAD,但那时候的准确率不高,不要说临床医生,就连住院医生的水平都很难达到。但现在人工智能企业产品已经非常接近临床医生的水平,目前上海肺科医院影像科所使用的人工智能产品,在肺结节检测方面几乎没有漏诊。”

 

大赛后的一点感悟



总体上看,天池大赛对于阿里云、英特尔和零氪科技的意义,更多在于建立和走通一条医疗人工智能的产业模式。


以目前人工智能的发展曲线而言,随着代码的开源化,纯算法已经很难成为未来企业的核心竞争力。对于分别占据着人工智能算力和数据的三方而言,希望通过这次大赛获得优秀的算法,绝非它们的根本目的。

 

首先,我们可以把参赛企业想象成网络游戏的试玩员。对游戏公司来说,要找到合适的试玩员,并且让他们付出时间和劳动为其寻找BUG,往往是需要支付费用的。但如今通过一场大赛,就能够很轻松地实现。

 

其次,阿里云、英特尔、零氪科技所组成的三叉戟,堪称国内现阶段最强的医疗AI产业联盟。


纵观其他行业,一个强大的联盟,往往能够把控产业上下游。以安卓为例,作为智能手机的底层操作系统,安卓占据了全球最大的手机系统市场份额。


联盟化、平台化、免费化是安卓能够得到大规模普及的关键因素。而一旦联盟内的使用者对开发生态产生了依赖感,那么作为联盟的把控者,必然能够获得极高的产业价值。

 

50万奖金很多吗?看似很多,但对发起方来说,这项投入着实划算。

 

当然,我们不应该忽视医疗机构在其中扮演的角色。


作为医疗AI产业真正的裁判,医疗机构一方的强势地位更多来源于数据的把控。


无论是零氪科技还是阿里云,都是国内医疗机构的信息化服务提供商之一,它们都是医疗机构数据的参与方之一(存储、结构化)。


与它们合作,AI团队能够与产业裁判(医疗机构)产生更加紧密的联系,无论是对于成果的转化和市场化,都将有直接的好处。


文|郝雪阳

微信|hxy942416176

添加时请注明:姓名-公司-职位

后台发送关键词即可获得相关好文

网站、公众号等转载请联系授权


长按识别上方二维码,即可报名参与


2016年,动脉网首次面向医疗健康产业发布了“2016年年度未来医疗100强榜”。


相较2016年,2017年的医疗健康产业将呈现怎样的态势?这些态势是让各领域的企业受益还是受阻?在2017年的未来医疗100强榜中,哪些领域的企业会上榜?哪些会落榜?……解开种种问题的钥匙,就是长按识别上方二维码


近期推荐

 越过山丘,论坛见!2016百强榜英豪今何在?2017新贵何处寻?

 Rock Health 2017年Q3报告:261家企业融资总额达47亿美元,女性健康科技成大赢家

 解读近三年养老政策,从服务要求转向产业扶持,哪些方向将成为养老产业新的增长极?

回顾2016“未来医疗100强”

 正式发布!动脉网未来医疗100强2016中国榜/海外榜

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存