“数据之难”众说纷纭,大数据+医疗的难点如何解析?(上)
随着互联网与医疗的深度融合,数据的收集和分析对于医疗行业的创业者、投资者甚至科研、医务工作者来讲,都显得愈发重要。“数据+医疗”的困难在不同类别的从业者眼中各不相同,而在昨天的火石创造HSMAP产品发布会上,各领域的大咖们就“数据之难”进行了深入探讨。
采编:张莹;排版:叶文婷
▲ 图为本次参与圆桌论坛的嘉宾
主持人:
富煜亚洲总裁 姒亭佑
讨论嘉宾(上图从左至右):
微医集团副总裁 何 超
树兰医疗CEO 郑 杰
格诺思博创始人 何 伟
高特佳投资合伙人 王海蛟
上海大数据联盟秘书长 时 炜
讨论主题:数据之难
请大家按照自己各自不同的领域来分享一下目前在大数据的收集上碰到什么样的困难,或者在你们创业的过程中用数据做分析有何难点?
何 超
我的体会首先就是大数据很重要。
医疗的发展过程当中从原始的完全的经验医学到循证医学。循证医学是基础理论的研究 + 临床经验,以数据的形式呈现。不管是以肿瘤作为主要内容的精准医学,还是其它各种医疗学科、临床医学的专业,全世界大的医学会都将循证医学的临床数据总结成临床诊疗指南、临床路径,因此,大数据收集的重要性是显而易见的,是今天医学背后的重要支撑。
大数据的困难在于其完整性,而且这个大数据的形成不受个体、局部种种因素的影响。我想,今天火石请大家来有一个责任,就是对医疗行业一个新的产品做评价,我个人认为杨总整个路径的阐释以及对于整个行业全世界范围内的信息收集以及规划路径,听上去非常完整。
从医学的发展过程当中,我希望我们的医学操作能建立在数据的基础之上,我们希望医生的背后有这样一个决策体系。
在美国,CDS这个资料库/信息库是非常热门的,火石以中文版的形式出现,这对于中国的学者、投资者、创业者都会有非常大的影响。
郑 杰
树兰医疗刚创立不久,从开业到现在半年多时间,目前我们作为新建的三级综合医院目前,门诊以及住院量上升还是比较快的。我们开始设计的时候就考虑如何面向未来打造一家医院,下面讲我个人的几个观点:
第一,未来的治疗团队一定是复合型的。这个复合型的团队可能有医生、护士、数据工程师、深度学习的工程师,还有营养师、心理师,综合性团队的打造非常重要。这个时候又涉及到医疗流程的重塑;
第二,我们会发现临床和科研的这种同步的速度是越来越快。以前科研是科研,临床是临床,现在我们发现这个是可以同步做的,这个背后就需要数据的规划与统一;
第三,充分的拥抱行业和生态的发展。火石也许未来可以给到树兰非常好的服务,我们想看到每一个诊断技术、治疗技术的发展方向是什么,这个领域会涌现出哪些优秀的创业公司和新的产品。
未来医院会面对各类新的技术提供场景,这个时候对于我们来说,怎么和相应的技术对接以及联合研究这就是一个课题。
我们也看到了美国的趋势,创业公司聚集在一个科技园,而外科医生白天做手术,业余时间开发一个新的手术器械,这种互动的速度是非常快的。这也是我们看到的未来跟一个产业生态合作的方式。
这个背后最重要的是数据共享,中国的医疗数据共享已经走过了将近20多年的道路。最近我个人也参与发起一个联盟叫“开放医疗与健康联盟”,目的是一切以患者为中心,拿一个统一格式、标准化的医疗健康数据,为老百姓提供更好的服务。
最近我们也和丁香园做了一些尝试,也在跟产业界其它的医疗机构共同服务一个患者。所以现在国际上的最新趋势叫连续式医疗,这点上我们也在积极探索。
何 伟
我个人是学生物和学医出身的,对数据的理解比较浅。但大数据是不是个好东西?一定是。
对于我们企业来说,数据难度肯定是有的,我们对于数据之难的理解就三点:
第一点,获取。获取数据的时候有两个挑战,首先是量,有量才有质,一万例以上的数据才有可能成为有价值的东西。如果数据不到上万例可以拿出来说,但是不能拿出来说事,这是有很大差别的;第二:质,质量。
第二点,收集数据。收集数据里面有两点:一个是数据的完备性;第二个是数据的真实性/可靠性。在很多临床数据的收集当中,我们发现第一次收集过来的数据必须要有两个人校准,因为最早采集数据的人由于疏漏或工作强度过大容易导致疲劳,采集的数据有僻陋,需要修整。
第三点对数据的解读难。数据的解读需要依靠对数据解读非常强的数学家、物理学家,一般的医生及学生物的人是解读不了数据的。所以要综合各个领域的顶尖人才才能把数据的价值挖掘出来。
王 海 蛟
我们面临的难点可能有两个:
第一,数据收集的成本;
第二,标准化数据的效果。
数据收集的成本。比如一个项目特别抢手,而你需要在很短的时间内把这些数据搜集到,那时你要付极高的成本。否则,你只能获得一些低质量的数据,而这些数据可能导致你的误判。
还有,比如标准化数据的效率太低,指的就是如果我想研究一个行业的纵览,我会发现大家讲的东西都不一样。因此,“什么是标准化的数据”对我来讲就有很大的挑战。我们往往会发现,获得很多数据后发现大部分无用的,有用的数据很少。
(插问:你们在判断的时候这种数据你们目前的处理方法是什么?)
我们采集数据评价一家公司往往从两个层面做:
第一,评价它所处的行业。可能需要采集一些宏观数据,比如说行业容量有多大,过去几年的增速和未来增速有多少,有多少玩家在行业内,他们的集中度、市场占有率是多少。
第二,具体的公司。我们会考虑产品是什么,有多少个产品,这些产品在全行业内处于什么位置,有多少客户,是什么类型的客户,每个客户大概会生产多少产品,未来的客户潜力多大,服务是怎么做的,有多少人员、内部有什么标准化的流程支撑这个系统,最后是它反应的财务报表和我们调查所得的商业行为一致吗?当然评估专利和技术来源非常复杂.
时 炜
我们的大数据联盟去年9月开始筹建,今年4月1号正式挂牌,运营的这段时间内我们对于大数据行业也做过思考和研究,我这块主要针对健康医疗行业。
在整个行业调研过程中我们也发现,大数据行业和云计算行业不太一样,云计算只要有想法有投入,有相应的APP,有市场就可以做,但是大数据行业需要的东西相对来说比较多,包括数据源、相应的分析工具还有它最终的应用场景。大数据行业前景美好,市场非常广阔,但也涉及到一些难点,我简单总结有四块:
第一,数据的采集。数据采集一般是通过网络爬虫或数据交换(比如数据交易所),还有一些由机构或个人通过共享的方式来分析数据。这些模式在各个行业里头都有,但是对于健康医疗这个行业这个问题尤为严重。
因为什么呢?健康医疗对准确性的要求非常高,往往你采集到的数据精度不够,对后面的分析(会受影响),整个产品的应用都会出现问题;
第二,难在数据的分析和加工。我们说的大数据一般都是TB、PB级的数据,这些数据的堆积对于一家企、个人,或出一份报告而言没有任何意义。
我们现在要做数据处理,把大数据变成中数据,中数据变成小数据,用图表的方式直观地呈现,刚才看到火石的产品展示我觉得非常好,我们可以合作;
另外一块,需要跨界融合。原来做生物医药领域的很多人都是业内专家,数据处理、加工的过程当中涉及到数学家、程序员,怎么用算法对数据进行加工、按各种规则归类,这很重要,这一块需要产业的人、做基础科研的人、做程序开发的人、底层运营的人融合。
第三点是安全。对于健康医疗,安全是很关键的,这一块国外也看到很多案例,数据的泄露会导致个人隐私信息丢失,这也是健康医疗行业数据之难的痛点所在;
最后一个在于监管政策。我们和上海市卫计委聊过数据能不能公开,他们觉得是在可控的范围内公开。举一个简单的例子,虽然有长宁区所有三甲医院的数据,但对于数据在分析加工后能不能公开,政府是有疑虑的,因为一旦公开,如果长宁这个位置有些癌症的患病机率比其它区要高,政府就得承担风险,比如居民会不会恐慌性的离开这个区域,从而造成房价暴跌。
关于监管还有一点,在国外,美国和欧洲都在做数据安全和隐私的立法,但在国内,标准立法的过程还在探索之中,整个行业里的数据流通、标准、质量、流程现在也在探讨中。
(未完待续,明天将继续推送“数据之难(下)”,诉说数据创造的价值)
以上内容根据速记稿整理,未经嘉宾确认
内容推荐:点击文字获取详情