对于“医疗机构医疗大数据平台”及其相关概念,如集成平台、临床数据中心、CDR等,很多人对其内涵和外延没有清晰的认识。为此,特邀CHIMA副主任委员、解放军总医院医疗大数据中心主任薛万国对上述概念进行辨析。本系列文章分三期连载,敬请读者朋友关注。
【CHIMA专栏】谈医疗大数据平台及相关概念(3)技术层面:搭建医疗大数据平台需要量体裁衣
医疗大数据平台建成什么模样,不是“一刀切”的,要根据医院开展数据服务的范围和类型,去选择符合自己需要的各种功能应用,类似搭积木,也需要量体裁衣。
Hadoop不是医疗大数据平台的“标配”
医疗行业大数据的特点并不见得是“大”。实际工作中,真正围绕某一病种做数据研究时,一般样本数只有几千例,能达到一万例就不得了,有时还有几百例的。
医疗行业大数据的特点,首先是“宽”,数据的种类多,即便是同一种类型的数据也有很多种细分,结构不一样;其次,医疗大数据的质量很重要,要追求数据的质量和完整性。
技术是为应用和需求服务的,什么样的应用决定什么样的技术。要围绕技术特点去构建技术平台,而不是单纯追求“潮流时尚”。医院在构建大数据平台时,一定要因地制宜地选用技术。
我们真正在用数据的时候就会发现,医疗行业大数据其实大多是“小数据”,数据需要清洗、整理、增删改,而Hadoop恰恰在这方面是弱点。传统技术的生态环境非常好,各种各样的工具非常齐全,而且都能互相连接起来。而大数据技术的生态没有传统技术那么成熟,如果采用它,这时候不但得不到好处,反而把用户自己的手脚捆住了。所以在选用技术的时候,不能简单地把Hadoop搬过来就行,更不要一窝蜂地盲从。一说大数据就必须是Hadoop,这也是误解。
当然,也不能简单地否定Hadoop,它有自己的用武之地。Hadoop适合用在哪些地方呢?比如:科研检索的随机性很大,不是按照预设好的路径,而传统的关系型数据库是通过索引的办法来提高性能,不可能提前设定所有检索条件。针对这种随机的检索,关系型数据库的性能就没有那么好,可以用大数据技术。
但是,即使在随机检索这种情况下,也不一定非要用Hadoop。因为还有其他办法可以很好地解决问题,比如ES(Elastic Search,分布式全文搜索引擎)、列数据库等,都能非常好地满足需求。
我们中心到现在还没有用到Hadoop,还没有觉得必须要用它。一般情况下,在不追求性能的时候,我们用关系型数据库也能做得很好。因为很多搜索对时效性的要求并不高,我们更关注的是对建模、处理等其他工具能否支撑得很好。
根据所要开展的大数据服务来选用技术
搭建大数据平台,要根据所开展的数据服务的范围、类别来选用技术。
比如,如果医院只是开展一般的临床病例的检索、分析、日常查询、统计分析,那就需要检索系统、专病库系统,再加上SPSS分析建模的软件就够了。如果医院想做人工智能,那就需要GPU,需要深度学习的框架和工具。如果医院想做深度的结构化,要用病历文本训练模型,也需要深度学习的框架。如果医院要做组学处理、精准医学,就需要相应的组学平台和工具。
如果盲目使用大数据技术,可能一上来就把自己绑死了。大数据应用与传统医院信息化不一样,它在数据分析阶段,不追求数据唯一,数据可以有不同的副本,以多种形式存在。在检索系统里,是一种存在方式;在分析的时候,有另外一种存在方式。当然,原始数据是统一的,出自同一个源头,然后在不同的场景下以不同的形式组织起来。就像不同的场合穿不同的衣服一样,正装、睡衣、运动装都有,各取所需,而不是只有一套。
HIT专家网∣致力推进中国卫生信息化
想加入HIT专家网专业交流群吗?
请添加“HIT专家网”小助手微信好友
(请务必注明姓名、单位名称、职务、主管技术或产品领域等实名信息)
微信订阅号:HIT180com
微信服务号:chinaHIT
投稿:tan_xiao@hit180.com
商务合作:(010)82373062