临床数据中心的建设是关键,数据清洗中的数据标准化是重点,尤其是“语义”层面的标准化是发展趋势。
【南湖HIT论坛】广医三院王琼:开展临床大数据应用离不开医院数据平台支撑(附视频)
“推动数据的标准化,用分析工具的共享替代数据的共享,可能是目前我们在数据安全和数据所有权不明晰且很难分辨的现状下,可以采取的一个途径和方法。”在2019年南湖HIT论坛上,广州医科大学附属第三医院(简称:广医三院)信息科副主任王琼分享了其在国内建设医院数据平台的经验心得,以及2018年在美国德州大学休斯顿医学中心访学一年的研究实践。
据介绍,广医三院信息化建设起步较早,在1998年就上线了HIS系统,包括医嘱信息、处方信息、药品信息等已经积累了20多年的数据。2008年,该院上线全院门诊和住院电子病历,至今已沉淀10年的电子病历数据。2014年,该院又做了信息化五年发展规划,计划进行集成平台和数据平台建设。2018年,广医三院完成了临床数据中心、医疗质控管理平台的建设,也通过了互联互通成熟度四级甲等测评,现阶段正以新院区建设为契机全面推进智慧医院建设。
临床大数据的应用基础是建设完善医院数据平台
“医院在建设数据平台时需要注意什么?我想只有在实际工作一线摸爬滚打过,才知道这期间的关键点和难点。也才能以此为起点,明确临床大数据应用的研究方向和思路。”王琼表示,医院数据平台的建设是开展临床大数据应用的基础。
与国内相比,美国大部分医院都使用了Cerner等大公司的信息系统,其病人全流程数据都在一个系统和数据库里,较容易检索应用。但国内大多数医院的病人数据都分散在电子病历、处方系统、检验系统等各个信息系统中,且病人索引不统一。因此,在王琼看来,要想开展临床大数据应用,首先要做的是通过数据的集成、清洗,形成以病人为中心、以医务人员为中心、以医院运营为中心的数据仓库,进而在此之上形成数据集市的开发应用。
在进行数据集成、清洗的过程中,数据标准的引用至关重要。“我们当时在建设数据平台时,参照国际标准、行业标准、院内字典等,费了很大功夫做疾病诊断编码(ICD-10)和手术操作编码(ICD-9-CM-3),尽全力去做标准化,但说实话依然不够。”王琼表示,“虽然这项工作费时费力,但真的值得花精力去做,这也能为后期的应用和研究打下非常好的基础。”
经过了数据集成、数据清洗和数据标准化的引入后,广医三院建成了符合一定标准的临床数据中心,完成了EMPI(患者主索引)的梳理,将数据形成了13个域的数据集。而一个病人的13个域的全流程数据通过一个EMPI号就可以全部检索、查询和应用,这对于后期的研究非常重要。此外,广医三院在数据平台的基础上开发了各种应用。比如,建成了医院的运营中心,即基于人、财、物的精细化管理系统,可根据运营状况进行业务追踪,包括院领导首页、医院运营分析首页等。搭建了科研系统,包括多维的临床数据查询、CRF表单等。同时,还与医院临床药物试验研究室合作建成了药品临床试验管理规范(GCP)平台。
访美期间的两项实验研究成果
“在完成了我院数据平台的建设工作后,我就踏上了去美国求学之路。时间非常宝贵,机会也非常难得。我当时有两个想法:一是通过一年的学习,务必要为自己之后的工作打下基础;二是尽量有论文成果,研究项目要实用。”王琼表示,在美国访学期间所开展两个实验项目的构思,均来源于在国内建设临床数据平台时的经历。
第一项实验研究是与AI相关的NLP技术的应用,主要针对ICD自动编码。训练数据是之前做集成平台数据标准化时积累的部分数据,使用典型的“Entity-linking”方法,分Candidate Generation和Candidate Re-Ranking两个步骤进行,采用了RANK SVM、CNN(卷积神经网络)、MatchZoo、BERT等各种机器学习和深度学习等的算法。
“我们医院之前在做数据平台建设时,基于疾病诊断编码(ICD-10)和手术操作编码(ICD-9-CM-3),积累了8000多条疾病诊断的‘同义词’和4000多条手术操作的‘同义词’。而基于临床知识的‘同义词’使用,极大地提高了算法的准确率。”王琼表示,“同义词”的使用使准确率提高了30%以上。实验表明,临床知识的应用对于人工智能算法准确率的提高非常明显。
第二项实验研究是临床大数据相关应用,主要针对出血性脑梗塞(HT)队列研究。“在我出国前夕,我院的临床数据平台基本完成,当时就想尝试一下应用。在经过与脑血管科医生的沟通以及查阅脑梗的诊疗指南后,发现脑梗之后脑出血转化中抗凝剂的使用是缺乏证据的,医学界也很关注这一问题,我便计划以此作为医疗大数据应用的研究点。”王琼表示,该实验是应用真实世界数据(RWD)进行的回顾性队列研究,但出国访学后无法再使用自己医院数据。幸运的是,该实验得到了哥伦比亚大学等多个研究机构与组织的支持和帮助。
“我负责研究方案,他们负责提供数据。他们把数据结构、语义标准给到我。我据此提供数据分析代码给他们,在他们的本地数据库里跑。在这个过程中,我自始至终没有摸到数据,但是拿到了结果。”王琼表示,该实验的目标队列是脑梗无出血症状,结果队列是出现非外伤性出血,风险时间设定为1天、7天、30天和365天。最后有两个层面的结果,其中之一是人群层面的统计结果。可以看到,数据量非常大,虽然发病率很低,但每一项的样本量都比以往多数研究的样本量大。
据介绍,整个实验使用了500万左右的脑梗病人数据量,包括1个训练数据库和9个外部验证数据库。“我们完成了脑梗后出血转化的预测模型,而这样的ROC曲线图在一个低发病率的模型里非常漂亮。”王琼表示,“联合了这么多数据库做实验,虽然没有拿到他们任何数据,但是结果和成果都有了。这是非常值得借鉴的一种方法。参与各方的数据中心仍然保留着数据,只不过做了相同的格式化标准化。在此基础之上,作为研究者,把临床概念、病人筛选规则等录入进去,最后就形成了研究成果。”
做好数据在“语义”层面的标准化是关键
王琼表示,医院在开展临床大数据应用时,一方面EMPI(患者主索引)是基础工作,一个病人多个诊疗号无法进行全流程数据记录,导致不能开展大数据队列研究。只有做好EMPI后,才能把病人全流程数据全部在数据库里识别出来。
另一方面,临床数据中心的建设是关键,数据清洗中的数据标准化是重点,尤其是“语义”层面的标准化是发展趋势。临床大数据的应用产出和科研成果离不开临床的参与,以及有效的医院数据应用的管理机制,要充分保障患者隐私。
此外,访美求学的经历,使王琼产生了两个期望。
一方面她希望国内HIT工作能够高端化。目前,美国几乎所有常青藤大学都已开设了生物医学信息学(Bio-medical Informatics)专业,很多医学博士都在攻读这一专业,毕业后在医疗机构信息中心和相关公司工作的收入都很高。“要想使我们HIT行业从业者能得到更多尊重,在医院里得到更多理解和支持,需要我们每一个从业人员的努力和争取。”
另一方面她希望国内HIT产品能出口到国外。“我在美国实验室里结识了一个来自埃及开罗的好朋友,她表示很羡慕我们有那么多电子病历数据,因为开罗几乎没有医院使用电子病历,因为太贵了。虽然是一个闲聊,但我觉得这或许是我们HIT行业走向世界的一个开端。”王琼说。
进入“阅读原文”观看视频回放:《王琼:临床大数据应用之中美实践》
HIT专家网∣致力推进中国卫生信息化
想加入HIT专家网专业交流群吗?
请添加“HIT专家网”小助手微信好友
(请务必注明姓名、单位名称、职务、主管技术或产品领域等实名信息)
微信订阅号:HIT180com
微信服务号:chinaHIT
投稿:tan_xiao@hit180.com
商务合作:(010)82373062