某三甲医院借力隐私计算开展多中心基因组学分析,取得突破研究成果 | 案例研究
锘崴科技成立于2019年, 是一家专注隐私保护计算技术的服务提供商,开发了一套自主、安全、可控的隐私保护计算平台,实现“数据可用不可见”和“数据可控可计量”的多中心应用,赋能数据价值可信流动。锘崴科技在医疗健康领域积累了丰富的实践经验,并将业务拓展到政务、金融等多个领域。下面以锘崴科技与国内医院合作为案例介绍隐私计算为医疗健康数据分享带来的价值。
某三甲医院是一所集医疗、教学、科研为一体的综合性三级甲等医院,脊柱脊髓伤病诊治、关节外伤修复重建、颅脑创伤救治、颅内肿瘤诊疗、器官移植、多发伤、多脏器功能衰竭救治等处于国内领先水平。其中脊柱外科是上海市医学领先专业重点学科,该三甲医院持续推进并引领脊髓型颈椎病研究。
01
多中心医疗合作面临数据安全、合规风险
全基因组关联分析(Genome-Wide Association Study, GWAS)指在全基因组水平上,以单核甘酸多态性(Single Nucleotide Polytide, SNP)作为分子遗传标记,进行对照或关联性分析,可筛选出与复杂性状相关的突变基因位点,对于疾病预防、诊疗和新药研发意义重大。该三甲医院持续关注强直性脊柱炎(简称“AS”)疾病的预防及治疗研究。由于该三甲医院的样本量不足以支撑一项全基因组关联分析研究,因此需要联合多家医院及院校共享AS患者基因信息进行研究,以开展更好的疾病防治工作。但在跨机构AS基因数据协作和共享过程中存在数据隐私安全隐患、数据合规以及计算难度大等问题:
数据合规趋严,医疗数据难流通
随着我国《数据安全法》及《个人信息保护法》的颁布,对数据安全监管进一步加强,医疗健康信息被列为敏感个人信息,医疗数据的不安全流动被严格限制,只有在采取严格保护措施下方可处理敏感个人信息。目前医院普遍通过数据脱敏隐去患者隐私,但在实际应用中,数据脱敏无明确规定,主观性高,且已被证明存在保护漏洞,被隐去的信息可能被重新推断出来导致患者身份或隐私泄露,无法达成现行法律所要求的“数据匿名化”。对医疗数据隐私泄露的担忧及数据共享合规性上的不足成为生物医疗数据跨机构分享的阻碍。
传统多中心合作仍存在患者隐私泄露或数据篡改风险
传统的多中心合作通常将多家机构数据汇集到第三方平台,由第三方平台集中进行数据处理或计算以实现跨中心协作。但随着参与方增多,数据泄露和被篡改的风险也随之升高,如医疗数据安全保护的责任归属难界定、各个参与方的医疗权限划分不明确,都有可能造成医疗数据共享过程中的泄露、侵犯患者个人隐私或是导致重大医疗事故。
数据体量庞大,数据传输、计算及分析难度大
基因数据具有高通量、高敏感度的特点,例如本案例中,单个个体的全基因组测序数据量接近300G,而全基因组分析需要几百甚至几千个样本量,庞大的数据体量为数据存储、传输、计算及分析带来挑战。
02
隐私计算方案推动多中心AS全基因组研究顺利开展
为规避隐私泄露风险,实现基因数据分享和联合分析,推动本次AS全基因组关联分析项目顺利开展,该三甲医院决定采购隐私计算解决方案。经过综合考虑产品功能、性能、安全以及团队医疗专业素质等因素,最终选择与锘崴科技进行合作。
锘崴科技成立于2019年, 是一家专业的隐私保护计算技术服务提供商,由“海外高层次青年人才”、隐私计算专家王爽教授,前硅谷知名科学家郑灏博士共同创立,具备深厚的隐私计算、生物医疗信息等领域的学术和实践经验,团队成员多来自IBM、Google、Thermo Fisher等世界五百强企业,业务场景覆盖医疗、金融、保险、政务、安防等。
该三甲医院隐私计算方案从确定需求、实现跨医院平台部署到完成全基因组关联分析获取研究成果,历时近3个月。
图1 某三甲医院及合作机构隐私计算部署示意图
明确AS全基因组关联分析多中心合作需求
为实现AS全基因组关联分析,该三甲医院及合作机构对锘崴科技主要提出三点需求:1)隐私计算解决方案能提供AS疾病全基因组关联分析管道所需的模型和工具,并支持灵活组合;2)针对跨机构提供的3000个样本、单个样本300G的数据体量,解决方案应实现计算性能等价于明文计算性能;3)该方案保证数据安全合规。
部署隐私计算一体机平台
锘崴科技的锘崴信®隐私保护计算一体机(以下简称:锘崴信®一体机)包含接口层、计算节点、加密层、协同层等,可实现接入医院数据、完成本地计算、对计算结果加密、将加密后的信息通信至全局模型进行迭代,重复计算流程使模型反复迭代至收敛。基于锘崴信®一体机,该三甲医院及合作机构只需完成安装、接通网络、接通数据、配置规则等步骤即可“开箱即用”,简化搭建应用隐私计算平台的难度。
其中针对数据接通环境,锘崴科技锘崴信®一体机提供丰富的数据接口,该三甲医院及合作机构可以以文件、数据库或者数据接口等形式将数据接入一体机,即可实现在安全可控的前提下与外部合作方进行数据价值交互。
各数据使用方设计并构建全基因组分析管道
为满足AS全基因组关联分析研究需求,锘崴科技开发出GWAS分布式计算技术框架iPRIVATES。该框架融合多种算法,包含可定制的基因组数据预处理模块,基于主成分分析的联邦人口分层模型、基于逻辑回归和对数似然比检验的关联分析模型等。该三甲医院及合作方可灵活地集成和配置不同的全基因组关联分析管道,方便识别SNPs与AS疾病特征之间的关联,获得统计学意义上显著相关的基因位点信息,为后期的实验室验证、确定AS早筛生物标志物提供支持。
实现隐私计算安全
依托iPRIVATES框架,该三甲医院实现与多个跨省合作机构的AS基因组数据链接和共享协作,并在多中心协作过程中,保障基因数据共享全链路隐私安全。一方面基于iPRIVATES框架中的安全联邦学习技术,该三甲医院和合作机构在本地终端节点对基因数据进行计算,仅共享交换经过加密后的中间统计值,不分享明文个体数据,保护数据隐私;另一方面,依托于iPRIVATES框架中可信执行环境技术,该三甲医院和合作机构能防御内部攻击、避免因计算过程被篡改,实现对模型本身的保护。
03
隐私计算推动多中心合作高效开展,并取得卓越研究成果
依托锘崴科技隐私保护计算技术,该三甲医院及合作机构在满足数据安全合规要求的前提下完成多中心AS疾病全基因组关联分析,取得重大研究成果,获得业内高度认可;并在缩短评审周期、提高统计意义、降低资源消耗等方面有良好表现。
研究成果获广泛认可:基于锘崴科技提供的iPRIVATES隐私计算框架,该三甲医院关于强直性脊柱炎的研究成果发表在生物信息学顶级期刊Briefing in Bioinformatics上,同时获得2019年度上海市科技进步奖一等奖,收到广泛赞誉。
计算结果的可靠性、准确度大幅提升:基于隐私计算解决方案,该三甲医院最终与多家机构达成多中心合作,样本量相较单中心模式提高3-5倍,统计意义也提高1个数量级,研究结果的准确性、普适性大幅提升,有利于AS疾病的预防和诊治工作。
计算效率显著提升,计算结果等价:iPRIVATES框架在算法时间上等价于数据物理集中的方式,且研究成果的特征靶点也与集中式计算结果一致,验证了隐私计算方法在解决生物医疗多中心数据协作方面的可行性和巨大潜力。
大幅缩短数据风险评审周期,降低多中心合作时间成本:传统模式下开展多中心研究前,需要各医院机构评审数据共享风险,评审周期可能长达一至两个季度。而隐私计算方案能实现在数据不出域的情况下完成多中心的合作,规避数据泄露风险,因此能大幅缩短医院多中心合作的评审周期,减少管理流程成本,加速联合研究。
降低资源消耗:传统多中心模式下,所有样本数据需汇总到该三甲医院再进行计算,对存储、算力条件要求极高,而基于联邦学习的多中心模式应用分布式计算框架,物理分散,逻辑集中,对参与方的计算资源损耗和计算条件要求下降。
04
隐私计算厂商选型决定多中心医疗合作成败
隐私计算方案在该三甲医院AS疾病研究中起到重要作用。回顾该三甲医院实施隐私计算解决方案全流程,隐私计算厂商选型对隐私计算解决方案的成功具有决定性作用,因此对于同样有多中心医疗研究需求的医院,在选择隐私计算厂商时,应注意以下三点厂商能力。
选择有完全自主知识产权,能兼顾性能、精度、安全等多方面实力的隐私计算厂商。由于医疗行业数据体量庞大、精度要求苛刻、数据安全风险高,要求隐私计算厂商除建模能力外,更要具备优化调整隐私计算底座并发性、准确性、算法复杂性等方面的自主开发能力。
选择有丰富医疗经验、具备专业医疗知识的厂商。医疗研究理论门槛高,因此要求隐私计算厂商具有医疗从业经验或是具备专业医疗知识,准确理解不同医疗业务中的数据分析理论,进而提供对应的医疗算法和模型,如在全基因组关联分析中能提供人口分层模型、关联分析模型。甚至更进一步,允许不同医疗机构根据业务性能、精度和安全等多方面平衡的解决方案。
选择具有丰富医疗数据源的厂商。生物医疗数据的各项科学研究通常都需要大量样本,单一数据源的数据量很难满足一项研究所需的样本量,因此,能链接多方数据源,诸如医院、第三方检测公司、影像中心等,打通各医院、药企上下游数据网络,为医院聚合大量样本,将能为医院节省大量的资源和时间。
注:点击左下角“阅读原文”,下载完整版《2022爱分析·数据智能应用实践报告》。