查看原文
其他

案例丨肿瘤数据协作过程中的隐私保护

Zohar Duchin 开放隐私计算
2024-09-16



在2022年NORD突破性峰会上,FDA(美国食品和药物管理局)局长Robert M. Califf强调了在临床研究中实际世界数据和实际世界证据的重要性,尤其是在罕见疾病和肿瘤领域的合作需求。
实际世界数据是以患者为中心的数据,通常是从向患者提供护理的机构那里收集的,这种数据容易引发隐私挑战,当需要跨境数据合作时,隐私挑战变得更加复杂。
全同态加密(FHE)是一种加密能力,可以通过在不需要中间解密的情况下对加密数据进行计算,从而获得分析结果而无需暴露原始数据。实际应用上,Duality Technologies开发了一个工具集用于使用多方FHE进行协作隐私保护的肿瘤数据分析。
最近,Duality Technologies和特拉维夫索拉斯基医学中心(TASMC)的研究人员和临床肿瘤学家合作,进行了对实际世界肿瘤数据的隐私保护分析。他们应用了这个工具集来分析结肠癌患者生存数据的实际世界数据集,该数据集包括623名患者和24个变量,总计14,952个数据项。
该研究的目标是研究对结肠癌患者进行奥沙利铂治疗对患者生存的影响,包括是否使用大麻。研究人员使用描述性统计和Kaplan-Meier曲线以及log-rank检验对关键的肿瘤终点进行了盲目分析,分别在原始数据和FHE加密数据上进行。然后将结果与精度目标的两位小数进行比较。
该研究包括以下统计分析:癌症发病年龄的平均值、中位数和标准差;性别的频率分析;大麻指标(使用或不使用大麻)与诊断之间的卡方检验,大麻指标与性别之间的卡方检验;大麻指标与发病年龄的t检验。研究人员还进行了Kaplan-Meier和log-rank生存分析,以研究大麻治疗对患者整体生存的影响。
所有精度度量均在预定的两位小数的精度目标范围内。描述性统计的运行时间不到半分钟,而生存分析约为三分钟。需要注意的是,通过统计学家对原始数据集进行的匿名化和统计分析的时间,这是在临床肿瘤学中常用的方法,估计约为10小时,远远高于FHE计算的运行时间。
与达纳·法伯癌症研究所和哈佛医学院的亚历山大·古谢夫教授合作,研究人员还将他们的工具集应用于基于两项肾细胞癌免疫疗法的临床试验数据的先前发表的数据集。
这项联合工作在几个不同方面扩展和显著改进了先前的多方FHE框架:
首先,他们添加了多方可加入协作模型,多方可以以不让数据所有者了解哪些记录匹配的方式为相同记录(例如,个体)贡献数据,然后使用多方FHE对这些联接的数据进行进一步分析;
其次,他们引入了一种新的加密计算方法;
第三,他们扩展了计算列表,提供了用于隐私保护肿瘤数据分析的更通用的工具集。他们的工具集中实施的计算包括平均值、中位数、标准差、频率、卡方检验、t检验、生存分析(Kaplan-Meier曲线和log-rank检验)以及在加密数据上进行的逻辑回归训练。
对于所有计算,与清晰计算相比,都实现了超过5位小数的精度。除了更复杂的生存分析外,所有计算时间都不到半分钟。这些结果意味着使用多方FHE进行隐私保护的描述性统计和生存分析已经在典型的肿瘤数据集上实际可行,以实现隐私增强的协作。
Duality Technologies、TASMC和达纳·法伯癌症研究所的研究人员已经向高水平期刊提交了一份描述此工作结果的论文,将在今年晚些时候公开发布。
作者:Zohar Duchin, Marcelo Blatt, and Yuriy Polyakov
文章来源:https://dualitytech.com/blog/collaborative-analysis-oncological-data/
END

热门文章:




隐私计算头条周刊(10.9-10.15)


笔记分享|组队学习密码学(5)— 密码数学基础:初等数论


隐私计算:数据洁净室的优点和缺点


上海印发区块链技术攻关专项行动三年方案


加入我们丨OpenMPC社区招募实习生

个人观点,仅供参考
继续滑动看下一个
开放隐私计算
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存