医疗健康行业中个人信息去标识化的技术方案
编者按
在医疗健康行业,共享患者数据对改善和突破医疗技术至关重要,尤其是处在海量数据与人工智能技术的时代。但在利用和共享自然人的医疗健康数据同时,还应重点考量个人信息的安全风险。因此,如何在确保患者个人信息安全的同时实现数据共享和访问成为业界关注的焦点,医疗行业数据充分去识别化的技术方案因而进入了行业相关方的视野。
本文在HealthITAnalytics发布的Exploring Data De-Identification in Healthcare一文的基础上,阐释了医疗行业中数据去识别化技术及其与个人信息保护、人工智能和连接设备运用之间的关系,以探讨医疗健康行业中个人信息保护与数据共享的两全之策。
采取避免患者信息的“二次识别”的控制措施
因此,可以从两个方面去考虑去识别化:一是提取特定信息,避免可以与特定个体相关联的信息,或者串联起来可以识别特定个体;二是如何使用一组数据集的因素组合来追踪特定个体。这不仅仅通过提取特定信息来实现,还通过限制数据集查询到特定个体的方式,防范追踪到特定个体。一个通过关联信息进行识别的例子:
一位亿万富翁在去年接受了针对特定类型癌症的特定治疗,通过与所选择的治疗方案、癌症类型和时间范围等信息的关联,以及在医疗环境之外(例如在社交媒体平台上)获得的健康信息,此患者信息变得可识别。
通过隐私增强技术推进大规模医疗协作
在医疗行业,数据提取在个人信息保护合规方面发挥着重要作用,但不断发展的数据分析技术(如AI技术)为符合合规标准进行数据去识别化时,也带来了新的挑战和机遇。
AI技术有着更强大的信息识别功能,在AI面前,使用传统的去识别化合规定义,会遇到一些问题。例如,由于AI技术比传统分析框架更能够实现高水平的图像重建,AI可以将识别面部的患者头部CT扫描用来重建患者面部特征。因此,从理论上讲,AI技术能够在无需任何其他潜在的可识别信息的情况下,重新识别患者。
解决该问题的关键在于两个方面:第一,如何充分混淆核心数据,无论是通过数学转换、密码转换还是其他方式,从本质上有效地使其在单个数据点上实现数据用户的不可见,或者拦截试图访问该数据的其他人;第二,如何确保所进行的分析操作的核心目的不是识别人群?可在流程中,使用技术方法、合规标准方法,以及手工操作的方法。
人工智能在帮助研究人员深入了解疾病和改进治疗方面有巨大前景,但如果不能广泛访问人群的数据集,医疗协作和研究将受到严重限制,医学研究与治疗的进展可能会停滞。
仅使用传统“混淆或提取个体标识符”的去识别方法,将限制医疗行业的发展。因此,确保数据不被复制到多个数据组中,使个人无法拦截或恶意使用是至关重要的。这就是隐私增强技术 (PET)发挥作用的地方,即在整个数据生命周期中,基于人工智能的技术可帮助用户和组织来保护个人信息。
数据混淆工具包括零知识证明(ZKP)、差分隐私、合成数据,以及匿名化、假名化工具。这些工具通过改变数据来增加隐私保护,增加 "噪音"或删除识别细节。混淆数据可以使保护隐私的机器学习,并允许信息验证(例如,年龄验证)。而不需要披露敏感数据。然而,如果不仔细执行,数据混淆工具可能会泄露信息。例如,在数据分析和补充数据集的帮助下,匿名的数据可以被重新识别出来。
加密的数据处理工具包括同态加密,多方计算包括私有集相交以及可信的执行环境。加密数据处理PET允许数据在使用中加密,从而避免了在处理之前需要对数据进行解密。例如,加密的数据处理工具被广泛部署在冠状病毒追踪应用中。然而,这些工具有局限性。举例来说,它们的计算成本往往很高。
联合和分布式分析允许在数据上执行分析任务,而数据对执行任务的人来说是不可见或不可访问的。例如,在联合学习中,一种技术越来越受到关注,数据在数据源处被预处理。在这种方式下,只有摘要统计结果被传递给执行任务的人。联合学习模型被大规模部署,例如,在移动操作系统上的预测性文本应用中,以避免将敏感的击键数据送回。
数据问责工具包括问责系统、阈值秘密共享和个人数据存储。这些工具的主要目的不是在技术层面上保护个人数据的机密性,因此通常不被视为技术层面的内容。因此,通常不能称为严格意义上的PET。然而,这些工具试图通过让数据主体控制自己的数据来加强隐私和数据保护。并制定和执行何时可以访问数据的规则。大多数工具都处于早期开发阶段,用例集较少且缺乏独立的应用。
PET不仅仅是特定数据标识符的提取,还能限制数据的移动,同时还允许对数据进行分析操作。这将有助于减少风险,在不会危及患者个人信息安全的前提下充分利用数据。当然,PET并不能完全消除风险。因此,还需要通过尽职调查的方式,了解数据运行的算法,并保持数据用户和数据所有者之间的密切沟通。以上技术和方法给数据提供者和患者创造了通过AI驱动的数据去识别化,实现数据访问与数据共享。
更新个人信息保护规则框架,满足复杂连接设备与技术的合规要求
参考资料:
1.Health Insurance Portability and Accountability Act of 1996 (HIPAA),https://www.cdc.gov/phlp/publications/topic/hipaa.html.
2.OECD:Emerging privacy-enhancing technologies,https://www.oecd.org/digital/emerging- privacy-enhancing-technologies-bf121be4-en.htm
END
数据信任与治理社区(TDG Community)是由下一代互联网国家工程中心搭建的数据治理领域专业交流平台,汇聚业内头部企业及高端从业人士,致力于打造开放、活跃、有行业影响力的社群生态。TDG Community is a professional communication platform in the field of data governance operated by CFIEC. TDG Community is committed to bringing leading companies and senior practitioners together, and creating an open, active, and influential community ecology.
前瞻研究
01
专题报告
02
中心动态
03