查看原文
其他

合成数据技术+金融的两大关键:隐私保护和数据保真度

隐宝 开放隐私计算 2024-01-09
        


随着金融服务逐渐数字化,大量高价值数据的产生为金融服务的创新带来了巨大潜力,同时也提高了产品和服务的效率和效果。然而,保护用户隐私的需求对数据共享提出了挑战。
目前,监管机构、行业组织和研究机构一直在探索使用合成数据来促进金融服务的安全和创新。合成数据是通过数学模型或算法生成的统计上逼真但又是"人造"的数据,不仅可以以保护隐私的方式实现数据共享,还可以帮助组织克服数据质量问题、模拟新兴场景和保护商业敏感数据,更好地利用其数据能力。
英国金融行为监管局(FCA)、信息专员办公室(ICO)和艾伦·图灵研究所(图灵)都在积极开展合成数据方面的工作:
  • 图灵与多个合作伙伴(包括汇丰银行、伦敦大学医学院、埃森哲和国家统计办公室)合作,致力于开发合成数据在各种应用案例中的新技术。图灵的目标是开发工具、技术和政策,以有效生成合成数据。
  • 图灵的代表参与了皇家学会有关隐私增强技术的工作小组,并且该研究所的成员为皇家学会撰写了合成数据的报告,该报告详细介绍了合成数据生成的用途、技术和措施。
  • ICO鼓励使用隐私增强技术,因为这些技术可以在数据使用中采用数据保护设计和默认方法,从而实现数据共享的经济和社会效益。共享金融数据可能对个人隐私造成严重伤害,因为交易和消费模式可能揭示个人私生活的信息,未经授权访问银行信息可能导致财务损害。ICO已发布有关隐私增强技术的指导文件,提供有关合成数据如何支持数据保护法律合规性和实施考虑事项的更多信息。
  • 2022年3月,金融行为监管局(FCA)通过发布《征求意见》进一步参与了合成数据领域,以收集金融行业和学术界对合成数据在扩大数据访问和推动金融服务创新方面潜力的看法。
为了应对这些挑战并推进创新,FCA、图灵和ICO于2023年3月合作举办了关于验证合成数据的行业和学术圆桌会议。此次活动汇集了金融机构、合成数据供应商、监管机构和学术机构的专家,共同讨论验证合成数据的挑战,并初步探讨潜在解决方案。每位参与者都从其独特的视角和专业知识为对话做出了贡献。
本文概述了圆桌会议的情况,记录了该活动的关键见解,包括隐私保护和保真度验证,以及克服金融服务领域合成数据采用障碍的一些想法。

合成数据的隐私保护

合成数据的隐私保护是合成数据应用面临的主要挑战之一。在使用合成数据时,组织需要确保数据的隐私得到保护,以避免数据泄露和重新识别的风险。为了减少合成数据被重新识别的风险,组织应仅包含满足其特定用例所需的属性,而不包含其他属性。组织需要评估其合成数据集是匿名的还是可识别的。如果合成数据集是可识别的,则需要采取额外的措施来保护数据的隐私。
为了平衡隐私和保真度之间的权衡,组织可以将潜在的用例按所需的保真度和特征分组,并生成多个合成数据集,为每个数据集定义特定的隐私要求。此外,为了符合英国GDPR的规定,组织需要确保在使用个人数据来满足其他用例时,这是与原始目的相容的,他们获得了数据主体的同意,或者他们在法律上有明确的义务或功能。
在合成数据的生成过程中,组织还需要考虑不同形式的合成数据可能会带来不同的识别风险,并选择适当的发布模型来减轻这些风险。组织还可以区分需要处理机密数据与个人数据的用例,并在处理个人数据以生成合成数据时采取更高的隐私风险阈值。如果组织违反个人数据的要求,可能会面临监管罚款、客户赔偿要求、法律费用和声誉损失等风险。因此,组织需要在处理个人数据时采取适当的隐私保护措施,以确保数据的隐私得到保护。
最后,组织需要考虑如何验证合成数据的隐私。为了验证合成数据的隐私,组织可以使用数学方法,如差分隐私,来评估合成数据集的隐私风险。组织还可以使用后生成验证方法来验证生成合成数据集的模型的隐私性。后生成验证方法可以通过评估合成数据集与原始数据集之间的相似性来验证模型的隐私性。通过采取这些措施,组织可以确保合成数据的隐私得到保护,并避免数据泄露和重新识别的风险。

合成数据的保真度

合成数据的保真度是合成数据应用面临的另一个主要挑战。保真度是指合成数据集与原始数据集之间的相似程度。在使用合成数据时,组织需要确保合成数据集的保真度得到保护,以确保合成数据集可以有效地代表原始数据集。
了解特定用例的要求在评估效用和隐私时至关重要。模型的普适性可能是增加合成数据生成器在多个用例中的效用的一种方法,但这可能会导致模型漂移和重新识别的挑战。因此,需要补充数学方法来验证生成合成数据集的模型的后生成验证。
为了提高合成数据集的保真度,组织可以使用不同的技术和方法。例如,组织可以使用广义和狭义的后生成验证方法来评估合成数据集的保真度。广义后生成验证方法可以评估合成数据集与原始数据集之间的相似性,而狭义后生成验证方法可以评估合成数据集在特定任务上的性能。
此外,组织还可以使用其他技术和方法来提高合成数据集的保真度。例如,组织可以使用深度学习技术来生成合成数据集,以提高合成数据集的保真度。组织还可以使用数据增强技术来增加原始数据集的样本数量,并生成更多的合成数据集,以提高合成数据集的保真度。


总结

合成数据在金融服务领域具有巨大的潜力,并且相关机构的积极研究和合作有助于推动其应用和发展。通过充分考虑隐私保护和保真度验证的问题,合成数据可以为金融创新提供安全可靠的数据解决方案,为金融行业带来更高效、更可靠和更具创新性的服务。

本文由“开放隐私计算”翻译整理自《Research Paper: Exploring Synthetic Data Validation – Privacy, Utility and Fidelity》节选,转载请注明来源。

END

热门文章:




隐私计算头条周刊(07.03-07.09)


招募丨社区研究院第一期MPC相关书籍翻译工作启动


案例分享|基于隐私计算的在线内容安全检测


隐私计算在能源行业数字孪生中的应用


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存