查看原文
其他

阿里版ChatGPT「通义千问」发布,AI热潮下如何用联邦学习实现大数据的隐私计算?

“你好,我叫通义千问。”4月7日午后,阿里云通过官方微信公众号对旗下的超大规模语言模型进行官宣,并面向企业开始了邀请测试。阿里的通义千问是继百度的文心一言之后,国内第二个面向大众且较为成熟的大语言模型应用。

近几个月,多个大型语言模型包括国外的OpenAI 的 GPT-3,ChatGPT和GPT-4;Anthropic 的 Claude; Google 的 T5,PaLM 和 Bard; Meta 的 LLaMA,国内的文心一言、通义千问等广泛公共部署或开源,在全世界掀起了一股AI浪潮。

巨浪来袭,浪尖上是机会,浪背后可能是危险。本文将探讨面对大数据场景时,如何保护数据隐私,用联邦学习实现大数据的隐私计算。


AI浪潮背后:数据安全与隐私保护

在数字化转型加速背景下,⼈⼯智能(Artificial Intelligence,AI)取得迅猛发展。人工智能的成功建⽴在⼤量的数据基础之上,数据是驱动人工智能技术突飞猛进的关键要素。

AI产品在模型训练、优化以及用户使用过程中涉及对个人数据、商业数据、知识产权等的收集和处理,其背后暗藏着隐私保护、数据保护合规等问题。

随着⼈们安全意识的提高,⽤户开始更加关注他们的隐私信息是否未经⾃⼰许可便被他⼈出于商业或者政治⽬的⽽利⽤,甚⾄滥⽤。如何兼顾高度智能化和高度隐私安全,从而享受AI带来的效率和成本优化,这个问题值得深思。

法规制定者和监管机构逐渐出台相关法律来规范数据的管理和使⽤。欧盟《通⽤数据保护条例》、美国《加利福尼亚州消费者隐私法》、《中华⼈民共和国⽹络安全法》等法律法规相继落地,对数据的收集和处理提出了严格的约束和控制要求。

一般来说数据是由不同组织产⽣并拥有的,传统的⽅法是收集数据并传输⾄⼀个中⼼点,这个中⼼点拥有⾼性能的计算集群并且能够训练和建⽴机器学习模型。但在愈发严格的法律环境下,不同组织间收集和分享数据将会变得越来越困难,进⽽形成各⾃孤⽴的数据孤岛。

数据孤岛的形成,正阻碍着数据的使⽤。⼀种可⾏的⽅法是由每⼀个拥有数据源的组织训练⼀个局部模型,之后让各个组织在各⾃的模型上交流,最终通过模型聚合得到⼀个全局模型。

为了确保⽤户隐私和数据安全,各组织间交换模型信息的过程将会被精⼼地设计,使得任何组织不能够猜测到其他组织的隐私数据信息。

联邦学习(Federated Learning,FL)便采取了这一思想,它为数据安全与合规使用提供了技术方案。


什么是联邦学习?

联邦学习旨在建⽴⼀个基于分布数据集的模型,拥有数据源的组织训练⼀个局部模型,然后各组织的模型之间进行交换,最后通过模型聚合得到⼀个全局模型,且模型性能接近传统方式训练下机器学习模型的一种算法框架。

联邦学习具有以下特征:

1、有两个或以上的联邦学习参与⽅协作构建⼀个共享的机器学习模型,且每⼀个参与⽅都拥有若⼲能够⽤来训练模型的训练数据。

2、模型相关的信息以加密⽅式在各⽅之间进⾏传输和交换,并保证任何⼀个参与⽅都不能推测出其他⽅的原始数据。

3、在模型的训练过程中,每⼀个参与⽅拥有的数据都不会离开该参与⽅。

4、模型的性能要能够充分逼近理想模型的性能即将所有训练数据集中在⼀起训练而来的机器学习模型的性能。

联邦学习包括模型训练和模型推理两个过程。在模型训练的过程中,模型相关的信息(梯度、参数等)能够在各⽅之间交换或以加密形式进⾏交换完成训练,但不交换数据。模型推理即模型应⽤于新的数据实例并得到结果,并通过⼀个公平的价值分配机制来分配协同模型所获得的收益。


联邦学习的架构

根据场景的不同,联邦学习系统根据是否涉及中央协调⽅,从而可以分为客户端-服务器(Client-Server)架构和对等网络(Peer-to-Peer)架构。

客户-服务器架构中,协调⽅是⼀台聚合服务器,其可以将初始模型发送给各参与⽅A~C, A~C分别使⽤各⾃的数据集训练该模型,并将模型权重更新发送到聚合服务器。聚合服务器将从参与⽅处接收到的模型聚合起来,并将聚合后的模型更新发回给参与⽅。

这⼀过程将会重复进⾏直⾄模型收敛或达到最⼤迭代次数。这里参与⽅的数据不会离开⾃⼰,保护了参与方的隐私和数据安全。

对等网络架构中,各⽅⽆须借助协调⽅直接通信,这种体系结构的优点是不需要协调方从而提⾼了安全性,但可能需要多的计算和通信开销。

联邦学习一方面保护了⽤户的隐私和数据安全,另一方面参与⽅协同训练的机器学习模型可能优于⾃⼰训练的模型。但是也面临一些挑战,比如参与⽅和聚合服务器之间的通信链接可能是慢速且不稳定的,这将会使系统变得不稳定且不可预测。还有来⾃不同参与⽅的数据会出现⾮独⽴同分布的情况,这可能导致联邦模型产⽣偏差,甚⾄失败。


联邦学习的应用场景

联邦学习作为隐私计算三大技术路线之一,为解决数据流通过程中的数据安全提供了技术路径,对隐私计算这一新兴技术在重要垂直行业的落地及数据要素市场化的发展起到了重要推进作用。

医疗行业

越来越多的医疗服务提供商开始使⽤人工智能技术,但是⼈⼯智能技术在医疗⾏业的应⽤仍处于起步阶段,其中的一个关键因素就是数据问题,即缺乏大量的、具有丰富特征的、可以⽤来全⾯描述患者症状的数据。

医疗数据与生命健康息息相关,具备复杂性及高度敏感性,强监管属性。目前,医疗数据主要产生并存储于医疗机构及政府平台之中,其处理涉及政府、医院、企业、个人等多个主体。

在该场景下,为实现医疗数据共享与合规、个人隐私保护的平衡,可采用联邦学习将所有的参与⽅协作地训练⼀个共享模型而不交换或公开他们的私有数据。

通过联邦学习的应用,可打破医院、医药公司、第三方服务平台等医疗机构之间的数据孤岛实现数据建模,同时打通医院间的数据孤岛将促进AI医疗落地和发展。

金融行业

金融领域也是人工智能被广泛应用的领域,联邦学习能帮助显著改善风险量化能力、降低整体金融产品价格。如针对小微企业信贷、个人贷款等风险管理场景中征信报告相关数据存在的频次低、数据维度缺失等问题,银行可以针对小微企业引入发票数据,针对个人贷款引入个人消费数据和社交数据等来提高风控能力。

物联网行业

物联网已经渗透到生产生活的各个方面,同时也产生了海量的数据,如何有效利用这些数据是一个很重要的问题,将其收集到云端会可能会带来巨大的传输开销,也会违反数据隐私法规。联邦学习能够使得边缘计算设备在不向云服务器发送数据的情况下协作训练模型。

AI落地应用的速度超乎我们想象,科技巨头纷纷入场,用户体验到了生产力的大幅提升,厂商吸收了一批忠实用户。但是我们知道科技向来都是一把双刃剑,AI的底层“燃料”是数据,特别是最近的大模型,参数都是亿级以上。

数据在生成、采集、存储、传输、使用、销毁的全链路上都存在隐私问题,而隐私计算技术体系中的联邦学习可以实现数据“可用不可见”,助力AI大模型更安全地训练使用。关于联邦学习的更多内容可以在【开放隐私计算】公众号历史文章中搜索关键词“联邦学习”。

END
热门文章:




隐私计算头条周刊(3.27-4.2)


数据最高管理部门——国家数据局成立!


和文心一言聊一聊隐私计算,对比ChatGPT!


隐私计算领域大咖推荐,这些国内外导师值得关注


招标 | 近期隐私计算项目招标中标34(上海农商银行、广州大学、富滇银行、山东大学)

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存