联邦学习(Federated Learning, FL)是一种分布式机器学习技术,其目的是在保护数据隐私的同时,利用多个设备上的数据进行模型训练。在联邦学习中,不同设备上的数据不需要直接共享,而是通过在本地训练模型并上传参数的方式,聚合多个设备的模型来得到全局模型。联邦学习可以应用于各种场景,例如医疗、金融和物联网等领域。本文旨在让大家了解Dataphin(DataTrust)隐私计算FL相关策略,主要包括以下内容:功能介绍、安全性加固介绍、benchmark方式和脚本、benchmark性能等,使相关业务方做调研时方便拿到可复现、可对比的性能数据和复现的路径。从而更好地了解Dataphin(DataTrust)隐私计算 FL, 满足业务需求。FL功能介绍
Dataphin(DataTrust)隐私计算FL致力于解决各种场景下的联邦学习问题,在保护用户隐私的情况下,尽可能快而准确的帮助用户搭建联合模型。
Dataphin(DataTrust)隐私计算FL可以使用以下模型结构:- 深度学习(MLP、DeepFM、Wide&Deep)
FL安全加固方案
Dataphin(DataTrust)隐私计算FL可以依据不同的算法,基于场景速度和隐私保护的级别选择不同的隐私保护方法,使用的隐私保护方法主要有以下几种:- 基于差分隐私(DP)的方法:在训练模型过程中,对输入数据添加噪声,以保护数据的隐私。差分隐私可以有效防止数据泄露,但也会影响模型的准确性。
- 基于同态加密(HE)的方法:对输入数据进行加密,通过加密算法对加密数据进行计算,最终得到加密结果并解密得到模型参数。同态加密可以避免数据泄露,但计算复杂度高,会影响模型的性能。
- 基于加密多方计算(MPC)的方法:在保护数据隐私的前提下,允许多个设备之间进行计算,从而实现模型的训练和更新。这种方法可以同时保护数据和模型的隐私,但需要协调多个设备的计算,计算复杂度也较高。
值得一提的是,Dataphin(DataTrust)隐私计算FL提供丰富的组件,用于进行数据隐私保护下的数据分析,使用户在数据安全的前提下,可以分析特征信息,以便进行更细致的调参和剪枝操作。这些数据分析组件也是由安全加固方案来保证安全的。FL benchmark方式
Python:3.8 pip: >= 19.3 OS: CentOS 7CPU/Memory: 最低配置为2C8G,推荐配置为 4C16G(本次测试使用4C16G)。测试数据集:criteo数据集(https://ailab.criteo.com/ressources/)- 数据集介绍:Criteo数据集是一个广告点击率预测的公开数据集,包含了从 Criteo 网络上真实的广告点击日志中提取的匿名用户的数据。该数据集包含了13个整数特征和26个类别特征,其中每个特征都被哈希函数映射到了一个32位的整数值。这个数据集被广泛用于机器学习算法的测试和比较,特别是针对推荐系统和广告点击率预测的算法。
数据维度:数据预处理后,50+50维(旨在提供易于量化比较的维度)单机测试使用:传统方式构建算法(sklearn, pytorch等)联邦测试使用:Dataphin(DataTrust)隐私计算 ver.3.5.0FL benchmark性能
无论在不同的安全制式还是不同的联邦学习算法下,Dataphin(DataTrust)隐私计算 FL都能够达到大规模数据训练的商用标准。我们的benchmark测试了在安全加固的情况下,联邦学习常用算法的性能指标,在有限的资源下(4C16G,70MB/s)都能够满足训练和预测的需求。
- Dataphin(DataTrust)隐私计算联邦学习的部署性能优异。我们通过深度优化安全算法,大幅度优化了半同态算法和mpc算法,从而降低了通信复杂度,满足了联邦学习场景的性能要求;我们在XGBoost算法中联动优化了安全算法和机器学习算法,使得XGBoost可以支持千万量级的数据计算和参数安全交互。
- 和本地学习相比,联邦学习还有提升空间。联邦学习效率比本地学习要低,主要原因是通信开销、不完全数据、安全性和模型复杂度等因素影响。但是我们的团队将在安全算法整合和算子网络优化等方面做更多的工作,以提高联邦学习的性能和体验,帮助客户更好、更安全地利用各方数据。
在数据要素与人工智能快速发展的当下,联邦学习解决了人工智能模型训练中各方数据不可用、隐私泄露等问题,因而应用前景十分广阔。Dataphin(DataTrust)隐私计算FL可用于在海量数据集下的模型训练,实现企业内部及多方企业之间的数据流通联动。例如:在金融科技领域中,可以根据多方数据建立更准确的业务模型,从而实现个性化服务定价、精准人群营销、金融风控、人群建模等;在汽车领域中,实现各车企机构之间、研究中心与交通部门之间的联合,实现更准确的人群线索评级,更高效的充电系统布局,更全面的保险服务等;在医疗领域中,联邦学习可以综合各医院之间的数据,提高医疗影像诊断的准确性,预警病人的身体情况等。上述只是Dataphin(DataTrust)隐私计算 FL应用领域中的一部分,未来将服务更广阔业务场景,助力更多企业实现数据价值释放。
Dataphin(DataTrust)隐私计算,是阿里巴巴内部真实业务场景实践成果的产品化输出,拥有全自研加密算法专利,获得多项权威评测认证,在营销、风控、政务服务等场景都积累下了丰富的实践经验,可为企业提供数据可用不可见的安全流通解决方案,实现数据价值最大化。