字节跳动联邦学习平台Fedlearner:4个月落地开源,投放增效200%+
2016 年,谷歌提出一种被称为「联邦学习」的机器学习框架——在保证数据安全的前提下,通过多方数据共同训练建模,将数据价值最大化。作为机器学习新范式,联邦学习为保证数据安全、打破数据隔离、深入挖掘数据价值提供了新的解决方案,在 B 端服务和优化广告投放、内容推荐等领域发挥着越来越大的效用。
01
联邦学习落地广告领域
我们有独特优势
我们的优势在于,是从做业务驱动出发的,会和广告主紧密配合,比如针对现有的投放有什么问题需要优化,基本上可以提出一对一的解决方案。
当时我们提出了基于神经网络纵向联邦的方案,在今年2月基本完成开发,以 Fedlearner 的商标开源,并申请了软件著作权和专利,构成了之后通用联邦学习方案的基础。
第一个互金客户的 case 中,基于行业特点和客户需求,我们采用了基于 PSI 数据求交和 SecureBoost 加密联邦树模型建模的方案。模型在 6 月上线后,客户反馈成本降低 15%,授信通过率提升 10%。
02
技术转化收入
为客户争取商业价值收益
Fedlearner 在推荐/广告/UserGrowth 等场景下有突出优势,也取得了初步的成果,但这些场景存在严峻的大规模数据和训练效率的挑战。
另外,在 Fedlearner 的架构中双方原始数据不可见,甚至双方可以隐藏各自的神经网络结构,但这也在安全得到极大保障的情况下加大了“可解释、可debug”的难度。
创新机器学习算法和框架,解决模型训练过程中可能发生的泄露用户行为的统计信息等问题;
攻关技术难题:快速部署(物理服务器/私有云/各种公有云等)、易于接入、一站式的通信和训练、一键式的服务能力等,不断降低参与联邦建模的技术门槛;
针对公网环境做了容错优化和通信加密,并通过分布式系统提升数据处理和训练的效率
自研算法并发布专利,提升联邦场景下联邦神经网络学习中的建模能力...
在接入教育行业的时候,团队拜访了 6 个客户,最开始只有其中 1 个愿意接入 Fedlearner,其他都在观望。
我们能做的就是和广告主更深入地分析,甚至拉着他们的技术团队来谈。可能客户的非技术团队并不了解联邦学习,但是技术团队一起沟通就可以理解我们的技术以及数据效果。
从效果出发,拿出 showcase,更多客户就愿意尝试。现在6个客户里已经有 4 家接入 Fedlearner,数据效果反馈都不错。
03
持续优化
应对未来挑战
- 产品完整度高
从部署到上传数据,再到模型训练&调优、在线 serving,以及实验和项目 review,Fedlearner 提供了完整友好的流程体验
- 产品效果佳
目前在与各行业(电商平台、教育、金融等)客户的合作中,Fedlearner 均取得显著正向的效果,客户对于接入产品有信心
Fedlearner 提供了良好的安全保障,以及完整的联邦学习生态,但从“技术基础”到“最终的商业价值增量”之间,还有不小的距离。 字节跳动在机器学习领域的深厚积累,为我们的合作成功提供了坚实的保障。考虑到 Fedlearner 的合作伙伴来自各行各业行业,我们需要和客户一起站在“效果最大化”的第一线,从合作伙伴的角度设计和思考,敏捷迭代快速推进。