其他
【新书速递】深入浅出联邦学习
伴随着算力的提升、算法的进步和数据量的增加,人工智能(AI)迎来了第三次发展浪潮,开始了在各行各业的落地探索。
那么,能否把散落在各地、各机构的数据合并成大数据,这就存在着另一个问题———数据隐私保护。近年来,随着政策法规的逐渐完善和公众隐私保护意识的加强,如何在保护数据隐私的前提下实现行业协作与协同治理,如何破解“数据孤岛”与“数据隐私保护”的两难困境,已成为当下人工智能技术行业应用中亟待解决的问题。
联邦学习(federated learning)作为一种新兴的人工智能技术,可以解决“数据孤岛”和“数据隐私保护”的问题,有望成为下一代人工智能协同算法和协作网络的基础。
各方数据都保留在本地,不泄露隐私,也不违反法规;
多个参与者联合数据建立虚拟的共有模型,实现各自的使用目的,共同获益;
在联邦学习的体系下,各个参与者的身份和地位相同;
联邦学习的建模效果类似于传统深度学习。
2016 年,Google 公司最先提出了“联邦学习”的概念,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
Google 首先将联邦学习运用在 Gboard(Google 键盘)上,联合用户终端设备,利用用户的本地数据训练本地模型,再将训练过程中的模型参数聚合与分发,最终实现了精准预测下一词的目标。
当前,分布式机器学习框架通过集中收集数据,再将数据进行分布式存储,将任务分散到多个 CPU/GPU 机器上进行处理,从而提高计算效率。与之不同的是,联邦学习强调将数据一开始就保存在参与方本地,并且在训练过程中加入隐私保护技术,拥有更好的隐私保护特性。
各参与方的数据一直保存在本地,在建模过程中,各方的数据库依然独立存在,而联合训练时进行的参数交互也是经过加密的,各方通信时采用严格的加密算法,难以泄露原始数据的相关信息。
在大数据与人工智能快速发展的当下,联邦学习解决了人工智能模型训练中各方数据不可用、隐私泄露等问题,因而应用前景十分广阔。联邦学习可用于在海量数据集下的模型训练,实现部门、企业及组织之间的联动。除了分散的本地用户,联邦学习的参与者还可以是多家面临“数据孤岛”困境的企业(它们拥有独立的数据库但不能相互分享)。
1. 联邦学习+智慧金融
近年来,随着大数据、云计算、人工智能、区块链等技术的迅猛发展,以银行为代表的金融行业进行了升级与变革,技术进步推动了银行业由信息化向着智能化方向演进。但是,银行、保险、投资等行业在加速数字化转型的过程中,依然面临着有效数据欠缺与隐私保护安全风险的双重挑战,“联邦学习+智慧金融”将打破各个企业之间的数据壁垒,是企业完成数字化转型的关键。
例如,传统金融机构、互联网金融公司及金融科技公司通过联邦学习计算,补充彼此之间多场景的用户数据信息,以此为基础进行信用画像评分,提高自身的风控能力,最终实现联邦风控和联邦营销。同时,私人商业银行也可以应用联邦学习技术,解决在银行业一直都难以解决的问题——多方贷款检测。参与方在联邦生态中,无须建立中央数据库,通过联合建模就可以获得多维度评估客户贷款情况的能力,从而在保护客户隐私和数据安全的情况下,降低银行的不良贷款率。
2. 联邦学习+智慧医疗
在智慧医疗方向,联邦学习同样有着巨大的潜力和市场。例如,医学影像 AI 识别能够帮助医生提高对病患部位定位、病灶诊断的准确率。然而,识别效果的提升需要大量数据来训练模型,这些数据往往是受到严格保护的患者隐私数据,而且各医疗机构间也难以实现数据共享。而联邦学习在不共享患者数据的情况下联合多个机构进行协作,从根本上解决数据流通和模型训练的问题。
图|基于联邦学习的医疗影像诊断体系示意图
(来源:《深入浅出联邦学习:原理与实践》)
此外,联邦学习在疾病风险预测、药物挖掘、医护资源配置等方面,同样具有重要作用。
3. 联邦学习+物联网
同样在物联网方面,联邦学习在车联网、智能家居、可穿戴设备、机器人等方向也有着巨大的应用潜力。
近些年来,物联网与云技术、边缘计算、人工智能等技术结合,对实际应用问题进行分析和处理,如对设备进行智能化识别、定位、监控及管理等,而这些都涉及在一个安全、合法的环境下进行大量数据传输。虽然人工智能等技术已经能够突破算力上的限制,但物联网依然面临着一些与数据安全紧密相关的问题,比如由于竞争关系、隐私安全、审批流程等因素,数据在不同物联网节点之间的流通存在难以打破的壁垒,形成了“数据孤岛”问题,即便不同行业之间有意愿交换数据,也可能面临法规限制、竞争保护等诸多无法回避的问题。
比如智能家居方向存在的数据异构、用户隐私安全等挑战,结合联邦学习技术的解决方案就是打破企业间数据壁垒的有效途径之一。而此前据 Strategy Analytics 公司预测,2023 年全球智能家居的市场规模将达 1550 亿美元,这是一个巨大的市场。
另外,可穿戴设备作为当前物联网产业中最大的消费类产品类型,尽管已经为广大用户的日常生活带来了极大便利,但随着用户逐渐意识到保护数据隐私安全的重要性,医疗机构、相关厂商对用户共享数据的获取变得愈发困难,各机构间也存在数据壁垒。
基于联邦学习技术的解决方案,可以很好的解决这些问题。例如,在设备中收到服务器下发的初始模型梯度进行学习,本地待训练模型以此更新初始模型的梯度,更新完成后,将学习模型梯度上传至服务器进行聚合(个人的健康数据 不上传),当检测到本地待训练模型处于未收敛状态时,服务器将新的聚合模型梯度返回各本地端,继续迭代,直到检测到待训练模型处于收敛状态,结束训练。
图|健康风险预测模型流程图
(来源:《深入浅出联邦学习:原理与实践》)
采用本方案可更精确地预测用户健康状态,在睡眠、饮食等方面给用户提供合理的健康指导意见,当用户的某一项指标超过阈值时,可以给出用户患有某类疾病可能性的提示,提醒用户尽快就医。
同时,联邦学习技术还可以基于用户的健康风险预测模型,与各医院数据库进行多维度的联邦迁移学习。当用户在就医时,将本地模型的疾病预测结果与医疗检测结果相结合,为医生推荐合适的诊断方案,帮助医生做出更加科学的医疗诊断。不同用户的健康疾病预测结果也可以间接为医院提供高质量的辅助参考医学数据,使医院各类疾病预测模型的参数得以优化。
联邦学习在各行各业的应用案例还有很多,由于篇幅原因,不再一一赘述。相信在不久的将来,联邦学习会帮助我们打破各领域、各行业的数据壁垒,让人工智能的红利散落到社会的方方面面。
该书从基础、原理、实战、拓展四个维度系统讲解了联邦学习,作者是人工智能领域的资深专家,现任某大型金融集团科技公司联邦学习团队负责人。本书不仅得到了中外院士的联合推荐,而且得到了来自清华大学、华中科技大学、百度、蚂蚁集团、同盾科技等学术界和企业界专家的一致推荐。其中,百度大数据技术委员会主席杨胜文对本书评价道:
“随着数据孤岛、合规监管和隐私泄露问题日益凸显,各企业间的数据流通与合作变得尤为困难,隐私保护问题已经被推上风口浪尖,而联邦学习正是弥合信任鸿沟、确保隐私安全的关键所在。本书阶梯式、全方位地讲解了联邦学习,既通俗易懂的基础概念,又涵盖深入本质的的技术原理,是一本面向广大读者、具有启蒙和科普性质的联邦学习读物。”
扫码关注【华章计算机】视频号
每天来听华章哥讲书
更多精彩回顾
书讯 | 6月书讯 | 初夏,正好读新书书单 | 8本书助你零基础转行数据分析岗干货 | 鸿蒙OS2面世,一本书了解“现代操作系统”!收藏 | 终于有人把Scrapy爬虫框架讲明白了上新 | 河马书来了!线上实验领域的“圣经”火热预售中