谷歌开辟机器学习新方法：“联合学习”协同无数智能手机训练模型

2017-04-07 DeepTech深科技

在人工智能领域，谷歌总是带给人以惊喜。从机器学习的方法诞生至今，如何处理海量的数据一直遵循着一个标准的做法，那就是安排一台大型的服务器或建立一个数据中心来进行的统一的处理。而作为整个行业内的先行者，谷歌自然也毫不例外的建立起了最为强大、安全的云基础设施来处理数据。

但改变总在进行，谷歌丝毫不满足于之前所取得的成就，又从用户的角度着眼，进行了全新的探索。近日，谷歌宣布了一种新的方法：联合学习，就此用户的手机等移动设备也可以参与到数据模型的训练中来了。

联合学习使手机能够协同学习一项公开的预测模型，同时保留设备上的所有训练数据，这意味着在机器学习的过程中，计算能力与数据云存储的需求就此脱钩。同时，这也不同于以往的如运动视觉API和智能回复等使用本地模型进行训练的方法，训练效果也得到明显提升。

它的工作原理是这样的：您的手机等移动设备下载最新的模型，通过从手机上的数据学习来不断改进完善模型，然后将之归纳总结为一个小的更新。在该模型被加密发送至云端之后，其会与其他用户所做出的更新进行平均化处理，最后在越来越多的人的共同“雕琢”下，整个模型会更加趋于完善。在这一过程中，所有训练用的数据都不会被泄露出去，所以用户的隐私和安全将会得到保障。

联合学习流程：（A）设备本地学习（B）众多用户的更新被聚合（C）完成对模型的一轮更新，之后重复该过程

联合学习在确保以更低的延迟和更少的功耗训练更智能的模型的同时，也提升了个人隐私保护。而且这种方法还有另外一个直接的好处：除了提供对开放式模型的更新之外，还可以根据您使用手机的方式为用户提供快速的个性化体验。

谷歌团队目前正在Android系统上使用Google键盘上的 Gboard功能来测试联合学习方法。例如，当Gboard显示一条查询建议时，你的手机会将上下文信息以及你是否点击了这条建议存储在本地。而这个Gboard的查询建议模型会在联合学习过程中不断地迭代改进，使结果越来越“精准”——反映出用户的想法。

为了让联合学习成为可能，工程师们必须克服很多算法及技术上的难题。在传统的机器学习系统中，类似于随机梯度下降（stochastic gradient descent）的算法需要在云端的各个服务器中摄取大量的数据输入，这些高度迭代的算法需要低延迟，高流速的训练数据作撑。但是在联合学习的设定中，这些训练数据被分布在几百万台各式设备中进行运算。另外，这些设备普遍具有高延迟，低流速的特性并且只对训练数据有效。

这些带宽及延迟的限制催生了我们的联合学习算法，和传统的联合SGD算法相比较，我们的算法可以将原有的通讯需求减少到十分之一到百分之一。最主要的创新点是充分利用移动设备中的冗余计算能力去计算那些高价值的更新而不是简单的微分计算。

正因为它可以用较少的迭代循环来生成高质量的模型，训练过程需要的通讯大大减少。同样基于上传速度大大快于下载速度的原因，我们提出了一个新的算法通过随机循环及量化压缩更新从而实现减少上传损耗。虽然这些算法主要集中在训练深度神经网络上，我们同样设计了解决高维零矩阵模型的算法，比如解决评分预测的问题。

在几百万台不同步的运行Gboard( 歌针对iOS设备开发的虚拟键盘)手机上运行这种算法需要一套尖端的科技装备。每台手机上都有一个微缩版的TensorFlow系统。精确的规划使得训练计算只会发生在设备空闲、充电中并且有免费Wi-Fi连接的时候，所以这对用户使用手机没有任何影响。

手机参与联合学习是以保证用户体验为前提

接下来系统需要进行通讯并通过一个安全，高效，可升级，容错率高的方式将模型升级进行整合。只有通过这种结构，联合学习才有可能实现。

联合学习不需要把用户数据储存到云端，但我们不会在这止步。我们已经开发出一套运用加密算法的安全整合协议，只有服务器收到成千上百用户的信息之后才会进行解码，个人的信息是不会被涉及的。

这是全世界第一套兼顾神经网络实用性和现实世界连接限制的算法协议。我们设计了联合平均算法所以中央服务器只需要做平均的更新，这也使得模型的安全整合得以应用，并且协议通用性很强而且可以应用到很多别的问题的解决上。我们正在努力部署这种协议并且期望在不远的将来开始投入使用。

我们现在的工作其实也只是接触到了可能性的表层。联合学习并不能解决所有的机器学习问题( 如识别狗的品种)，并且对于别的模型来说所需要的训练数据已经被储存在云端 ( 比如训练垃圾邮件分类所用到的邮件数据)。

所以谷歌将持续在基于云平台的机器学习领域中进行投入，但同时我们也会继续联合学习的研究以期用它来解决更多的问题。除了Gboard的领域外，我们同样希望基于你的实际键盘输入和对照片的分享删除来改进模型从而增强你的键盘输入法和照片排列顺序。

联合学习需要机器学习研究员采用新的工具和思维模式:模型开发，训练以及无法基于新数据的算法评估(因为获取新数据有通讯限制)。我们相信基于用户能从联合学习中受益的现实，我们目前的努力是值得的，并且我们正在和机器学习研究者们进行广泛的沟通和交流。

MIT Technology Review 中国唯一版权合作方，任何机构及个人未经许可，不得擅自转载及翻译。

分享至朋友圈才是义举

一个魔性的科幻号，据说他们都关注了

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！