查看原文
其他

重磅|百度宣布PaddlePaddle和Kubernetes 兼容:开发者可更便捷做大规模深度学习训练。

2017-02-11 全球人工智能

社群用户来源包含:麻省理工学院  斯坦福大学  牛津大学 卡内基梅隆大学  剑桥大学  加州大学伯克利分校  苏黎世联邦理工学院  新加坡国立大学  普林斯顿大学  多伦多大学  帝国理工学院  墨尔本大学  香港科技大学  加州大学洛杉矶分校  清华大学  洛桑联邦理工学院  香港大学  爱丁堡大学  东京大学  香港中文大学  北京大学  复旦大学  武汉大学  南开大学  中科院等数百所名牌大学的研究生、博士以及教授NVidia  Facebook  Line  微软  IBM  谷歌  Bosch  Amazon  Tesla Motors  百度  华为  英特尔  腾讯  阿里巴巴  蚂蚁金服  科大讯飞  旷世科技  碳云智能  地平线  软银投资  红杉资本等上千家全球一流AI相关企业的工程师以及技术专家。


百度宣布实现开源软件框架PaddlePaddle和集群管理系统(cluster management system)Kubernetes 的兼容


百度深度学习开源软件框架PaddlePaddle现在能与Kubernetes集群管理系统兼容,这次兼容将使开发者能够便捷地在全球主要云服务以及集群上做大规模深度学习训练。这不仅扩展了Kubernetes的使用范围,也向两个项目提供了端到端(end-to-end)的深度学习机会。




PaddlePaddle框架


PaddlePaddle是百度原创的一款易于使用的深度学习框架。近四年来它应用于百度旗下的多款互联网产品。该框架尤其适合训练循环神经网络(recurrent neural networks),能高效执行自然语言理解、语音识别、和计算视觉等应用。自2016年百度世界大会上,宣布开放百度深度学习平台以来,PaddlePaddle已成为发展最快的深度学习平台之一。


深度学习必须要在给定的数据集上进行训练。在深度学习中,训练过程不仅可能需要大规模的处理器协调工作,而且可能很耗时,如果在整个机器集群中工作,这可能会加速训练过程。百度自主开发的Paddle(PArallel Distributed Deep Learning的缩写)在计算机集群上运行,进行机器翻译和搜索排序等任务的模型训练。目前百度将使用Kubernetes去管理这些集群。




Kubernetes 上运行 PaddlePaddle的优势


百度科学家表示,Kubernetes可以有效简化分布式作业,包括分布式机器学习作业的部署和运维工作,提升研究员和开发者的工作效率。Kubernetes将根据GPU的PaddlePaddle任务与需求内存或磁盘I/O吞吐量等其他不同资源的任务部署在同一个物理计算机之上,从而发挥集群硬件的最大效用。同时Kubernetes还能在活跃用户较多的白天自动启动更多的Web服务进程,而在夜间释放Web服务使用的部分资源来启动更多的PaddlePaddle进程。


百度PaddlePaddle研发项目首席科学家王益指出:“Kubernetes也提供容错功能,在某些特殊情况下,一些工作的容器/进程被被终止,但我们不希望这些工作暂停或崩溃,相反,我们希望它们继续运行,即使速度较慢”


王益还指出,PaddlePaddle用户已经倾向于使用Kubernetes,因此这也激励了百度去思考如何在它上面建立PaddlePaddle,他们希望与Kubernetes社区合作,提供一个完整的解决方案 - 包括集群部署,数据管道构建和人工智能;许多潜在客户,特别是传统行业的客户,有兴趣在自己的内部集群上开展深度学习。




总结


在深度学习中,研究人员越来越重视将训练模型与使用模型分开。训练过程需要高性能CPU和内存在协同工作,但是在相对低端的硬件上部署模型正在变得切实可行。Tensorflow已经在考虑做出相应的应对措施。随着深度学习对计算量的要求越来越高,其训练阶段将变得至关重要,这会促进更强大的、更容易的管理的训练机制产生。


本 Kubernetes 项目的 GitHub:

https://github.com/kubernetes/kubernetes


全球人工智能近期经典文章推荐


重磅|物理学家最新发现:神经网络效率 受限热力学第二定律

干货|不同的损失函数会对深度神经网络带来什么样的影响?

重磅 | 机器学习首次成功预测 金属间化合物缺陷

在你学习AI的路上 该如何提出别人乐于帮助解决的 好问题

分析软件破解神经网络黑盒子 将在"汉诺威"展示

Deep mind:给人工智能一个工作存储器,将会发生什么?

机器学习算法之决策树用法详解(使用Scikit-learn模块)

反向传播的意义及c++实现

匹兹堡赌场的赌神——扑克牌机器人背后的理论

6亿用户的《今日头条》和它的黑科技武器




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存