查看原文
其他

喜讯!腾讯开源十亿级别模型训练平台:Angel!!

2017-06-17 全球人工智能

>>>合作联系微信:bushyu<<<

文章来源:网络 编辑:lily


近日,腾讯在Github开源了十亿级训练平台Angel:https://github.com/Tencent/angel

腾讯是一家社交平台+数字内容的公司,本质上也是一家大数据公司,每天产生数千亿的收发消息,超过10亿的分享图片,高峰期间百亿的收发红包。每天海量数据流,业务上存在三大痛点:

Angel采用参数服务器架构,支持十亿级别维度的模型训练。采用了多种业界最新技术和腾讯自主研发技术,如SSP(Stale synchronous Parallel)、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高,达到常见开源系统Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。

Angel的整体架构:需要支持GPU深度学习,支持文本、语音、图像等非结构化的数据。

Angel是基于参数服务器的一个架构,整体架构上参考了谷歌的DistBelief。Angel在运算中支持BSP、SSP、ASP三种计算模型,其中SSP是由卡耐基梅隆大学EricXing在Petuum项目中验证的计算模型,能在机器学习的这种特定运算场景下提升缩短收敛时间。Angel支持数据并行及模型并行。

在网络上有原创的尝试,使用了港科大杨强教授的团队做的诸葛弩来做网络调度,ParameterServer优先服务较慢的Worker,当模型较大时,能明显降低等待时间,任务总体耗时下降5%~15%。另外,Angel整体是跑在Gaia(Yarn)平台上面的。主要的模块有3个



Angel已经支持了20多种不同算法,包括SGD、ADMM优化算法等,我们也开放比较简易的编程接口,用户也可以比较方便的编写自定义的算法,实现高效的ps模型。并提供了高效的向量及矩阵运算库(稀疏/稠密),方便了用户自由选择数据、参数的表达形式。在优化算法方面,Angel已实现了SGD、ADMM,并支持Latent DirichletAllocation (LDA)、MatrixFactorization (MF)、LogisticRegression (LR) 、Support Vector Machine(SVM) 等。Angel的几大优势:



Angel的性能项目测试结果

同等数据量下的性能测试。Angel跟其他平台相比,比如Petuum,和spark等,在同等量级下的测试结果,Angel的性能要优于其他平台。比如用Netflix的数据跑的SGD算法,结果可以看上图中的对比。

超大规模数据的训练测试。目前Angel支持了很多腾讯内部的现网业务。举两个例子,比如,在构建用户画像方面,以前都是基于Hadoop和Spark来做,跑一次模型要1天甚至几天,话题只有1k;而在Angel上,20多亿文档、几百万个词,3000亿的token,1个小时就跑完了。以前Spark能跑的,现在Angel快几十倍;以前Spark跑不了的,Angel也能轻松跑出来。

大规模数据集的训练能力。例如腾讯视频的点击预测,同等数据量下,Angel的性能是Spark的44倍以上。用了Angel以后,维度从千万扩展到亿,训练时间从天缩短到半小时,而准确度也有很大的提升。


构建Angel的生态圈:Angel不仅仅是一个只做并行计算的平台,它更是一个生态,我们围绕Angel,建立了一个小生态圈,它支持Spark之上的MLLib,支持上亿的维度的训练;我们也支持更复杂的图计算模型;同时支持Caffe、TensorFlow、Torch等深度学习框架,实现这些框架的多机多卡的应用场景。

腾讯大数据平台来自开源的社区,受益于开源的社区中,所以我们自然而然地希望回馈社区。开源,让开放者和开发者都能受益,创造一个共建共赢的生态圈。在这里,开发者能节约学习和操作的时间,提升开发效率,去花时间想更好的创意,而开放者能受益于社区的力量,更快完善项目,构建一个更好的生态圈。希望能丰富Angel配套生态圈,进一步降低用户使用门槛,促进更多开发人员,包括学校与企业,参与共建Angel开源社区。而通过推动Angel的发展,最终能让更多用户能快速、轻松地建立有大规模计算能力的平台。


热门文章推荐

GoogleBrain:No RNNs,NoCNNs,Just attention!

注意!互联网再无BAT,只剩AT和TMDB!

DBA泪奔了,亚马逊用机器学习自动调优DBMS!

破解“人脸识别神经元”编码,机器产生意识成可能!

最新|周志华教授发布最新版gcforest论文和代码!

马化腾:马云和李彦宏都错了,场景比数据和技术都重要!

最新|谷歌董事长:我可以直接告诉你,互联网很快消失!

斯坦福CS231n:卷积神经网络视觉识别课程讲义

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存