当深度学习遇到大数据——TensorFlow on Yarn

From: 李远策 QCon 2019-08-16

编者按

作者介绍：李远策，2013 年加入奇虎 360，先后参与公司 Hadoop、Spark 、深度学习等平台的建设，历经公司 Hadoop 平台高速发展及、Spark 平台从无到大规模实践及深度学习平台的落地。曾主持 SparkSQL 索引、{MPI/TensorFlow/Caffe} on Yarn 等多个项目。

TensorFlow on Yarn 作为一种新定义的计算类型，借助 Yarn 实现资源隔离和作业的管理；增强了 Yarn 对 GPU 资源的管理和调度，能做到以 GPU 卡作为资源申请单元；支持训练数据直接从 HDFS 读取，训练模型保存到 HDFS；兼容原生 TensorFlow 的代码，已有的代码稍作修改即可迁移到 Yarn；性能和训练效果跟原生 TensorFlow 保持一致。

在 QCon 北京站的演讲中，除了向大家介绍了 TensorFlow on Yarn 外，同时也介绍了我们更早设计的 SparkFlow（TenrsorFlow 与 Spark 的结合），以及整合更多计算框架到 Yarn 的思考。

演讲视频

https://v.qq.com/txp/iframe/player.html?vid=f0529b3tham&width=500&height=375&auto=0

幻灯片

往期精彩演讲：

支撑微信平稳应对每分钟百亿级挑战的分布式存储系统

聊聊Google花10年时间建立的完整云端开发工具链

从SVN到Git，百度万人研发团队Git工具链建设的挑战与思考

今日头条Go语言构建日请求千亿级微服务的最佳实践

阿里巴巴AliExpress数百微服务的治理之策

QCon 上海 2017

一年一度的 QCon 上海 2017 大会将于 10 月 17-19 日在上海宝华万豪酒店召开，下面是您可能感兴趣的话题：

《方圆并济：基于 Spark on Angel 的高性能机器学习》

腾讯数据平台部 T4 专家黄明

在人工智能时代，高性能的机器学习有着非常重要的意义。而 Spark 的机器学习，受限于 Driver 的 BroadCast 性能和 RDD 的 Immutable 特性，在面对高维度和复杂的机器学习算法时，会受到诸多的束缚和约束，难以写出高性能而简洁的代码。为此，基于 Angel（腾讯开源的参数服务器框架）的 Spark on Angel，让 Spark 可以高效的基于 PS 模型，开发出高效而简洁的机器学习算法，加快业务发展。

更多信息请点击“阅读原文”关注 QCon 上海 2017。

除此之外，本次大会还邀请到了硅谷人工智能技术，软件性能，架构，互联网金融，前端，运维，移动，安全，创业，微服务，产品，以及团队管理等众多领域的技术专家，来分享他们的技术实践和经验总结，详情请点击阅读原文查看。

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？