查看原文
其他

当深度学习遇到大数据——TensorFlow on Yarn

李远策 QCon 2019-08-16

编者按

作者介绍:李远策,2013 年加入奇虎 360,先后参与公司 Hadoop、Spark 、深度学习等平台的建设,历经公司 Hadoop 平台高速发展及、Spark 平台从无到大规模实践及深度学习平台的落地。曾主持 SparkSQL 索引、{MPI/TensorFlow/Caffe} on Yarn 等多个项目。


TensorFlow on Yarn 作为一种新定义的计算类型,借助 Yarn 实现资源隔离和作业的管理;增强了 Yarn 对 GPU 资源的管理和调度,能做到以 GPU 卡作为资源申请单元;支持训练数据直接从 HDFS 读取,训练模型保存到 HDFS;兼容原生 TensorFlow 的代码,已有的代码稍作修改即可迁移到 Yarn;性能和训练效果跟原生 TensorFlow 保持一致。


在 QCon 北京站的演讲中,除了向大家介绍了 TensorFlow on Yarn 外,同时也介绍了我们更早设计的 SparkFlow(TenrsorFlow 与 Spark 的结合),以及整合更多计算框架到 Yarn 的思考。


演讲视频

https://v.qq.com/txp/iframe/player.html?vid=f0529b3tham&width=500&height=375&auto=0


幻灯片




往期精彩演讲:


支撑微信平稳应对每分钟百亿级挑战的分布式存储系统

聊聊Google花10年时间建立的完整云端开发工具链

从SVN到Git,百度万人研发团队Git工具链建设的挑战与思考

今日头条Go语言构建日请求千亿级微服务的最佳实践

阿里巴巴AliExpress数百微服务的治理之策




QCon 上海 2017


一年一度的 QCon 上海 2017 大会将于 10 月 17-19 日在上海宝华万豪酒店召开,下面是您可能感兴趣的话题:

方圆并济:基于 Spark on Angel 的高性能机器学习

腾讯数据平台部 T4 专家 黄明


在人工智能时代,高性能的机器学习有着非常重要的意义。而 Spark 的机器学习,受限于 Driver 的 BroadCast 性能和 RDD 的 Immutable 特性,在面对高维度和复杂的机器学习算法时,会受到诸多的束缚和约束,难以写出高性能而简洁的代码。为此,基于 Angel(腾讯开源的参数服务器框架)的 Spark on Angel,让 Spark 可以高效的基于 PS 模型,开发出高效而简洁的机器学习算法,加快业务发展。


更多信息请点击“阅读原文”关注 QCon 上海 2017。


除此之外,本次大会还邀请到了硅谷人工智能技术,软件性能,架构,互联网金融,前端,运维,移动,安全,创业,微服务,产品,以及团队管理等众多领域的技术专家,来分享他们的技术实践和经验总结,详情请点击阅读原文查看。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存