其他
95%PyTorch库都会中招的bug!特斯拉AI总监都没能幸免
喜欢就关注我们吧!
英伟达凡尔赛一号玩家黄仁勋来了!他带着自家ARM架构CPU从加速器辅路杀进了CPU三环主路,战火直接烧到了英特尔后院,帕特·基辛格同志要小心了!
今年,「GPU大哥」英伟达居然「不讲武德」,发布一个基于Arm架构的新数据中心CPU Nvidia Grace,它将直接挑战英特尔在服务器和数据中心计算领域的主导地位。
随着英伟达进军CPU领域,且能大大超越Intel和AMD的处理器,英特尔和AMD或将在这一技术领域输掉竞争? 先来看看英伟达的CPU有多强。
这款名为Grace的CPU使用了节能 Arm 核心—— Neoverse,为系统训练大型人工智能模型提供了巨大的性能飞跃。 具体讲,基于Grace的系统与NVIDIA GPU紧密结合,性能将比目前最先进的NVIDIA DGX系统(在x86 CPU上运行)高出10倍。 它能够满足世界上最先进应用的计算需求,包括自然语言处理、推荐系统和人工智能超级计算,这些应用分析需要超快计算性能和大容量内存中的巨大数据集。 Grace还是一款高度专用型处理器,主要面向大型数据密集型HPC和AI应用。新一代NLP模型的训练会有超过一万亿的参数。
这款CPU的基本性能是第四代Nvidia NVLink互连技术,该技术在Grace和Nvidia图形处理单元之间提供每秒900 GB的连接,使总带宽比目前领先的服务器高出30倍。 英伟达表示,新产品将于2023年初上市。
信息来源:新智元
02CPU 比 GPU 训练神经网络快十几倍,英特尔:别用矩阵运算了
神经网络训练通常是 GPU 大显身手的领域,然而莱斯大学和英特尔等机构对 GPU 的地位发起了挑战。
在深度学习与神经网络领域,研究人员通常离不开 GPU。得益于 GPU 极高内存带宽和较多核心数,研究人员可以更快地获得模型训练的结果。与此同时,CPU 受限于自身较少的核心数,计算运行需要较长的时间,因而不适用于深度学习模型以及神经网络的训练。
但近日,莱斯大学、蚂蚁集团和英特尔等机构的研究者发表了一篇论文,表明了在消费级 CPU 上运行的 AI 软件,其训练深度神经网络的速度是 GPU 的 15 倍。这篇论文已被 MLSys 2021 会议接收。
论文链接:https://proceedings.mlsys.org/paper/2021/file/3636638817772e42b59d74cff571fbb3-Paper.pdf
Shrivastava 领导的实验室在 2019 年做到了这一点,将 DNN 训练转换为可以用哈希表解决的搜索问题。他们设计的亚线性深度学习引擎(sub-linear deep learning engine, SLIDE)是专门为运行在消费级 CPU 上而设计的,Shrivastava 和英特尔的合作伙伴在 MLSys 2020 会议上就公布了该技术。他们表示,该技术可以超越基于 GPU 的训练。
信息来源:Python视界
最近,飞桨提出了4D混合并行策略,以训练千亿级稠密参数模型。
近几年,深度学习领域的开发者们对模型效果的追求愈演愈烈,各大榜单纪录不断刷新,而这个现象的背后都有着 “大规模训练” 的身影。在数据和参数规模增长的过程中,常规的单机训练由于硬件资源的限制渐渐显得捉襟见肘,而分布式训练则成为了广大开发者的必然选择。
历经搜索推荐业务磨炼
最成熟万亿稀疏参数模型训练技术一骑绝尘
从传统纯CPU参数服务器
到纯GPU参数服务器
从传统纯GPU参数服务器
到异构参数服务器
定制化 GPU 机型,调整机器内 CPU 与 GPU 的硬件配比。
混布 CPU 和 GPU 机器节点,来调整机器间的硬件配比。
4D 混合并行策略支持
文心ERNIE千亿语言模型训练
写在最后
深度学习去纹身的应用,看起来有不小的应用潜力。
有些时候,我们需要把一些人身上的纹身覆盖掉,以避免引人效仿。有的时候人们只是单纯地好奇,想知道一些大明星如果没有纹身会是什么样子。来自印度的机器学习研究者 Vijish Madhavan 最近开源的一个机器学习工具 SkinDeep 满足了我们的需求。
该项目的作者 Vijish Madhavan 在看完加拿大歌手贾斯汀 · 比伯的 MV《Anyone》后,萌生了做这个项目的计划。贾斯汀 · 比伯在化妆师的帮助下花了好几个小时的时间才把他的一身纹身覆盖掉。
MV 视频的效果非常完美,因为制作视频输出是非常困难的,因此项目作者选择图像来处理。该项目的起点是深度学习能否胜任这项工作,与 photoshop 相比又如何?
项目地址:https://github.com/vijishmadhavan/SkinDeep
与专业图像处理软件 photoshop 相比,效果也不错:
信息来源:机器之心
这到底是不是一个bug?
在Reddit上有人认为:这不是一个bug。虽然这个问题非常常见,但它并不算是一个bug,而是一个在调试时不可以忽略的点。
这不是产生伪随机数的问题,也不是numpy的问题,问题的核心是在于PyTorch中的DataLoader的实现
顺便一提,这提供了Karpathy定律的另一个例子:即使你搞砸了一些非常基本代码,“neural nets want to work”。
信息来源:量子位
2021-04-17
2021-04-18
2021-04-19