壁仞科技研究院

其他

AI for Science: 面向电磁仿真的循环卷积神经网络

摘要清华大学和壁仞科技研究院合作研究了一种模拟电磁波空间传播的循环卷积神经网络模型(RCNN)。该网络等价于电磁场时域有限差分算法(FDTD)。其中RCNN的卷积核可以描述有限差分算子,循环神经网络为时间推进方案提供了一种传播模拟框架。网络权重由FDTD直接定义,无需训练,可以严格解决给定结构的电磁问题。研究将FDTD在人工神经网络
2022年7月18日
其他

向外借力:Pluto助力MLIR编译器的多面体优化

摘要多面体编译是一项成熟的编译优化技术,演进了几十年,在传统的编译器中常作为一种优化工具使用,比如LLVM中使用的Polly,在GCC中使用的GRAPHITE。近些年来,多面体技术也引入到AI编译器中,进行循环优化及算子融合优化等。本文将关注在MLIR中以类插件的形式引入多面体优化技术,补充其多面体优化能力。多面体模型的介绍多面体模型(Polyhedral)主要关注的是程序设计中的循环优化问题,两层循环的循环变量的取值范围可以构成一个平面,三层循环的循环变量可以组成一个长方体,如图1所示,因此得名多面体模型。图1
2022年6月20日
其他

高阶优化器:深度学习加速的利器

摘要深度学习的训练往往极度依赖优化器的选择,从而获取最佳的模型参数来进行相关任务的预测。随着深度学习的高速发展,尤其是一阶优化器SGD的成功,使得越来越多的研究者对高阶优化器产生了兴趣。本文将介绍最基本SGD,以及具有自适应学习率的Adam优化器,再到拟二阶的L-BFGS和K-Fac优化器,最后介绍具有实际应用价值的二阶优化器AdaHessian,其可在大型推荐系统场景下比目前MLPerf打榜的AdaGrad优化器在一些数据集上拥有更快的收敛速度和更高的测试精度。引言目前大部分的深度学习方法都依赖于目标损失函数的构建。例如在图像分类任务中,一个损失函数通常包含神经网络输出与真实标签,它衡量了神经网络输出与真实标签之间的差距。因此,当神经网络与目标而神经网络的输出相似时,损失函数则接近于零。然而,未经过训练的神经网络输出与真实标签往往差距巨大。神经网络的输出可以通过调整网络参数来改变,因此我们需要一套能调整网络参数使得损失函数最小化的方案,而这套流程则通常称之为网络训练。如何实施神经网络的训练则是由优化器算法来描述。优化器算法的选择是受到不同任务、不同神经网络以及不同的软硬件架构的影响。一个合适的优化器算法可以在相对短的时间内收敛到一个数值接近于零的损失函数。然而在现实中,优化过程中往往会遇到许多难题。首先,某些优化器对应的一些问题无法让损失函数曲线下降甚至导致发散,原因可能是问题结构本身并不适合一些特定的优化器算法,或者是优化器超参数例如学习率设置过高等等。其次,优化的代价过高,在大规模模型上无法实现,需要使用稀疏和分布式算法来降低内存需求。又或者优化器无法在短时间内收敛,需要使用更复杂的优化器算法来加速收敛,然而通常这些方法会额外增加计算负担,因此需要一些特殊技巧来保证优化器算法在精度和效率中得到平衡。神经网络训练几乎是深度学习任务中最为关键一步,因为尚未训练好的网络几乎无法做出有效预测(如同抛硬币般随机的预测)。因此,随着深度学习方法的高速发展,业界与学术界也加大了对注优化器算法的关注力度,诞生了越来越多的改进算法。梯度下降法(一阶)在深度学习领域中,由于网络规模庞大,可调参数往往是百万、千万、上亿甚至更多。因此许多深度学习任务仍会倾向使用简洁高效计算量小的优化算法。最经典的莫过于随机梯度下降(SGD)。SGD的主要思想比较直观:不断地往梯度最陡的方向前进,持续迭代直至最终走到谷底。我们可以用数学公式来表示梯度的迭代算法
2022年6月6日
其他

“Hello, world!”,说出口没那么容易(续)

摘要文字转语音技术是现今重要的应用研究领域,它涉及语言学、声学、数字信号处理等多门科学技术,是一项复杂的系统性工程。人工智能的发展使得我们可以简化其中的很多步骤并取得更好的合成效果。我们这次将讨论利用人工智能进行语音合成中的几种流行的神经网络模型,分析它们的异同之处及发展趋势。端到端的语音合成模型上次谈到在数字时代我们用波形文件也就是在时间横轴上密集排列的数据点来记录声音,而纵轴坐标是每个时间点上的振动幅度也就是声音强度。现如今我们对于声音已经远远不是记录这么简单,在随处可见的场景中,我们和设备的交流已经可以通过声音完成,就像人与人之间的交流一样简单自然。如何让设备产生尽量自然的语音,人们历经了很多探索。传统的文本转语音(Text
2022年5月23日
其他

由简入繁探究机器视觉中的数据增强(上)

摘要深度学习在图像分类、分割及识别任务上取得了显著的成果,但其严重依赖大规模数据集来防止网络过拟合。针对该问题,一个研究趋势是通过图像数据增强提高训练样本的数量和多样性。本文将列举图像数据增强方法大致两大类,从传统图像增强到前沿图像增强来介绍各种方法理论,并分析该方法的优劣势。因整体篇幅较长,此次研究分为两部分。本篇为第一部分,主要研究和分析传统图像数据增强方法。在后续的第二部分中,将继续对前沿图像增强方法展开分析,总结神经网络中的图像数据增强方法的同时,讨论目前面临的挑战及未来可研究的技术方向。引言深度学习在多领域百花齐放,并取得了显著的进步,诸如计算机视觉(CV),推荐系统(RS)及自然语言处理等等。这些领域的发展受以下三个方面的影响:深度网络结构、算力以及数据集大小。首先,网络结构的规模通常与其泛化能力成正比。其次,随着大算力的支持,网络结构可以变得更深、更广。最后,如Imagenet[1]、COCO[2]、PASCAL
2022年5月9日
其他

Kubric:高效地合成视觉数据集

摘要随着机器学习的发展,数据集的重要性越来越凸显。然而收集大量带标注的图像或者视频数据成本高昂。而使用合成的数据集则成本低,收集方便,且由于标注信息准确,高度可控,从而使得其成为一种训练大规模深度学习模型的有效手段。本文将围绕计算机视觉数据集的合成问题,介绍近期出现的三维视觉数据集的合成工具Kubric,并展示其在深度学习如NeRF模型评估等任务的应用案例。引言数据集的重要性伴随着监督学习的发展越来越凸显。为了训练大规模的机器学习或者深度学习模型,尤其是计算机视觉相关的任务,往往需要大量的标注数据。然而,收集大量图像或者视频数据,并手工地去标注,成本非常高昂。一方面,标注的质量存在一些偏差,例如图像的边界不容易分割;另一方面,手工标注大量的视频几乎是一件费时费力的任务,例如标注视频的光流信息、物体的深度信息。通过合成虚拟的数据,来生成计算机视觉数据集是一种有效的解决方案。可以事先创建好一个三维场景,根据不同的需求,最终由渲染引擎将场景渲染出来。由于三维场景是预先建模的,所以整个虚拟场景的信息是完全已知的,于是输出标注信息就会变得非常容易。例如想要知道两个对象之间的空间位置关系,可以从场景数据信息中直接读取。而如果需要知道某个像素来自于哪个对象,可以从渲染信息得到。如果需要获得一个新视角的图像也很容易,只要调整虚拟摄像机的角度就可以重新渲染出一幅新的图像。可以设想自动驾驶的场景,为了训练自动驾驶模型,通常需要大规模的视频图像数据集。而在人工构建的虚拟驾驶场景下,场景中的车辆、行人、信号灯等都可以任意的控制,并调取其内部信息,从而可以自由地生成多种不同天气和照明状况的数据,并附带着丰富的标注信息。总的来说,相比于人工标注的数据集,合成数据具有很多优点。它成本更低,收集更加方便,标注信息更加准确,并且具有高度可控性,能够生成丰富的数据集。它不仅可以生成在现实场景中难以获取的数据信息,还可以避免现实场景下的安全性、隐私性等问题。针对合成数据的工作已有很多,读者可以参考相关专著
2022年5月2日
其他

推荐场景训练加速:大规模混合分布式系统

摘要当前深度学习模型,已经被广泛采用在推荐系统领域中。为了获取更好的精度,模型以及数据集的规模也越来越大,这些使得分布式训练系统面临着越来越大的挑战。而这其中最大的挑战来自于处理非常大非均匀的训练任务:一方面,模型的嵌入层包含了大部分的模型参数,训练时其运算特征是访存密集型;另一方面,模型的神经网络层,其运算特征则主要是计算密集型。为了解决这一类不均匀任务带来的挑战,一些混合式的分布式训练系统被提出,本文主要对这类混合系统做简要的分析。推荐场景深度学习模型的介绍推荐系统是互联网服务中的一个非常重要的部分,其任务包含:CTR(Click-Through
2022年4月25日
其他

比大更大:Pathways上实现的大语言模型PaLM

摘要不久前Google推出了多模态AI构架Pathways[1],试图一次性处理文本、图像、语音等多种形式信息,同时以更稀疏、高效的方式表达模型,以达到更敏锐、更准确的效果。从实现上来看,Pathways采用了控制平面并行执行的异步分布式数据流设计,更容易表达复杂的新并行模式。上周Google又推出了基于Pathways训练的第一个大模型PaLM[2],该模型含有5400亿参数,1-shot的训练结果在新数据集BIG-bench上达到人类平均水平。与现有NLP大模型相比,PaLM从多个角度对模型进行优化。本文深入剖析PaLM模型,旨在探讨新型AI框架下的大模型训练。分布式框架PathwaysPathways的很多重要思想来源于现有系统,包括用于表达和执行TPU计算的XLA、用于表征和执行分布式CPU计算的TensorFlow图和执行器、基于Python编程框架的JAX以及TensorFlow
2022年4月18日
其他

应对大规模训练中的通信挑战:压缩及调度

摘要随着各个领域数据的不断积累和规范化,越来越多的研究者开始着手解决更大规模的问题,不可避免地会提出或使用更多大规模的模型,分布式训练几乎成为了一个必选项。分布式系统面临的一大挑战是通信问题,特别是对于AI训练任务,使用的是高算力的设备,如果互联是低速的,那么多台设备组成的分布式系统性能甚至会低于单台设备。随着越来越多的大规模训练需求的产生,如何更好地应对分布式训练系统的通信问题已成为研究热点。我们在之前的文章中介绍了分布式训练中的通信问题,并从减少用于同步的通信和采用更利于通信的拓扑结构两个方面介绍了应对大规模训练中通信问题的方法。本文首先回顾分布式训练中的通信问题,然后进一步介绍对通信数据进行压缩以减少通信数据量,以及通过调度来使通信过程和计算过程尽量并行的相关技术。分布式训练中的通信问题我们首先回顾一下模型训练的主要流程。模型训练的典型工作流如图1,一次迭代的主要步骤为1)采样小批次数据(mini-batch);2)读入数据,进行前向过程(Feed-Forward),计算目标函数的损失值;3)进行反向过程(Backward
2022年4月11日
其他

卷上加“卷”:特殊卷积的实现

摘要卷积是现代机器学习算法中最常用的算子,是许多主流AI模型的基础构件。为了更好的适用于不同场景,常规卷积也发展出了各类变形。本文讨论了各种不同卷积的实现,分析了各自特点。随着深度学习研究的深入和应用的拓展,相信会有更多高性能的算子会被发明出来。简介卷积是现代机器学习算法中最常用的算子。从信号处理的角度来看,它分析的是输入信号经过线性移不变系统后的输出。卷积包括三个要素:输入x,输出y和移不变系统f。移不变系统的表达一般以卷积核来代替。在深度学习等领域,卷积操作以离散形式表达。以二维信号卷积为例。若多通道输入为x(n,m,c),卷积核
2022年4月4日
其他

用于推荐系统的近存处理器设计

摘要在最新的ISSCC2022会议上,阿里巴巴和紫光国芯发表了一个184QPS/W(INT8精度,QPS/W每秒每瓦特查询),64Mb/mm2用于推荐系统的近存处理器设计[1]。整个系统包含了一个25nm工作在300Mhz
2022年3月28日
其他

万物皆可嵌入--embedding在GPU中的实现

摘要Embedding技术自从谷歌推出word2vec的工作后得到迅速的应用,典型应用之一是在广告推荐场景中,从word2vec演进到item2vec,embedding技术的出现也使深度学习进入广告推荐的场景成为可能。广告推荐模型动辄几十GB甚至TB的模型大小,高效地进行embedding
2022年3月21日
其他

比你更懂你 — 神经网络与推荐系统的深度结合

摘要推荐系统的主要任务是推荐用户感兴趣的内容,通过揣摩人心来预测用户未来的行为。显然,一个好的推荐系统所能带来的价值是无比巨大的。特别是在近几年,它所带来的商业价值是显而易见的。我们将介绍近期深度学习在推荐系统领域上的发展以及它们的主要原理。在此文中我们将着重关注特征交叉,因为这是所有推荐系统能否成功预测用户行为的关键。引言推荐系统在互联网领域例如广告或视频推荐、线上购物等业务中拥有着巨大的商业价值。一个好的推荐系统能根据用户、商品等相关的特征精准快速地预判用户的下一步行为,从而提供最相关联的商品或服务,进而带来更多的收益。点击率是其中一个衡量收益的关键,其定义为(CTR=点击次数/商品出现次数×100%),它是衡量一个商品(例如一则广告页面)与某个用户的关联度指标,且通常还会乘以该商品所带来的收益/费用得到点击成本(CPC),因此推荐系统的终极目标是达成CTR或者CPC的最大化。在深度学习崛起的早期,主流的推荐系统仍是相对简单的模型,例如基于logistic
2022年3月14日
自由知乎 自由微博
其他

“Hello, world!”,说出口没那么容易

摘要文字转语音技术是现今重要的应用研究领域,它涉及语言学、声学、数字信号处理等多门科学技术,是一项复杂的系统性工程。人工智能的发展使得我们可以简化其中的很多步骤并取得更好的合成效果。我们将分次讨论利用人工智能进行语音合成中的涉及基本概念和一些优秀模型,这里的第一篇主要涉及音频或语音在数字时代的处理模式与以此模式对应的合成它的关键所需——声码器。数字时代音频及其合成声音是能量在空气中传播的结果,当我们听到“Hello,
2022年3月7日
其他

融合图像文字输入的Transformer:ViT-BERT

摘要Transformer是一种基于自注意力机制的深度神经网络,于2017年横空出世。近年来,不同应用领域的Transformer模型,在模型结构和学习方法方面已逐渐趋同于非常相似的范式:以预训练-微调的方式进行训练。基于Transformer的模型通常在大型图像数据集上进行预训练,然后根据特定任务(如NLP的情感分析、计算机视觉的图像分类、目标检测和图像分割等下游任务)进行微调,就能快速实现SOTA的性能,大大提高了模型训练效率。在此基础上,Google与UCLA联合提出了基于Transformer的多模态模型ViT-BERT,将Bert和ViT的表征能力蒸馏到一个模型,使得该模型能同时表征文本和图像特征,大量实验证明这种统一模型的有效性。本文深入分析和探讨这种新型的多模态表征及训练等方法。ViT-BERT特定模态token生成器ViT-BERT模型[2]只考虑图像和文本两种输入方式。于视觉任务,受到Vision
2022年2月28日
其他

NeRF方法中的相机参数求解

摘要近期基于神经辐射场(NeRF)方法的场景表征与渲染吸引了大量的研究。然而为了训练出神经辐射场,往往需要提前获取相机的内外参数。因此在实际情况中,NeRF的应用将变为两阶段过程,第一阶段需要计算出相机参数,第二阶段才是NeRF的训练。因此通过端到端的方式在训练NeRF的同时直接学习出相机参数就成了热点话题。本文将沿着相机参数的求解问题介绍近期NeRF方法在这一方面的改进。引言近期流行的神经渲染方法结合了经典的图形学和深度学习方法,使得产生具有真实感的影像变得更为便捷。其中基于神经辐射场方法(NeRF)的场景表征与渲染无疑是近两年来视觉计算领域的热点工作之一,吸引了大量的相关研究。之前的公众号曾有多篇文章介绍该领域的相关工作。然而在原始的NeRF方法中,相机参数往往需要提前给定。通常,获取相机参数的方法可以分为两类,一类是直接通过物理手段测量出相机参数,另一类方法则是通过特征匹配如SfM(Structure
2022年2月21日
其他

AI框架里的并行技术

摘要近些年来,为了取得更高的精度及更广泛的通用性,AI的深度学习网络及数据集的规模越来越大,这导致了AI计算的任务(主要是训练)也越来越重。在实际的操作中,这些规模庞大的计算任务,不可能在单个硬件节点上完成,而需要由许多计算节点组成的分布式计算集群完成。如何完成计算任务在多节点上的分摊,以及节点之间的信息交互及同步,对于分布式计算集群的性能起到至关重要的作用,而这些都是由AI框架提供支持。本文将结合常见的AI框架,分析其中的并行技术,以及一些优化的方向及策略。分布式AI并行策略分布式的AI集群实现计算加速的最重要一方面是采用并行化的计算策略。目前,AI框架常采用的并行策略包括:数据并行,模型并行,流水线并行等。在部署的过程中,需要根据不同的AI模型,及硬件资源,采用不同或者混合的并行策略,以达到最佳的加速比。数据并行图1
2022年2月14日
其他

机器视觉中的因果推断

摘要深度学习在图像分类、自然语言处理、自动驾驶等不同领域都取得了出色表现,但这些模型仍然面临着很多重大挑战和问题。由于深度学习只是从数据中捕捉简单的关联关系而缺乏因果性,造成模型产生错误的预测结果。比如,在进行图像分割时,由于图像中非目标物体、背景等混淆因子的存在,可能会产生像素与目标物体之间的伪相关关系。因此,如何让深度学习模型避免这种伪相关以提高模型的普适性和鲁棒性是一个重要的研究方向。结构因果图是表达系统相互关联因子的数学模型,也是描述数据产生机制的有利工具。本文旨在探讨结构因果模型在深度学习的最新应用研究,并以文[4]的图像分类为例深入分析结构因果模型在深度学习中的具体实现思路。基于结构因果图的图像生成结构因果图是用于描述系统因果机制的概念模型,通过提供清晰的规则来决定系统决策所需要考虑的相关因素,有助于从统计数据中推断因果关系,常常以概率形式描述关系。Judea
2022年2月7日
其他

应对大规模训练中的通信挑战:同步与拓扑

摘要随着各个领域数据的不断积累和规范化,越来越多的研究者开始着手解决更大规模的问题,不可避免地会提出或使用更多大规模的模型,分布式训练几乎成为了一个必选项。分布式系统面临的一大挑战是通信问题,特别是对于AI训练任务,使用的是高算力的设备,如果互联是低速的,那么多台设备组成的分布式系统性能甚至会低于单台设备。随着越来越多的大规模训练需求的产生,如何更好地应对分布式训练系统的通信问题已成为研究热点。本文首先介绍分布式训练中的通信问题,然后从减少用于同步的通信和采用更利于通信的拓扑结构两个方面介绍应对大规模训练中通信问题的方法。背景OpenAI在2018年的分析报告[1]中就已提出最大的AI训练任务所需算力每3.4个月翻一番的趋势,从2012年到2018年,人们对于算力需求的增长超过了300,000倍。充足的算力支持可以大大缩短AI研究的进程,比如BERT在16个TPUv3上的预训练时间为81.4个小时,约3天,而在1024个TPUv3上预训练时间可以缩短到76分钟[9]。另一方面,从图1展示的大模型参数量变化趋势可以看出,AI训练任务对存储容量的需求也呈指数增长。此外,随着计算机视觉、自然语言处理、自动驾驶、生物医学等各个领域数据的不断积累和规范化,越来越多的研究者开始着手解决更大规模的问题,不可避免地会提出或使用更多大规模的模型,分布式训练几乎成为了一个必选项。图1
2022年1月24日
其他

众包训练:另类的分布式异构深度模型训练方法

摘要众包技术被广泛应用于互联网和计算机产业。事实上,深度学习技术的发展也得益于众包技术的应用。许多用于机器视觉训练的数据集都是以众包的方式来完成数据标记的。大的互联网厂商都提供了各自的数据众包平台。近年来以transformer等为代表的深度模型在性能提升的同时,其自身规模也变得越来越大。我们常常需要大规模GPU集群才能进行模型训练,而完成一次训练需要的成本也变得越来越高昂。很自然地,人们会想到可否能充分利用互联网上闲置的海量个体显卡的计算能力来众包完成大模型的训练。引言众包是互联网时代发展出来的一种任务工作模式。它是一种多人参与的在线活动,发起者利用网络互联将传统由特定机构完成的任务以公开征集的方式分布式地外包给非特定个体来完成。众包技术被广泛应用于互联网和计算机产业。事实上,深度学习技术的发展也得益于众包技术的应用。许多用于机器视觉训练的数据集都是以众包的方式来完成数据标记的。大的互联网厂商都提供了各自的数据众包平台。近年来以transformer等为代表的深度模型在性能提升的同时,其自身规模也变得越来越大。我们常常需要大规模GPU集群才能进行模型训练,而完成一次训练需要的成本也变得越来越高昂。很自然地,人们会想到可否能充分利用互联网上闲置的海量个体显卡的计算能力来众包完成大模型的训练。众包计算与众包训练事实上众包计算并不是一个新的概念。科学社区很早就利用互联网中广泛分布的电脑、手机和其它个人设备的闲置算力来共同解决科学计算的问题。一个著名的项目是folding@home,通过众包计算进行蛋白质分析等生物计算任务,包括对Covid-19病毒结构分析。通过整合网络上各种计算资源,其峰值算力甚至能超过2.5ExaFLOPS,比Top10超算的总算力还高[1]。不同于一般的数值计算任务,深度学习中大模型训练对计算资源的稳定性和数据连通性有很高的要求,训练过程中涉及大量中间参数的同步更新。众包计算环境中,不同设备可用时间不同,计算、存储规模各异,甚至各设备的数据带宽也不能保证。因此很难简单地复用以往科学计算中的经验来实现众包式大模型训练任务。众包训练和当前流行的联邦学习尽管形式类似,但二者出发点不同[3]。众包训练是为了分享参与训练节点的计算与存储资源,而联邦学习是为了分享用于提升模型性能的优化信息,参与的节点不互通且各自的数据和模型是加密的。相应的,二者在实现策略上有着很大区别,本文不再赘述。本质上,众包训练可以看作是一种分布式异构并行训练方法。训练任务以数据并行、模型的tensor和流水并行等方式[2],将不同部分分配到不同设备,计算结果同步后再更新参数。然而,众包训练中设备和连接性能差异巨大,很难按照常规计算集群的组织方式实现深度模型的训练任务。因此,众包训练需要考虑异构不稳定连接条件下的数据与任务交互,通过合理分布数据和学习策略实现异构的混合训练。众包训练的任务分发众包情况下各设备计算速度和连通情况均不一致,能处理的数据量也各不相同。我们需要采取一定方法来平衡任务负载。DeDLOC[3]采用了超大batch更新策略。一个batch被切分为多个microbatch。不同的计算设备会处理不同的microbatch。其处理的数量根据其计算速度而不同。计算中各节点设备可能存在如下情况:图1
2022年1月17日
其他

稀疏张量算子的硬件加速

如果张量A是稀疏的,则记为SpTTM。更多的稀疏张量算子,例如CONV(卷积,大家都很熟悉,一般可展开成GEMM),SDDMM(稀疏采样的密集矩阵乘法,多见于Sparse
2022年1月10日
其他

MLIR编译框架下软硬协同设计的思考

摘要自从AI芯片成为热门的研究课题,众多关于AI芯片架构探索的学术文章不断涌现,大家从不同的角度对AI芯片进行架构分析及性能优化。MLIR是谷歌团队推出的开源编译器框架,颇受瞩目,灵活的编译器架构提升了其在众多领域应用的潜力。通过自定义IR的衔接,可以在架构探索和MLIR之间架起一座桥梁,在编译的过程中,自动进行硬件架构的探索和软件的优化编译,甚至生成硬件的代码,实现软硬协同设计。架构探索方法的介绍近十年,AI领域专用芯片的演进极大地促进了架构探索(指架构定义及性能分析)的发展,先后出现了众多的分析方法,这些分析方法针对AI计算过程中关键算子以及网络模型进行建模分析,从PPA(Power-Performance-Area)三个角度评估硬件性能。与此同时,伴随着AI编译框架的发展,尤其受益于MLIR编译器框架的可复用及可扩展性(详见MLIR多层编译框架实现全同态加密的讨论),将这些分析方法融入到MLIR框架中也变得十分可能,从而使用编译器对硬件架构进行探索。架构分析中关注三个方面的表达,分别是计算架构(Computation
2022年1月3日
其他

从数据中获取动态信息:动态模式分解 (DMD) 与物理先验的结合

摘要对复杂事物进行预测,推演,进而能够精确地控制,是人们一直以来的期盼。传统研究中,动力系统通常由已知形式的方程来进行建模。然而,现实场景往往是纷繁复杂的,包含有大量的难以准确描述的非线性过程,无法做到精确预测以及泛化推广。因此基于数据驱动的预测方法吸引了越来越多的关注,这得益于近年来计算机硬件的飞速发展,从海量的信息数据中提取关键信息,使得用大数据方法来处理信息预测结果成为了可能。作为这种思想的发展,本文将介绍一种从数据中(例如一组图片或者视频)获取动态信息的方法——动态模式分解(DMD:Dynamic
2021年12月27日
其他

基于Object Query的机器视觉新思路: DETR及发展

组信息中有些是空的,物体名称和位置范围都用空集表示。有关模型结构更具体的内容,相关解读很多,可参考相关资料及原文。模型探讨模型中很有意思的一点是Decoder部分中作为输入的object
2021年12月20日
其他

Transformer霸榜,点积自注意力是否不可替代?

摘要自注意力机制使Transformer成为可解释性较强的模型之一,基于query-key的点积自注意力作为自注意力机制的核心组件看起来是必不可少的:点积自注意力使成对的token被完全连接,并且能够对长距离依赖的信息进行建模。但是点积自注意力的计算真的是必须的吗?越来越多的工作深入探索自注意力,并给出了否定的回答。本文从点积自注意力的原理出发,并以两篇参考文献以例,重新思考自注意力机制,进一步对点积自注意力的可替代性展开讨论。点积自注意力Transformer模型的核心为自注意力机制,同时点积自注意力是最必不可少的核心组件。我们通过下面的公式[1]理解点积自注意力的含义:
2021年12月13日
其他

视觉神经场:NeRF研究的新视角

摘要基于神经辐射场方法的场景表征与渲染无疑是近两年来视觉计算领域的热点工作之一,吸引了大量的相关研究。近期提出的视觉神经场概念,可以很好地概括目前相关领域的一些进展,并为我们提供了一个更加清晰的研究视角。本文将介绍神经场方法的基本概念,以神经辐射场作为一个具体的例子,介绍神经场的主要流程,并简单地展示一些相关的应用。引言合成具有真实感的影像是计算机图形学的核心话题,也是几十年来相关研究的焦点。近期流行的神经渲染方法结合了经典的图形学和机器学习的方法,使得产生具有真实感的影像变得更为便捷。其中基于神经辐射场方法的场景表征与渲染无疑是近两年来视觉计算领域的热点工作之一,吸引了大量的相关研究。我们的公众号曾有多篇文章介绍该领域的相关工作。由于目前该领域发展的非常快,在三维重建、新视角合成图像、三维形状生成、人体数字建模任务以及机器人姿态估计等任务上都涌现了很多新的工作,亟待对现有的进展进行总结。近期陆续出现了一些综述性的文章以及一种新的视角,可以将相关方法归纳为视觉神经场(Neural
2021年12月6日
其他

比快更快:混合精度计算加速的实现

摘要深度学习推动了计算设备如GPU的计算能力,尤其是低精度数值计算能力的快速提升。然而传统科学计算任务如数值天气预报都是在FP64等高精度模式上进行。为充分利用现代计算设备的低精度计算能力,研究者们开发了很多混合精度计算方法。本文简要介绍混合精度计算的实现方法和在现代GPU上的表现,最后讨论混合精度计算的评测指标。引言深度学习应用的发展极大推动了计算加速硬件的发展。这些新型的计算硬件也被广泛用于各类科学计算中。世界排名前列的超算summit就集成了两万多张GPU加速卡,这些加速卡与近万颗CPU构成的异构系统可以达到200PFLOPS的计算性能。传统科学计算一般都在FP64等高数值精度上实现。为了满足机器学习的需求,各类计算加速卡都强化了低数值精度下的计算能力。如表1所示,在Tensor
2021年11月29日
其他

GAN在因果推理中的应用研究

Loss所示。思考由于道德伦理、实验可操作性等原因,潜在结果输出向量在观察数据中并不能完全观察到。文[1]采用生成对抗模型来模拟潜在结果的生成机制,充分利用了广为熟知的神经网络的Universal
2021年11月22日
其他

流体力学与物理导引神经网络

摘要现代科学发展至今,众多复杂的关键应用依赖着对流体运动的精确预测:大到全球气候的预测,小到飞机机翼与发动机的设计,上至航天火箭液体燃料对本体造成的稳定性问题,下至海浪能源的提取等。然而,由于流体力学方程数值求解的复杂性,基于传统数值方法的高分辨率长周期数值模拟运算量大且难以保证数值稳定性,流体力学问题的数值模拟因此成为应用科学领域中的重大挑战之一。随着数字时代带来的冲击,新方法、新尝试不断更新迭代,利用深度学习解决复杂的数学问题已成大趋势。在上一期中,我们已经大致介绍了近些年研究热点物理导引神经网络(PINN:Physics
2021年10月25日
其他

物理导引神经网络方法分析

摘要随着GPU能力的提升,支撑深度学习的软硬件生态得到了快速发展。通过深度学习来解决科学计算问题成了一种趋势,其中用深度学习来求解微分方程的方法也逐渐兴起。尤其引人注意的是一种称为物理导引神经网络的方法,其为科学计算领域注入了新的活力。物理导引神经网络(PINN:
2021年10月18日
其他

偏微分方程的图神经网络解法

摘要偏微分方程在科学和工程领域扮演着重要作用,而寻找偏微分方程的解一直是富有挑战性的问题,需要复杂的数值求解技巧。由于在描述非欧氏系统时的高度适用性,图神经网络给偏微分方程的求解提供了新的有趣思路。本文介绍了两种具体方法,一种使用图神经网络描述偏微分方程中关键的时间求导项,另一种则直接利用图中的结点描述离散化后系统中的粒子。由于二者间的密切关联,偏微分方程也能对图神经网络的设计进行指导和帮助,相关内容将在最后的部分呈现。背景介绍偏微分方程(partial
2021年10月11日
其他

基于深度学习的图像反演方法在MRI图像重建上的应用

摘要基于欠采样k空间数据的图像重建在快速磁共振成像(MRI)中发挥着重要作用。最近,基于深度学习的图像反演方法在使用更少的测量数据对磁共振图像进行重建的任务上显示出了巨大的潜力。本文结合以下两类方法来概述并解释各算法的整体结构:一类是基于迭代展开重建的方法,另一类是基于非迭代展开重建的方法。我们在比较这些方法的同时,对网络的进一步开发和性能分析展开探讨。背景图像反演问题期望从形式的测量值中恢复矢量化图像,其中表示前向测量算子,是加性噪声[1]。假设噪声分布已知,一种可行的方法是利用极大似然估计从测量值中恢复,如下式所示:其中表示是真实的矢量化图像时,观测值为的可能性(隐含了对的先验知识或对可能的分布进行积分的先验知识)。当潜在的解出现不唯一情况(当矩阵是秩小于n的线性算子时)或对噪声高度敏感时,极大似然估计方法将会失效。但由于在一些情况下,人们可能事先知道的某些特征,比如图像在远离边缘和边界的位置上是平滑的。诸如此类的知识可以编码为的先验分布,那么最大后验
2021年10月4日
其他

神经渲染中的特色深度计算特征

摘要神经渲染是以深度学习为基础的新型图形渲染方法,是实现时下热点概念“元宇宙”的关键要素。同时神经渲染也是深度学习的前沿方向,催生了许多新的深度学习方法与计算结构。本文以当前神经渲染中两个影响力较大的方法NeRF[1]和GauGAN[2]以及相关的拓展研究为基础,尝试整理分析神经渲染方法中一些比较有特色的计算结构与算子特征。需要指出的是本文并不是对神经渲染方法整体的算法分析,也不是对所有神经渲染特色算子的分析。事实上,神经渲染方法的主体结构还是主流深度学习中广泛采用的操作,如卷积、池化等,为大家所熟知。我们在之前的文章中也对这些神经渲染方法的整体结构及一般特点做了分析(神经渲染最新进展与算法(一):语义图像合成、神经渲染最新进展与算法(二):NeRF及其演化)。因此,本文仅选取这些方法中一些关键的、但不常见的特色算子,以乘加为基本计算单位,评估了它们的计算特征。NeRF方法的结构与计算分析NeRF是一种深度容积渲染方法,其主要特点是场景的深度隐式表达与容积渲染。与一般渲染方法直接构建场景结构不同,NeRF训练一个神经网络表征三维场景,是一个典型三维重建过程。输入场景空间和视角坐标,场景表征网络输出对于空间体素的颜色等场景信息。进一步,NeRF按照volume
2021年9月27日
其他

除了用于Google地图的ETA预测,GNN还可以做什么?

GNN)的do-演算基础上,文[2]定义了用于近似PCH因果推断的干预变分图自编码器(Interventional
2021年9月20日
其他

神经渲染最新进展与算法(二):NeRF及其演化

NeRF渲染实现正是按照上述步骤实现,并通过离散采样,投影积分过程转换为累积求和。由于体素特性由可微的MLP函数表征,整个渲染流程是可微的,从而方便在现代深度学习框架上实现。
2021年9月13日
其他

因果发现最新进展及其在复杂系统中实践的探讨

process)是一种能描述复杂系统的点过程,广泛应用于社交网络分析、生物信息学、金融分析等多个领域。目前,在霍克斯过程中发现格兰杰因果关系是因果推断的重要研究内容,日益受到关注。
2021年9月6日
其他

病理AI:基于深度学习的方法综述

域适应主要是从特征层面进行调整,以使得两个域的数据分布更为接近,而染色归一化则直接调整输入图像,以使得不同染色条件下的输入图像在外观上更为相近。此外,可以通过图像增强(Data
2021年8月30日
其他

神经渲染最新进展与算法(一):语义图像合成

GANcraft是2021年上半年提出的一项有影响力的工作[5]。它以MineCraft风格的语义像素块作为输入,输出的不仅仅是对应的单张真实感图像,而是任意视角的真实感图像。
2021年8月23日
其他

多面体编译技术在软硬协同设计中的应用

脉动阵列是基于数据流的计算架构,具有十分规则的计算范式,对于两个大小为4x4的矩阵乘投射到一个二维的4x4的脉动阵列上,其计算架构和数据流动可以表示为下图。本文的分析也针对二维脉动阵列展开。
2021年8月13日
其他

机器学习方法在数字芯片设计中的应用

google使用RL方法进行floorplan设计[6]
2021年8月9日
其他

基于MLIR实现GEMM编译优化

Dialect)。在这一层的转换过程中,基本包含了所有的策略,如:Tile,定制化复制,unroll,vectorize等。然后再将中间的辅组层的Dialect,进一步lower到LLVM
2021年7月31日
其他

深度生成网络新思路:扩散概率模型

从噪音中恢复/生成有意义图像的效果见图1。此外,DDPM可以对隐空间中源图像进行插值,即先通过编码器q对图像,映射到对应的,,再用反向过程的p将,的插值进行解码映射到图像空间,实际效果见图2。
2021年7月24日
其他

神经网络的图结构

这一现象也表现在单个度量与NN模型性能的图上。如图3,两个度量上的性能都可拟合为U型曲线。在度量的中间某处的NN模型性能最佳。有趣的是在附件中作者还发现其它图度量与NN模型性能也呈现U性曲线趋势。
2021年7月3日
其他

「热力学计算」:从Landauer边界到终极计算机

按照此规律,图(b)中我们在已给定如图所示的初始值的情况下判断右上角的节点值可以知道,此时该节点应取值为0,此时整个网络的能量为-3,因为若取值为1的话整个网络的能量将为-(3-4)=1
2021年6月26日
其他

Transformer在计算机视觉领域的应用

实验结果表明:当ViT直接在ImageNet上训练时,同水平的ViT模型效果要比ResNet差,但如果规模较大的数据集上预训练后微调,模型效果可以超越ResNet。例如ViT在Google的300M
2021年6月19日
其他

基于观察数据的因果推断

(Intervention))对健康的影响,以及更高一层的人工智能推理,如反事实推理(Counterfactual),如估计吸烟个体如果当初没有吸烟现在的健康情况。
2021年6月12日
其他

联邦学习模型在医学图像处理领域中的应用实例分析

为了防止模型逆向攻击从中提取到病人数据等敏感信息,作者采用选择性参数更新方法和SVT方法,以保护隐私、对抗数据泄露。选择性参数更新方法能够限制用户分享的信息量,包括:(1)
2021年6月5日
其他

条件随机场在病理图像分析中的应用

Field)模型在很多领域都有广泛的应用,如自然语言处理中的命名实体识别任务以及计算机视觉中的图像分割任务在加入条件随机场模型后都能获得更好的效果。有关条件随机场的详细介绍可以参考Charles
2021年5月29日
其他

科学计算领域的低数值精度加速问题

目前,越来越多新型的AI算法融入到了科学计算项目。在刚刚结束的GTC21专题上,学者们介绍了赢得SC20
2021年5月22日