“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://www.zhihu.com/people/charlie-93-90
Graph Structure of Neural Networks(ICML 2020)
链接:https://arxiv.org/abs/2007.06559v2快捷下载:本公众号后台回复【paper71】下载本论文
神经网络经常表示为神经元之间的连接图。然而,尽管它们被广泛使用,通过之前的研究发现,神经网络的性能在很大程度上取决于它的结构,但对神经网络的准确性和其底层图结构之间的关系几乎没有系统的理解。本文系统地研究了神经网络的图结构如何影响其预测性能。建立神经网络结构及其准确性之间的关系并不容易,因为不清楚如何将神经网络映射到图(反之亦然)。自然的选择是使用计算图(Computation Graph)表示,即将神经元表示成节点,有向边连接不同层中的神经元。这种图表示展示了网络如何通过隐藏层将信息从其输入神经元传递和转换到输出神经元。但它有许多限制:- 缺乏一般性:计算图受到允许的图属性的约束,例如,这些图必须是有向和无环的(DAGs),在层级别是二分的,在网络级别是单入单出的;
- 与生物学/神经科学脱节:大脑网络中有信息交流,而不仅仅是单向流动。这种生物学或神经学模型不能简单地用有向无环图来表示。
于是,文章提出了一种将神经网络表示为图的新方法:关系图(Relational Graph)。例. 对于一个固定宽度的全连接层(图2(a)),将一个输入通道和一个输出通道一起表示为一个节点。一条边表示两个节点之间有消息交换。一个神经网络层对应一个关系图上的一轮消息交换。- 消息函数(message function):输入为节点的特征,输出为消息,记为 ;
- 聚合函数(aggregation function):输入为一组消息,输出为更新的节点特征,记为 。
在每一轮消息交换中,每个节点向其邻居发送消息,并聚集来自其邻居的传入消息。每个消息在每个边缘通过消息函数进行转换,然后在每个节点通过聚合函数 进行聚合。假设我们进行第 轮消息交换,那么节点 的第 轮消息交换可以表示为:其中 , 是节点 的输入特征, 是节点 的输出特征(这个消息交换可以在任何图 上定义,为简单起见,本文只考虑无向图)。这个公式给出了消息交换的一般定义,我们可以将这个通用的消息交换定义实例化为不同的神经网络架构。- 固定宽度的多层感知机(Fixed-width MLPs)
多层感知器(MLP)由多层计算单元(神经元)组成,其中每个神经元对标量输入执行加权求和,接着做一个非线性变换得到输出。假设MLP的第 层以 为输入,为输出,那么神经元计算:其中 是可训练的权重参数, 是输入特征 的第 维,即 , 是输出特征 的第 维, 为非线性变换。固定宽度的多层感知机即考虑所有层都具有相同的输入输出维度,在这种情况下,完全连接的固定宽度MLP层可以用完全关系图(complete relational graph)来表示,其中每个节点都与其他所有节点相连(包括自身),即对每个 , 。它的消息交换定义为:基于消息交换的一般定义式,固定宽度的多层感知机的消息交换定义为:- 可变宽度的多层感知机(Variable-width MLPs)
大多数情况下,神经网络层的宽度是变化的。为了表示一个可变宽度的多层感知机,我们将节点特征从标量 推广到向量 ,这个向量是由输入 中的某些维度组成的。假设输入和输出维度分别为 和 维,将输入输出统一为 维( )则有:这里允许不同层中的相同节点 和 可以具有不同的维度,在同一层内,不同的节点 和 可以具有不同的维数。同时,将消息函数的标量乘法推广到矩阵乘法,就能够得到可变宽度的多层感知机消息交换的定义为:这种广义的定义使得神经网络能够灵活的用图表示,因为我们可以对任意宽度的不同层重用相同的关系图。为了使关系图适用于输入为张量 的卷积神经网络,我们将节点特征的定义从向量 推广到张量 ,每个张量由输入的某些通道组成,即 。并将矩阵乘法推广到卷积运算,得到卷积神经网络的消息交换的定义为:为了设计和探索关系图空间以研究神经网络图结构与其预测性能之间的关系,给出了表示图结构属性的图度量(graph measures)、可以生成不同图的图生成器(graph generators)以及一种控制计算预算(computational budget)的方法。由于图结构的复杂性,图度量经常被用来描述图的特征。全局图度量:平均路径长度(average path length),即任意一对节点之间的最短路径距离的平均值。局部图度量:聚类系数(clustering coefficient),即对于节点 ,找出其直接邻居节点集合 ,计算 构成的网络中的边数除以集合中可能边数的比例,在所有节点上取均值。给定选定的图度量,我们的目标是使用图生成器生成能够覆盖大范围图度量的不同图。WS-flex生成器由节点数 ,平均度 和边重连概率 参数化。容易知道边数为 。WS-flex生成器首先创建一个环形图,其中每个节点连接到 个相邻节点;然后,生成器随机挑选 mod 个节点,并将每个节点分别连接到一个最近的相邻节点;最后,所有的边以概率 随机重新连接。从图6中能够看出,由那些经典图生成器生成的图在平均路径长度(L)和聚类系数(C)的空间中具有有限的跨度。本文提出的图生成器WS-flex可以覆盖更大的图空间,而且WS-flex图生成器生成的图几乎包含了经典随机图生成器生成的所有图。在WS-flex图生成器生成的所有图中采样3942个关系图用于后续的实验,如图7所示。- 控制计算预算(computational budget)
为了比较由不同的关系图转化得到的神经网络的性能,要确保所有网络具有近似相同的复杂性,使得性能的差异只归因于它们的关系图结构的不同。使用FLOPS作为复杂性的度量。以完全关系图(基线网络)的FLOPS作为参考复杂度。由于通过将维度或通道划分为不相交的节点特征集,关系图结构可以被实例化为具有可变宽度的神经网络。因此,我们可以方便地调整神经网络的宽度,以匹配参考复杂度(基线FLOPS的0.5%以内),而不改变关系图结构。实验部分
CIFAR-10:50K张训练图像,10K张验证图像,10类ImageNet:1.28M张训练图像,50K张验证图像,1K类基线架构:3种ResNet系列架构:ResNet-34,ResNet-34-sep,ResNet-50;EfficientNet-B0架构;CNN:8层3x3卷积,stride=2,三个阶段的隐藏单元数量为[64, 128, 256]。存在可以优于完全关系图性能的关系图,而且表现最好的图往往聚集在最佳点,可以按照以下步骤确定最佳点(sweet spot):(1)对WS-flex图生成器生成的图进行采样,得到3942个图(图8左),将其聚合为52个箱子(bin)。每个箱子记录落入这个箱子中的关系图对应神经网络的平均性能(图8右);(2) 确定具有最佳平均性能的箱子(图8中带有红色十字的箱子);(3) 针对表现最佳的箱子对每一个箱子进行单尾t检验,记录没有明显差于表现最佳的箱子的箱子(阈值p=0.05)。将覆盖这些箱子的面积最小的矩形视为最佳点(图8中红色矩形区域)。√ 神经网络的性能近似是其关系图的聚类系数和平均路径长度的光滑函数。将其中一个图度量固定在一个小范围内( 或 ),然后根据另一个图度量可视化神经网络性能。发现神经网络性能和图度量之间存在平滑的U形相关性。定性一致性(Qualitative consistency):不同架构之间的最佳点大致一致;图度量和相应的神经网络性能之间的U形趋势在视觉上也是一致的。定量一致性(Quantitative consistency):每个箱值表示图度量属于箱子范围的关系图的平均性能,图12绘制了不同任务不同架构之间52个箱值之间的相关性,发现具有特定图度量的关系图对应的神经网络的性能在不同的任务和体系结构中相互关联。√ 只需要几个关系图样本和几个训练阶段就可以有效地识别最佳点。训练数以千计的关系图,直到收敛,这在计算上可能是禁止的。因此,我们定量地表明,可以用更少的计算成本来识别最佳点,例如,通过采样使用更少的图进行训练或训练更少的epochs。仅使用52个图计算的箱值与使用全部3942个图计算的箱值具有0.90的高皮尔逊相关性。这一发现表明,在实践中进行类似分析所需的图要少得多。训练了3个epoch的模型与完整训练100个epoch的模型性能已经具有高相关性(0.93),这意味着即使在训练早期,好的关系图也表现良好。√ 表现良好的神经网络具有与真实生物神经网络惊人相似的图结构。人工神经网络的图度量(L和C)与生物神经网络高度相似;利用关系图表示,我们可以将生物神经网络转化为5层MLP,并发现这些网络的性能也优于基线完全图。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!