机器学习论文笔记—如何利用高效的搜索算法来搜索网络的拓扑结构

Original 陈扬机器学习算法工程师 2021-12-31

作者：陈扬

编辑：赵一帆

简介

分层表示高效的架构搜索(HIERARCHICAL REPRESENTATIONS FOR EFFICIENT ARCHITECTURE SEARCH)这篇文章讲的是如何利用高效的搜索算法来搜索网络的拓扑结构。用一个简单但功能强大的演化算法。这个方法可以发现具有卓越性能的新架构。它这篇文章很大程度上借鉴了GECNN的一些东西，或者说，我之前写了GECNN的论文笔记，里面也是讲演化算法的：https://zhuanlan.zhihu.com/p/36758195 。

github：https://github.com/markdtw/awesome-architecture-search（还没开源代码）

arxiv：https://arxiv.org/abs/1711.00436

章节目录

优点摘要
抛砖
引玉
定义部分
元操作
进化
初始化
算法
训练结果

优点摘要

通过分层图学习的方法，大大减少了冗余的搜索空间
引入分层表示来描述神经网络体系结构。
通过堆叠简单的基元（比如conv，maxpooling），实现了复杂的结构，使用简单的随机搜索，也可以获得用于图像分类的竞争架构，这体现了搜索空间构建的重要性。
可以通过跳跃链接实现resnet，densenet等深层次的网络（为resnet引用都快破万了，你现在用不上残差块的思想你好意思发论文吗……）。

抛砖

首先一个问题，我们为什么要想办法设计出一个自动生成的网络架构，因为我最近发现一个问题啊，你一个神经网络特别那种实验室做出来的，效果估计也就是退cifar-10啊，mnist这些效果好一点点，但是一碰到真实环境，效果就菜的一批（可能会），可能这种机器生成的神经网络效果不一定有专业人员做的好，但是他在针对其他真实条件下的数据集，他的效果可能会反超那些定下来的网络结构，因为这个东西他上自适应调整的。

引玉

这篇文章，他提出来用邻接矩阵去表示一个有向无环图，然后用点表示feature map,用边表示一种操作（其实就只有conv, max_pooling, average-pooling, identity, 开心不，意外不）。

定义部分

我们先定义一个邻接矩阵，然后leval-1的矩阵的值的意思就是集合option{}。
The architecture is obtained by assembling operations o according to the adjacency matrix G:
结构 = assemble(G, o)
mrge是合并

o1(1)在这里是1 1的卷积，o2(1)是3 3的卷积，o3(1)是33的最大池化（不是2 2因为他要保证feature map一样大)，他们统称为元操作（相当于tf.nn里面一个函数啊）。

我大概画一下leval-2
G1(2)=[0 3 2;
0 0 1；
0 0 1]
然后我们把这个生成的子图当成一个新的子图，是不是很6所以我们就这样定义了一个level-2的子图了，接下来我们如法炮制的搞出了3个leval-2的子图，just like this：你发现了吗，每一层的piont的个数是一样的，是固定的，这个就是他这个算法不太好的地方一。

然后我们就得到了一个level-3的网络结构（简直就是insecption加resnet的样子）到此为止，我们就算是搞出来一种可以表示这个网络的方法了。

元操作

作者在实验中发现啊，3*3的conv只要搞多几次，就可有搞出很大的感受野什么的，所以他就搞的元操作其实很少（6）：

• 1 × 1 convolution of C channels(调整特征图的维度)
• 3 × 3 depthwise convolution（不解释了吧）
• 3 × 3 separable convolution of C channels 
• 3 × 3 max-pooling（最大池化）
• 3 × 3 average-pooling （平均池化）
• identity

对于每一个feature map，他都用了RELU激活函数和批次正则化（-.-)。channels固定为常数C（可以通过1*1卷积）。
如果option(i,j)==0的话就说明i,j之间没有边。
concat就是之间把feature map加到一起。

进化

首先，我们要实现3个基本操作：增加add，修改alter，删除remove。

初始化

创建很小的元操作的DNA（类似GECNN上面有链接），为每个DNA创建一个映射，相当于是下一层的元操作
通过大量随机突变产生变异样本（类似蒙特卡洛方法随机）

算法

异步锦标赛进化（相当于生物学里面的达尔文进化论）

part 1：

part 2:

什么是锦标赛算法？

假设种群规模为n，该法的步骤为：

随机产生n个个体作为第一代（其实这步准确的说不是属于选择操作的，但每个算子并没有绝对的界限，这个是在选择操作之前的必做之事）。
从这n个个体中随机（注意是随机）选择k（k< n）个个体，k的取值小，效率就高（节省运行时间），但不宜太小，一般取为n/2（取整）。
从这k个个体中选择最大的一个个体（涉及到排序的方法），作为下一代n个个体中的一个个体。
重复2-4步，至得到新的n个个体。
进行这新的n个个体之间的交叉操作。

训练结果

对于不同大小的数据集，我们要输入不同大小的level层数和节点k数，总共最多会产生k^l个feature map，所以初始化的时候应该是有非常多的0元素才对（猜测）。
随机梯度下降，学习率的调整细节等……不想说了

我个人认为的改进点：可以看得出这个架构其实不是线性的，网络是可以比较复杂的，肯定是有resnet在里面的，应该是越深层越适应大的训练集，不过从我的实际工作来看，最好是再加一个网络结构预判器，因为针对点多且深的网络结构来说，没有做够的resnet到了深层肯定会梯度爆炸或者消失，那种明显不合格的网络是可以被检查出来的，可以极大的减少冗余计算，因为越好的网络训练应该是越快的，反而是大部分都是垃圾结构牺牲了大部分的时间（二八定律），具体是实现方法我自己留着发论文了。

具体的训练细节太复杂了，DEEPMIND也没开源代码，我就不好瞎说了。

在CIFAR-10上的训练效果

我想吐槽的是：

真的好有钱啊，200个p100，我算了一下在阿里云上面竞价的话要10*200*24*1.5=7200RMB，🙂🙂🙂🙂🙂🙂😊

说实话这个效果来说还是非常值这个价的，在CIFAR-10上这个被p过几百万次的数据集上还能和那些老p客难分伯仲，要是换的真实数据集的话效果应该会跟好一些吧。

总结

目前网络结构生成的两种方法强化学习和演化学习都在发paper，从难度来说我其实更喜欢演化学习，因为治疗都是现成的，但是长远的看我觉得强化学习会赢，这个元学习也一直是我觉得很有意思的一个方向，可能是迈向强人工智能的一个阶梯吧，百尺竿头更进一步。

题外话，这个全屏模式啊，一不小心就搞到1点了，哎明天上课是不是又要迟到了……

END

往期回顾之NLP

【1】15分钟入门NLP神器—Gensim

【2】不懂word2vec，还敢说自己是做NLP？

【3】【干货教程】自然语言处理入门：手把手教你解决90%的NLP问题

【4】基于word2vec的词语相似度计算

机器学习算法工程师

一个用心的公众号

长按，识别，加关注

进群，学习，得帮助

你的关注，我们的热度，

我们一定给你学习最大的帮助

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

套牢是个好事，没被套牢的玩家容易跑

湖南60岁富婆沉迷打牌，输掉1个多亿，丈夫还清后离婚，她却说：你这是阴谋

广东女子不想上班坐街边乞讨，因长相好看被路人投喂，知情人：又懒又馋！！

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

机器学习论文笔记—如何利用高效的搜索算法来搜索网络的拓扑结构

优点摘要

抛砖

引玉

您可能也对以下帖子感兴趣

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

套牢是个好事，没被套牢的玩家容易跑

湖南60岁富婆沉迷打牌，输掉1个多亿，丈夫还清后离婚，她却说：你这是阴谋

广东女子不想上班坐街边乞讨，因长相好看被路人投喂，知情人：又懒又馋！！

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

生成图片，分享到微信朋友圈

机器学习论文笔记—如何利用高效的搜索算法来搜索网络的拓扑结构

优点摘要

抛砖

引玉

您可能也对以下帖子感兴趣