查看原文
其他

科研速递 | 林天麟教授团队在IEEE Transactions on Image Processing 上发表文章

摘要

近日,理工学院林天麟教授团队在图像处理领域顶级期刊 IEEE Transactions on Image Processing发表题为“Toward Better Accuracy-Efficiency Trade-Offs: Divide and Co-Training”的文章。


该工作首次在深度神经网络架构设计领域提出了一种基于网络切分和协同训练的神经网络学习系统设计方法,证明了在神经网络学习系统的设计中,单纯的增加神经网络的宽度或者深度并不是最优解,适时地增加网络的数目是更好的选择。该工作在学界常用的基准测试平台上实现了领先的效果。



论文链接:

https://ieeexplore.ieee.org/document/9877850


代码链接:

https://github.com/FreeformRobotics/Divide-and-Co-training


期刊介绍

IEEE Transactions on Image Processing是图像处理领域公认的顶级期刊之一,其影响因子达到了11,代表了图像处理领域先进的重大进展,要求论文在理论和工程效果上对图像处理及相关领域具有重要推动作用。


研究背景

在深度神经网络设计中,神经网络的宽度是其架构设计中的重要元素。一般而言,增加网络的宽度,网络的学习表征能力也会增强。然而,网络的学习表征能力并不是随着宽度的增加而线性增长的,当宽度增加到一定程度后,网络的学习表征能力增长缓慢并趋于饱和(如图1)。

图1. 神经网络的分类精度随着宽度增加逐渐趋于饱和,但计算量却急剧增加


这种情况下,我们认为增加网络的数目是比单纯增加网络宽度更优的选择,能够实现更好的精度与效率之间的权衡。为了论证我们的观点,我们将一个大网络切分成几个同等大小的小网络,并保证切分前后的参数总量大致相等,即每个小网络都有原来大网络的一部分参数量。切分的过程也发生在网络的一些正则化模块中。然后我们给这些小网络输入相同数据的多视角图片进行协同训练,协同训练的过程中小网络也能相互学习促进。最后,多个小网络的集成效果就能够超越单个大网络的效果,同时网络计算量和参数量也没有发生明显变化。在实际应用中,多个小网络也具备更高的灵活性,可以通过模型并行实现更快的处理速度。在本工作中,我们在图像分类和目标检测两个任务,以及多达八种不同的常见深度神经网络架构上验证了我们的方法,并在学界常用的测试基准上取得了领先的效果。


研究方法

本工作在深度学习神经网络架构设计中引入了网络切分和协同训练的方法(如图2)。我们根据不同网络架构的特点,设计了一套适用于当前主流的神经网络的切分方法,包括但不限于常见的ResNet、DenseNet、ResNeXt、 PyramidNet和EfficientNet等。我们切分的原则是保证切分前后网络的总体参数量和计算复杂度大体保持不变,这是为了更好的验证我们前文提到的观点:增加网络数目是比单纯增加网络宽度更好的选择。另外,随着切分前后网络表征能力的变化,网络训练时所适用的正则项也进行了参数上的调整。网络切分的细节详见论文。

图2. 网络切分与协同训练


网络切分完成后,我们接着对得到的小网络进行协同训练。对于多个小网络的集成效果,我们在论文中给出了简化情况下的理论论证,并以此为指导,设计了一些协同训练的技巧。首先是不同的网络使用不同的初始化权重并在相同数据的不同视角上进行训练,即不同的小网络有自己独有的数据增强过程,这些是为了增加小网络的多样性以取得更好的集成效果。除此之外,小网络也可以在训练中通过相互学习协作的方式达到更好的效果。我们提出的网络切分和协同训练的方法在常用的图像分类任务上取得了学界领先的效果(如图3),从图3中,我们可以得到结论:增加网络的数目比单纯增加网络宽度或者深度实现了更好的效果与效率的权衡,这与我们最初的论点一致。更多的图像分类结果与相关结论参见论文。


图3. CIFAR-100数据集上的测试误差,S是小网络数目


网络切分和协同训练的思想也可以拓展到其他视觉任务上去,例如常见的目标检测任务(如图4)。值得注意的是,目标检测系统用于预测检测框和物体分类置信度的预测网络往往和预测框的数目等深度绑定,难以进行切分,所以我们采用了预测网络权重共享的方式以保持参数量不变,并在检测框集成时采取了一种依据分类置信度进行检测框融合的策略,而不是简单的非极大值抑制(NMS)。在主流的目标检测方法上,网络切分后的检测系统相对单个大模型取得了明显的提升(如图5)。


图4. 适用于目标检测系统的网络切分方法


图5. MS COCO数据集上的目标检测效果


研究结论

该工作中,我们讨论了在神经网络系统设计中,一种新的实现更好的效果与效率之间权衡的方法,增加网络的数目。我们设计了一种基于网络切分和协同训练的方法,在不同架构的神经网络和不同的视觉任务上验证了我们的论点。我们的工作在神经网络架构设计与实现中潜在性地引入了许多有趣的值得进一步探讨的话题,例如,对于多个小网络的协同训练,如何设计实现一套适用的异步训练框架以实现更高的训练效率;如何设计更复杂的集成方法和协同训练方式,帮助视觉系统取得更好的性能;网络切分和协同训练如何和网络架构搜索结合等等。


作者简介

本文通讯作者为理工学院林天麟教授。

林天麟,IEEE高级会员,香港中文大学(深圳)助理教授,博士生导师,校长青年学者,担任机器人与智能制造国家地方联合工程实验室执行副主任,及深圳市人工智能与机器人研究院(AIRS)智能机器人中心主任。师从徐扬生院士,分别于2006年和2010年在香港中文大学获得一等荣誉学士学位和博士学位。研究方向包括多机器人系统,特种机器人及人机协作等。以第一/通讯作者,在 T-RO、T-IP、T-MECH、J-FR 等顶尖期刊和 ICRA、IROS 等顶级会议上发表论文43篇,授权美国专利3项及国家发明专利34项,出版英文专著2部。以第一作者获 IEEE/ASME Transactions on Mechatronics 期刊年度最佳论文奖,以通讯作者获 IROS 机器人机构设计最佳论文奖。组织并主持了国内首个模块化自重构机器人领域学术系列讲座,邀请 T-RO 主编、Science 编委、国家杰青等海内外知名学者做学术报告,累计在线听众逾4万人次。林教授的相关研究成果被路透社、探索频道、日本放送协会 NHK、IEEE Spectrum、Wired 等众多国际知名媒体广泛报导。


本文第一作者和第二作者包括深圳市人工智能与机器人研究院研究助理赵帅、香港中文大学(深圳)在读博士生周立广。

赵帅,悉尼科技大学在读博士生,该论文是他在深圳市人工智能与机器人研究院担任研究助理期间完成的工作。他的研究方向是计算机视觉与多媒体检索,相关论文发表于NeurIPS、ICML、AAAI、SIGIR、T-IP等计算机视觉和多媒体检索领域期刊及会议上。


周立广,香港中文大学(深圳) 在读博士生,他的研究方向是机器人感知,场景理解,人机交互。相关论文发表于ICRA、IROS、T-IP等机器人和人工智能领域会议及期刊上。


团队简介

Freeform Robotics团队成立于2019年,由香港中文大学(深圳)林天麟教授领导,旨在研究多机器人系统自由组成各种形态以解决不可预知问题的关键技术,通过简单智能体的集群实现复杂的智能群体行为,让机器人系统拥有可复用、自由构型、可拓展、故障自修复等通用特性,为机器人设计领域创造出一种全新切实可行的实现形态。


团队长期从事机器人和人工智能研究,开发了十余种机器人和智能系统。在承担国家科研项目方面经验丰富,获得了国家自然科学基金面上项目、国家科技部 “智能机器人”重点研发计划项目等多项纵向项目资助。科研成果发表于T-RO、T-IP、T-MECH、RA-L、ICRA、IROS等机器人与自动化领域的国际顶级期刊和会议上。关于FreeBOT的研究成果获2020年IROS机器人机构与设计最佳论文奖,包括IEEE Spectrum、日本放送协会NHK和Engadget在内的多家国际知名媒体对其进行了广泛报道。



欢迎扫码了解团队更多论文和视频信息:

实验室主页:

https://freeformro

botics.org

实验室B站:

CUHKSZ-RAIL


END


点击以下链接,进入理工时刻:


Long Feng Science Forum Seminar Series | Seminar #8


相遇在未来・访谈录|理工校友在加利福尼亚大学圣地亚哥分校(下)


香港中文大学(深圳)通信工程硕士2023年招生简章


科研速递 | 香港中文大学(深圳)唐本忠院士团队发布首个聚集体科学通用数据库ASBase


科研速递 | 理工学院郑庆彬教授团队在国际碳材料顶级期刊Carbon上发表文章


喜讯 | 广东省重点领域研发计划:类脑智能关键技术及系统研究顺利通过验收


在港中大(深圳)理工学院求学,你会遇到这样的老师


喜讯 | 港中大(深圳)理工学院共获22项国家自然科学基金资助


喜讯 | 理工学院共8名教授入选“2022全球学者学术影响力排行榜”


科研速递 | 理工学院唐本忠院士和赵征教授在Biosensors and Bioelectronics上发表文章



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存