查看原文
其他

喜讯 | 理工学院共9篇研究论文被AAAI 2024收录


近日,AAAI 2024公布论文接收结果,理工学院共有9篇研究论文被收录。AAAI (AAAI Conference on Artificial Intelligence) 由国际先进人工智能协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域的顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。




论文介绍



论文1


该论文是同济大学杨恺教授(通讯作者)课题组博士生焦阳在访问香港中文大学(深圳)校长讲座教授、协理副校长黄建伟教授课题组期间完成。论文的作者还包括同济大学吴天骋、简程涛。

向上滑动查看论文概要

三层优化(Trilevel learning/Trilevel optimization)问题是一类复杂的嵌套优化问题,其包含了三个子优化问题且三个子问题相互嵌套。三层优化被广泛应用于机器学习的许多领域,如鲁棒的超参优化,鲁棒的神经网络架构搜索,域自适应等。然而,目前的三层优化工作还存在如下问题:1)在三层优化的许多应用中,数据往往分布在不同的节点上,现有的工作集中于非分布式的三层优化算法,需要把所有数据收集到中心服务器上才能训练机器学习模型,这有可能会导致数据隐私泄露。不仅如此,若设计三层优化同步分布式算法,往往会面临“掉队者”问题,且当有部分节点出现故障时分布式算法会立刻中止。2)现有的三层优化工作仅仅为所提出的算法提供了渐近收敛保证。基于上述问题,本文提出了带有非渐进收敛保证的异步联邦三层优化算法。所提出的算法把下层优化问题看作是上层优化问题的约束,并通过提出u-cut和基于u-cut的超多胞体近似,实现了对三层优化问题的异步联邦分布式求解。杨恺教授和黄建伟教授早年在美国普林斯顿大学针对双层优化的一类特殊问题,鲁棒优化问题,首次提出了快速收敛的异步分布式算法,并且成功应用到无线网络的功率控制和智能电网的需量反应等一系列问题中。本论文将(双层)鲁棒优化的分布式解法推广到三层优化,是第一篇对三层优化问题进行异步分布式求解的工作,所提出的算法和收敛速率理论为分布式训练鲁棒的机器学习大模型和联邦三层学习等问题提供了理论参考。在本文的实验章节,大量的实验验证了所提出算法的优越性。



论文2


该论文的第一作者是理工学院在读博士生唐至威,导师为理工学院张纵辉教授。该论文的通讯作者为张纵辉教授。本文的作者还包括理工学院在读博士生王烟濛。

向上滑动查看论文概要

联邦学习是一种多方协作的的分布式学习范式,然而,在利用联邦学习范式训练大规模机器学习模型时,高通信成本的问题是一个突出的挑战。为减少通信成本,一些基于符号的方法,如符号随机梯度下降(SignSGD)已被提出作为一种有偏梯度压缩技术。然而,基于符号的算法在处理异构数据时可能出现发散问题,这促使了一系列先进技术的发展,包括误差反馈方法和随机基于符号的压缩。尽管这些技术在降低通信开销方面表现出色,但它们仍然面临着较慢的收敛速度问题。此外,它们中的任何一种都不允许类似于联邦聚合(FedAvg)那样进行多次本地梯度更新。在本文中,我们提出了一种新颖的噪声扰动方案,采用对称噪声分布,用于基于符号的压缩。这一方案不仅允许在梯度偏差和收敛性能之间灵活调整权衡,而且为现有的随机基于符号的方法提供了统一的视角。更为重要的是,统一的噪声扰动方案使得我们能够开发第一个基于符号的联邦聚合算法($z$-SignFedAvg),以加速收敛。从理论上讲,我们证明了$z$-SignFedAvg实现了比现有基于符号的方法更快的收敛速度,并且在均匀分布的噪声下,可以享受与未压缩对应方法相同的收敛速度。我们进行了大量实验证明$z$-SignFedAvg在真实数据集上取得了竞争性的实证性能,并且胜过了现有的方案。总体而言,我们的研究聚焦于解决联邦学习中通信成本高的问题,为解决联邦学习中的通信挑战提供了一种新的途径。



论文3


该论文由理工学院赵俊华团队与唐晓莹团队合作完成。第一作者是理工学院在读博士潘梓彬,导师为赵俊华教授。该论文的通讯作者为唐晓莹教授和赵俊华教授。本文的作者还包括理工学院在读博士李赤、余方晨、王抒一,以及理工学院博士王海锦。

(向上滑动查看论文概要)

公平性已经成为联邦学习中的一个重要问题。对于一些用户表现良好,而对其他用户表现不佳的不公平模型,容易降低用户的参与意愿。在这项工作中,我们分析了FL中不公平性的一个直接原因——使用不公平的方向来更新全局模型,这有利于某些用户,而与其他用户的梯度在模型水平和模型层级水平上发生冲突。为了解决这些问题,我们提出了一种分层公平的联邦学习算法(FedLF)。首先,我们为FL制定了一个有效的公平驱动目标的多目标优化问题。然后计算一个分层公平的模型更新方向,以减轻模型梯度在水平和模型各层上的冲突,并减少模型性能提升上的偏见。我们进一步提供了理论分析,说明FedLF如何提高公平性并保证收敛。在不同的学习任务和模型上的大量实验表明,FedLF在准确性和公平性方面优于现有最先进的FL算法。



论文4


该论文的第一作者是理工学院在读博士生魏军,导师为理工学院李镇教授。该论文的通讯作者为李镇教授。本文的作者还包括理工学院的崔曙光教授与周少华客座救授。

向上滑动查看论文概要

点云显著物体检测(PCSOD)是三维密集分割中提出的一项新任务。然而,准确获取三维密集标注的成本很高,严重限制了PCSOD的进展。为解决这个问题,我们提出了第一个弱监督点云显著物体检测模型(名为WeakPCSOD),该模型仅依赖于低成本的三维边界框标签,极大地降低数据的标注成本。在WeakPCSOD中,我们利用粗糙的三维边界框标签中提取监督信息,但是容易受到边界框标签中固有形状的影响。为此,我们设计了预测掩码到三维边界框(M2B)的转换和颜色一致性(CC)损失。M2B转换从形状的角度出发,将预测结果与监督标签分离,使得模型能够从标签中提取无噪的监督信息,同时不受标注框本身的形状影响。从外观的角度出发,我们进一步引入CC损失以提供密集的监督信息,这有助于减轻预测结果的不唯一性,从而提高模型在域外数据上的泛化性。此外,我们采用了自训练(ST)策略,通过利用高置信度的伪标签来提高性能。值得注意的是,M2B转换、CC损失和ST策略可以无缝集成到任何模型中,并且在推理过程中不会增加额外的计算成本。大量实验验证了WeakPCSOD模型的有效性,其性能甚至可以与全监督模型相媲美。



论文5


该论文的作者是上海人工智能实验室的博士生景凌林,共同一作是香港中文大学(深圳)的本科生薛颖。通讯作者为李镇教授和颜旭博士。本文的作者还包括理工学院博士生郑超达,香港中文大学(深圳)张瑞茂教授,上海人工智能实验室的王栋博士、王之港博士和赵斌教授,拉夫堡大学的方辉教授。

向上滑动查看论文概要

4D点云理解旨在在于分析动态的三维点云序列,对于现实世界的交互具有至关重要的意义。然而,由于点云的稀疏性和纹理的缺失,这仍然是一项具有挑战性的任务。此外,点云的不规则性使得在视频序列中对齐时间信息变得困难。为了解决这些问题,我们提出了一种名为X4D-SceneFormer的新型跨模态知识转移框架。该框架通过运用Transformer架构挖掘时间关系,从RGB图像序列中传递纹理先验,以增强4D场景的理解。具体而言,该框架采用双分支架构,包括一个4D点云Transformer和一个Gradient-aware Image Transformer(GIT)。GIT融合了视觉纹理和时间相关特征,为更优的点云表示提供丰富的语义和动态信息。在训练过程中,我们采用多种知识转移技术,包括时间一致性损失和掩码自注意力,以加强模态之间的知识传递。这使得在仅使用单模态4D点云输入进行推断时,性能得到提升。大量实验证明了我们的框架在各种4D点云视频理解任务上的卓越性能,包括动作识别、动作分割和语义分割。在HOI4D挑战赛上,我们的模型结果荣获第一名,即在4D动作分割和语义分割方面分别实现了85.3%(+7.9%)的准确度和47.3%(+5.0%)的mIoU,显著超越了先前的模型。



论文6


该论文由理工学院李镇教授团队与华为诺亚方舟实验室合作完成。第一作者是理工学院在读博士张海鸣,导师为李镇教授。通讯作者为李镇教授和颜旭博士。本文的作者还包括理工学院的崔曙光教授,华为诺亚方舟实验室的白东峰、王盼、高建焘博士和刘冰冰博士。

向上滑动查看论文概要

三维占据(Occupancy)预测是一项新兴任务,旨在利用多视角图像估计三维场景的占据状态和语义信息。然而,由于缺乏几何先验,基于图像的场景感知在实现准确预测方面遇到了巨大挑战。为此,该团队通过在这项任务中探索跨模态知识蒸馏来解决这个问题,即在训练过程中利用更强的多模态模型来指导视觉模型。在实践中他们观察到,直接应用在鸟瞰图(BEV)感知中提出并广泛使用的特征对齐或逻辑子(logits)对齐并不能产生令人满意的结果。为了克服这一问题,该团队提出了RadOcc,一种用于三维占据预测的渲染辅助蒸馏范式。通过采用可微分体渲染方式,在相机视图中生成了深度和语义图,并提出了教师模型和学生模型渲染输出之间的两个新颖的一致性标准。具体来说,深度一致性损失对齐了渲染光线的终点分布,而语义一致性损失则模仿了视觉基础模型(VLM)引导的分割片段内相似性。在nuScenes 数据集上的实验结果证明了他们提出的这种方法在改进各种三维占据预测方法方面的有效性,例如,该方法在mIoU指标上将基线提高了2.2%,在Occ3D数据集榜单上实现了约50%的mIoU指标。



论文7


该论文的作者包括上海人工智能实验室的景凌林、许晟,拉夫堡大学的王一帆和方辉教授,通讯作者为港中大(深圳)理工学院李镇教授与复旦大学孙思琦教授。本文的作者还包括理工学院的周宇喆,复旦大学智能复杂系统研究院的沈涛,上海交通大学的纪志罡教授。

向上滑动查看论文概要

CrossBind是一种新颖的跨模态学习框架,旨在提高识别蛋白质核酸结合残基的准确性。CrossBind的多模态方法使用对比学习技术和原子级注意力机制来捕捉原子和残基间的位置关系,以此整合精细的局部几何知识,从而提高结合残基预测的准确性。CrossBind方法采用了多种技术,包括基于语言模型的预训练、基于点云的分割、跨模态学习和生物学先验知识过滤等,以提高识别蛋白质核酸结合残基的准确性和效率。在CrossBind架构中,序列编码器部分采用了当今规模最大的蛋白质语言模型之一ESM-2,该模型在数百万个蛋白质序列上进行训练,拥有150亿的模型参数。结构编码器使用稀疏卷积编码器将残基表示为原子级的点云分割任务。为了捕捉原子和残基之间的位置关系,引入了原子级注意力(AWA)机制,因为蛋白质与核酸的相互作用可能发生在主链和侧链原子上。此外,CrossBind引入了自监督学习(SSL)策略以处理3D蛋白质结构中的构象变化,这增强了原子的多样性运动性和与其他分子交互时的信号传递能力。考虑到数据集的不平衡性,SSL也被用来提高模型的鲁棒性。通过大量实验结果证明,CrossBind的性能超过了其他先进的方法,如GraphSite和GraphBind,在DNA和RNA数据集上分别提高了10.8/17.3%的F1分数和11.9/24.8%的Matthews相关系数(MCC)。



论文8


该论文的第一作者是理工学院在读博士生张策尧,科研方向为AI智能体;共同第一作者为理工学院在读博士生李任杰,科研方向主要为AI芯片设计;该工作的通讯作者为理工学院张昭宇教授和尹峰教授。

向上滑动查看论文概要

光子晶体表面发射激光器(PCSEL)的逆向设计需要物理学、材料科学和量子力学方面的专业知识,这通常需要大量的人力成本。先进的人工智能技术,尤其是强化学习(RL),已经成为增强和加速逆向设计过程的强大工具。通过将PCSEL的逆向设计建模为时序决策问题,强化学习方法可以从头开始构建令人满意的PCSEL结构。然而,传统的在线强化学习方法对于精确且昂贵的仿真器交互的需求导致其数据利用效率低下,这一问题阻碍了其更广泛应用。最近,时序模型尤其是基于Transformer的架构,由于其简单性和对大型语言模型的可扩展性,在时序决策问题上表现出了引人注目的性能。在本文中,我们介绍了一种名为PCSEL Inverse-design Transformer (PiT) 的新颖框架,它将PCSEL的逆设计抽象为时序建模问题:PiT的核心部分是一个基于Transformer的结构,它利用过去的轨迹和当前状态来预测当前的行为。与传统的RL方法相比,PiT可以通过利用离线数据和对期望回报的调节来输出最优动作并实现目标PCSEL设计。结果表明,与基线方法相比,PiT实现了卓越的性能和数据效率。



论文9


该论文的第一作者是理工学院在读博士生张策尧,导师为尹峰教授。本文的其他作者还包括北京大学的杨耀东教授等人。

向上滑动查看论文概要

在合作任务中实现具有自适应行为的人工智能是多智能体领域的重要目标。当前实现智能体的合作主要是基于learning的方法,该类方法的泛化性取决于训练过程中交互队友的多样性,这限制了智能体在面对新队友时重新调整策略的能力。针对这一问题,我们提出一种新颖的框架ProAgent,它利用大型语言模型(LLM)来塑造主动的智能体,该框架通过主动预测队友即将做出的决策,来动态调整其自身行为,以增强与队友的协作。此外,ProAgent框架表现出高度的模块化和可解释性,不同模块之间可以相互促进以解决各种需要合作的场景。在 Overcooked-AI 环境中进行的实验评估揭示了ProAgent显着的性能优势:在于其他AI智能体的合作时,优于基于自我对弈(self-play)与PBT方法;与人类代理模型合作时,在每一个场景的性能与当前最先进的方法COLE相比平均高出10%。这些发现为通过LLM来实现具有合作能力的人工智能指出了一个新方向,并激发了未来的研究。




*部分内容由论文作者提供



点击以下链接,进入理工时刻:


翔龙鸣凤科学论坛讲座系列 | 百期纪念


活动回顾 | 深圳市新药创制与合成重点实验室项目启动会暨第一次学术委员会会议成功举办


喜讯 | 理工学院/未来智联网络研究院黄川教授课题组获得2023年IEEE通信旗舰会议最佳论文奖


师说 | Ayman Kachmar教授:点燃学生的数学之火


榜样领航,逐光而行 | 祁卫敏:乘风破浪的探索者



继续滑动看下一个
香港中文大学深圳SSE理工学院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存