查看原文
其他

【直播】【AI TIME】11位论文一作带你走进机器学习领域顶级会议

KouShare 蔻享学术 2023-01-14



活动名称:

ICML 2022 云际会 | 11位论文一作带你走进机器学习领域顶级会议

活动时间

2022年8月18日(周四)10:00

主办单位:

AI TIME


直播通道

蔻享学术直播间

识别二维码,即可观看直播。





8月18日 10:00-10:20


讲者简介


陈天瑞:


波士顿大学博士生


分享内容


具有对数遗憾和风险的安全多臂老虎机策略


报告简介


我们研究了一种在安全风险约束下自然但未经研究的多臂老虎机问题的方法。每条臂都与一个关于安全风险和奖励的未知分布相关联,学习者的目标是在尽量不选择不安全臂(由给定的平均风险阈值决定)的同时最大化奖励。我们为此设置制定了一个伪遗憾,通过对任何违规行为进行轻罚,以每轮的方式执行此安全约束,而不管因违规而获得的奖励收益如何。这与临床试验等场景具有实际相关性,在这些场景中,必须保持每一轮的安全,而不是在总体意义上。我们描述了这种情况下的双重乐观策略,该策略保持了安全风险和奖励的乐观指数。我们表明,基于频率论和贝叶斯的算法满足反比于间隔的对数增长的遗憾上界,同时不安全臂被选择的次数也是最高对数增长。这一理论分析得到了模拟研究的补充,证明了所提出的模式的有效性,并探索了它们适用的领域。


8月18日 10:20-10:40


讲者简介


谭晓晴:


匹兹堡大学生物统计博士生,研究因果推断、数据集成、决策公平,主页:https://ellenxtan.github.io/。


分享内容


从异构数据源估计个性化治疗效果的基于树的模型加权平均方法


报告简介


由于样本量有限,准确估计研究地点(例如医院)内的个性化治疗效果一直具有挑战性。此外,隐私考虑和缺乏资源会阻止站点利用来自其他站点的主题级数据。我们提出了一种基于树的模型平均方法,通过利用从其他潜在异质站点派生的模型来提高目标站点条件平均治疗效果 (CATE) 的估计准确性,而无需共享主题级数据。据我们所知,目前没有基于分布式数据网络下,针对提高治疗效果估计的模型平均方法。具体来说,在分布式数据网络下,我们的框架提供了一个可解释的基于树的 CATE 估计器集合,该集合将跨研究站点的模型连接起来,同时通过站点分区主动建模数据源中的异质性。这种方法的性能通过真实世界研究数据关于氧疗对医院生存率的因果影响得到证明,并得到综合模拟结果的支持。


8月18日 10:40-11:00


讲者简介


包亚杰:


上海交通大学数学科学学院博士生

分享内容


联邦学习中的快速复合优化和统计稀疏估计


报告简介


作为一种流行的分布式学习范式,联邦学习在大量设备网络中通过间断式通讯训练一个全局模型。本文研究了联邦学习中一类复合优化和统计稀疏估计问题,其损失函数由一个光滑函数和一个非平滑正则化函数组成,比如使用 Lasso 的稀疏线性回归、使用核范数正则化的低秩矩阵恢复等。在现有文献中,联邦复合优化算法仅考虑了优化问题,没有统计估计的理论保证。此外,他们没有考虑高维估计问题中常用的限制强凸性。从优化角度,我们提出了一种名为 Fast-FedDA 的新算法,用于强凸和光滑损失的随机优化问题,并得到了最优的迭代和通信复杂度。特别的,我们证明了Fast-FedDA具有关于机器个数的线性加速。从统计估计的角度,对于限制强凸和光滑的损失函数,我们设计了另一种算法Multi-stage FedDA,并证明了达到最优统计估计精度的高概率复杂度,并且具有线性加速。


8月18日 11:00-11:20


讲者简介


宋佳铭:


英伟达Learning and Perception组研究科学家,博士毕业于斯坦福大学,本科毕业于清华大学,曾获ICLR2022最佳论文奖。目前的研究方向为生成模型,自监督学习和黑盒优化及其应用。主页:https://tsong.me/


分享内容


无似然贝叶斯优化的一种通用策略


报告简介

贝叶斯优化是一种流行的黑盒优化算法,通常用于自动调整实验的超参数。贝叶斯优化通过采集函数来决定其策略,而采集函数一般可以写作一个效益函数在概率模型下的均值。传统方法通常会先对概率模型建模,再将其效益函数结合计算出采集函数。但是相比于常用的神经网络和决策树模型,概率模型常用的高斯过程本身有一些建模和计算上的弱点。


我们的工作引入了一种无似然的方法直接估计采集函数,避免了用似然法建模高斯过程的中间步骤。此方法可以看做是一个有权重的二分类问题,其中权重是通过效益函数决定。这使得我们可以利用在分类问题上表现出色的模型,例如神经网络和决策树。在多个神经网络超参数设计和结构设计任务上,我们的方法优于以往的黑盒优化算法。我们的方法还可以轻松地利用问题的结构使优化效率进一步提升数个数量级。


项目网站:https://lfbo-ml.github.io/


8月18日 11:20-11:40


讲者简介


符尧:


爱丁堡大学博士生,师从 Mirella Lapata 教授。硕士毕业于哥伦比亚大学,本科毕业于北京大学。目前研究方向为结构化隐变量模型与大规模语言模型,及两者在自然语言生成与推理上的应用。主页 http://franxyao.github.io/


分享内容


大规模结构化推断的随机算法


报告简介


在神经网络时代,离散结构化图模型取得了长足的进展。但经典动态规划推断算法仅对于小的状态空间有效(一般低于一百种状态),这在很大程度上限制了模型的表示能力。同时,在机器学习近期的工作中,随机化方法逐渐受到研究者们的注意,并被应用于大规模求和问题的加速。在这篇文章中,我们提出一族随机化的动态规划推断算法。我们的方法可以将离散结构化图模型推广到涵盖成千上万种隐状态的空间。我们的方法大范围适用于经典动态规划推断算法,包括分割函数,边缘分布,重参数采样与熵的计算。同时也适用于不同的图结构,包括线性结构,树结构,及一般的超图结构。我们的方法与自动微分兼容,因而可以被整合在神经网络中且支持基于梯度的优化方法。在我们的方法中,最核心的技术是将 sum-product 限制在动态规划计算图的随机子图中,从而将计算量降低多个数量级。我们进一步地使用 Rao-Blackwellization 和重要性采样来降低偏差和方差。在实验中,我们在不同的图结构和不同推断问题上展示了方法的有效性。我们进一步证明,当使用随机化动态规划来训练结构化变分自动编码器的时候,我们在防止后验分布坍缩的同时,还得到了更好的似然函数。



8月18日 15:00-15:20


讲者简介


黄斐:


清华大学计算机系博士生,师从黄民烈副教授。研究方向为非自回归模型与对抗文本生成,曾以第一作者或共同一作身份在ICML、ACL、EMNLP等国际会议上发表论文。


分享内容


基于有向无环图的非自回归机器翻译


报告简介


非自回归文本生成模型是一种新的文本生成范式。与传统自回归模型中的逐词迭代生成不同,它通过单次并行预测显著减少了解码时的延迟。本次报告将介绍清华&字节联合提出的DA-Transformer模型,该方法不仅摆脱了传统非自回归模型依赖知识蒸馏的问题,在翻译任务中也大幅超越了之前所有并行生成模型,最高提升 4.57 BLEU。同时也首次达到、甚至超越了传统自回归 Transformer 的性能,在最高提升 0.6 BLEU 的同时,能够降低7倍的解码延迟。


8月18日 15:20-15:40


讲者简介


夏俊:


西湖大学二年级直博生,导师为讲席教授李子青(Stan Z. Li),研究方向为图和序列的预训练技术,Ai for Science。目前在ICML, WWW, ACL, ACM MM等会议期刊发表论文多篇。


分享内容


重新思考图对比学习中的难负样本挖掘


报告简介


最近的研究表明,难的负样本(与锚点样本更相似的负样本)可以提高对比学习的表现。然而,我们发现现有的其他领域的难负样本挖掘技术并不能很好地促进图对比学习。我们对此现象进行了实验和理论分析,发现可以归因于图神经网络的消息传递机制。如果像其他领域那样仅仅把相似度做为衡量负样本难易程度的指标,在图对比学习中大多数的难负样本是潜在的假负样本(与锚点样本同一类)。为了弥补这一缺陷,我们利用混合分布来估计负样本为真负样本的概率,并设计了两种方案(即 ProGCL-weight 和 ProGCL-mix)来提高图对比学习的性能。


8月18日 15:40-16:00


讲者简介


魏嘉珩:


加州大学圣克鲁兹分校博士三年级学生,导师是助理教授刘扬老师。研究方向主要是可信赖的机器学习(鲁棒性),主要包括分类问题中的噪声标签,长尾分布,以及分布式鲁棒性学习等。目前已在ICLR, ICML, ECCV, AISTATS等会议发表多篇一作论文。个人主页https://weijiaheng.github.io/.


分享内容


当标签平滑(Label Smoothing)遇见噪声标签


报告简介


标签平滑(Label Smoothing)通过将one-hot标签平滑化,被看做一个简单而又十分有效的提升模型泛化能力的trick。尽管有研究表明标签平滑可以有效提升模型面对噪声标签的鲁棒性,我们发现已有的鲁棒性损失函数和标签平滑有着相反的作用。为了更好的解释这一现象,我们研究更为广泛的标签平滑(平滑率从[0, 1)区间拓展到(-∞, 1)):从理论上证明当噪声比较大的时候,负平滑率能更有效的提升模型的鲁棒性。实验上,我们也给出反向标签平滑(负平滑率)对于提升模型准确率的有效性。


8月18日 16:00-16:20


讲者简介


李北:


东北大学三年级博士生,导师是肖桐教授。研究方向包含机器翻译、多模态建模等。目前在ACL、EMNLP、ICML、AAAI等会议发表多篇论文。


分享内容


构建面向序列生成的多尺度Transformer模型


报告简介

目前的序列生成模型通常采用子词切分等技术来解决未登录词问题,但在建模过程中忽略了词边界等先验信息直接进行子词之间的信息交互,忽略了文本任务本身的词边界与短语关联信息。本工作尝试定义面向序列生成任务的尺度信息,包含:子词、词、短语。我们将经过子词切分后的各个输入token看做是个体,进而多个相邻个体组成一个群。通过建立不同尺度之间的关系:个体与个体之间的关系,群内关系与群间关系,从而让模型显性地感知到词边界信息与短语关联,进而提出面向序列生成任务的多尺度Transformer模型。


8月18日 16:20-16:40


讲者简介


李思杭:


中国科学技术大学硕士,师从何向南教授和王翔教授。研究图神经网络的预训练和泛化。


分享内容


针对图数据不变特征的对比学习方法


报告简介

现有的图对比学习框架中的数据强化方法可被分为两类:一类是随机破坏原图特征,这可能导致原始数据语义信息的改变;另一类则利用外源的领域知识进行指导,会导致模型的泛化能力的下降。因此,我们提出一种一种新的通用图对比学习框架,在进行数据强化时保留下原始图数据的本质特征,构建出更为有效的强化视图,从而提升预训练模型的泛化性能。


8月18日 16:40-17:00


讲者简介


朱兆成:


蒙特利尔学习算法研究所(Mila)在读博士生,师从唐建老师。本科毕业于北京大学。主要研究方向包括图表征学习、知识图谱推理、药物发现和大规模机器学习系统。更多信息请参考个人主页:https://kiddozhu.github.io/

分享内容


知识图谱中逻辑查询的求解


报告简介

逻辑查询是知识图谱上多跳推理的一种常见形式。传统符号主义方法通过检索一个完整的知识图谱得到结果,具有很好的可解释性。当代神经网络方法则是在embedding空间里求解逻辑查询。神经网络虽然可以处理不完整的知识图谱,却缺乏可解释性。本文提出了基于图神经网络的查询执行模型(GNN-QE),兼具上述二者的优势。在GNN-QE中,所有中间变量都是可解释的模糊集合,一个逻辑查询可以拆分为模糊集合上的多个关系投影(relation projection)和逻辑运算。其中关系投影由图神经网络实现,逻辑运算用乘法模糊逻辑实现。GNN-QE在三个一阶逻辑查询数据集上都取得了优异的性能,同时可以可视化推理的中间过程,并在没有显式监督信号的情况下预测答案个数。



推荐阅读

【AI TIME 】KDD2022博士论文奖冠亚军对话>>
【AI TIME】科普大佬说之AI与数学丨AI的拓扑几何基础>>
【AI TIME】百辨太魔人|那些年我们与计算机的爱恨情仇>>
【AI TIME】回顾与展望神经网络的后门攻击与防御>>

编辑:王亚琨

蔻享学术 平台


蔻享学术平台,国内领先的一站式科学资源共享平台,依托国内外一流科研院所、高等院校和企业的科研力量,聚焦前沿科学,以优化科研创新环境、传播和服务科学、促进学科交叉融合为宗旨,打造优质学术资源的共享数据平台。

识别二维码,

下载 蔻享APP  查看最新资源数据。


点击阅读原文,查看更多精彩报告!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存