倒计时1天丨SMP十周年系列论坛第八期:数据挖掘论坛重磅上线
数据挖掘是计算机领域的研究热点,涵盖理论、关键技术以及计算机核心应用等各个方面。而大数据时代的到来对人们的数据挖掘与分析能力提出了更高要求,尤其是在处理复杂多元的数据流时,往往容易受到数据扰动、噪声及离群点等影响,而鲁棒性作为用以表征对抗此类扰动的不敏感性,对数据挖掘算法及机器学习模型在数字和物理世界的应用具有重大的意义。本次论坛将围绕模型鲁棒性研究为主题,从理论基础、模型设计及应用评估几方面展开研讨,以期全方位展现鲁棒模型的价值和前景。
「SMP十周年系列论坛第八期:数据挖掘论坛」将于2022年1月15日(本周六)上午线上举办,有幸邀请到来自清华大学、密西根州立大学、北京大学、复旦大学的五位专家学者进行分享,围绕模型鲁棒性研究展开讨论,欢迎感兴趣的师友们一同加入探讨。本期论坛由智源社区提供支持,媒体支持为PaperWeekly、MLNLP(机器学习算法与自然语言处理)社区。
论坛概况
论坛主题:模型鲁棒性研究探讨
论坛主席:杨 洋(浙江大学副教授)、赵 姝(安徽大学教授)
论坛安排:25mins Presentation+5mins Q&A
直播时间:2022年1月15日 09:00-12:30
观看方式:
智源社区:
https://event.baai.ac.cn/activities/230
B站直播:
https://live.bilibili.com/21484823
腾讯会议:
https://meeting.tencent.com/dw/KoNB6eWIQmKC(#腾讯会议:616-371-130)
会议流程
欢迎感兴趣朋友扫码报名参会,共同研讨!
论坛主席
杨 洋
浙江大学副教授
主席简介:浙江大学计算机科学与技术学院副教授,博导,人工智能系主任,信也-浙江大学人工智能研发中心副主任。2016年毕业于清华大学计算机系,师从唐杰教授和李涓子教授。获中国电子学会优秀博士学位论文提名奖、清华大学优秀博士毕业论文、北京市优秀博士毕业生等荣誉。2012年访问美国康奈尔大学,与图灵奖得主John Hopcroft教授合作,2013年访问比利时鲁汶大学,与Marie-Francine Moens教授合作。研究方向为社会网络挖掘,具体包括网络表示学习、网络异常检测、用户行为建模、城市人口迁移计算等。在KDD、WWW、AAAI等国际顶级学术会议上发表论文40余篇。担任中国中文信息学会社会媒体处理专委会委员(数据挖掘工作组组长),担任KDD'18'19'20、AAAI'19、WSDM'16'17'19'21、 WWW'17、CIKM'16'17、ICWSM 2017、ASONAM 2015等国际学术会议程序委员会委员。
赵 姝
安徽大学教授
主席简介:安徽大学计算机科学与技术学院教授、博导,智能计算与知识工程研究所所长。2010年访问美国加州大学伯克利分校,2019年访问美国伊利诺伊大学芝加哥分校。主要研究领域包括社交网络、数据挖掘、机器学习、粒计算。承担了十多项国家级、省部级科研项目和企事业委托课题;在TKDE、TKDD、TOIS、IJCAI 、EMNLP及《计算机学报》等国际和国内人工智能领域具有重要影响力的刊物和会议发表论文50 多篇,获得多项发明专利和软件著作权。担任中国中文信息学会社会媒体处理专委会委员、中国人工智能学会粒计算与知识发现专委会常务委员、安徽省人工智能学会常务理事、安徽省人工智能学会认知智能与知识工程专委会副主任、安徽省计算机学会理事。
论坛嘉宾
唐 杰
SMP专委会常务副主任
清华大学教授
智源研究院学术副院长
嘉宾简介:唐杰,清华大学计算机系教授、系副主任,获杰青。研究人工智能、认知图谱、数据挖掘、社交网络和机器学习。发表论文300余篇,引用18000余次,获ACM SIGKDD Test-of-Time Award(十年最佳论文)。主持研发了研究者社会网络挖掘系统AMiner。担任IEEE T. on Big Data、AI OPEN主编以及WWW’21、CIKM’16、WSDM’15的PC Chair。获北京市科技进步一等奖、人工智能学会一等奖、KDD杰出贡献奖。
论坛讲者
密西根州立大学副教授
讲者简介:汤继良,2016年秋季加入密西根州立大学,担任计算机科学与工程系助理教授。2021年晋升为副教授。在这之前,他曾担任雅虎研究院研究员。他于2015年从亚利桑那州立大学取得博士学位。于2010年和2008年从北京理工大学获得硕士和本科学位。他曾经获得2021 ICDM Tao Li Award,2021北美计算机华人协会新星奖,2021 IEEE 大数据安全研究奖,2020 SIGKDD新星奖(Rising Star Award),2019美国自然科学基金杰出青年奖(NSF Career Award),和包括KDD、WSDM等在内的7项领域会议的最佳论文奖(或者提名)。他的博士论文获得2015 SIGKDD最佳博士论文(KDD Best Dissertation)亚军和院长优秀博士论文奖(Dean’s Dissertation Award)。他是SIAM数据分析小组和ACM TKDD期刊的秘书长。他经常当任顶级会议的组织者(如:KDD,SIGIR和WSDM)和顶级期刊的编委(如:TKDD和TKDE)。他的研究成果发表在领域顶级的期刊和会议上,现已获得了超过18,000多次的引用(h-index: 65)和媒体广泛的关注和报道(如:New Scientist)。
报告摘要:机器学习模型的安全性和公平性是实现可信人工智能的最重要的两个方面。近几年来, 模型的安全性和公平性引起了广泛地研究。大家一般假设这两方面是独立的,所以现有的研究只关注其中一方面。在本次演讲中,我首先揭示安全性和公平性之间并不独立:实现安全性会引入公平性问题;保证公平性会让模型更加地不安全。接着我会从理论的角度去理解这些发现。最后介绍如何达到安全性和公平性之间的平衡。
王立威
北京大学教授
讲者简介:王立威,北京大学教授,智能科学系副主任。长期从事机器学习理论研究。在机器学习国际权威期刊会议发表高水平论文150余篇。担任机器学习与计算机视觉顶级期刊IEEE TPAMI编委。多次担任国际机器学习旗舰会议NeurIPS,ICML,ICLR领域主席与高级领域主席。入选AI’s 10 to Watch,是该奖项自设立以来首位获此荣誉的中国学者。
报告摘要:标准的神经网络尽管具有较高的分类精度,却容易受到小的ℓ∞-范数有界对抗扰动的影响。尽管已有研究者做出大量尝试,但大多数研究局限于为特定攻击方法设计的防御模型提供实证检验,或者只能在有限的场景中对模型鲁棒性提供认证保障。基于此,本次报告介绍一种新的方法来建立一个具有理论依据的神经网络,该神经网络可以抵御ℓ∞的扰动。由此特别设计了一种新型神经元,该神经元以ℓ∞-距离作为基本运算,称为ℓ∞-dist神经元,并表明了任何运用ℓ∞-dist神经元构建的神经网络(称为ℓ∞-dist网络)是与ℓ∞-norm相关的1-Lipschitz 函数,这直接为基于预测输出裕度的可认证鲁棒性提供了严密保证。在理论层面,所提出的神经网络被证实具有足够的表达力,可以逼近任何保证具有鲁棒泛化的1-Lipschitz函数。在实验层面,以ℓ∞-dist网络作为基本构建块应用在常用数据集上始终能取得最好的性能表现:在MNIST ( ϵ = 0.3 )上的认证准确率达到93.09 %,在Fashion MNIST ( ϵ = 0.1 )上的认证准确率达到79.23 %,在CIFAR-10 ( ϵ = 8 / 255 )上的认证准确率达到35.10 %。
复旦大学副研究员
讲者简介:桂韬,复旦大学现代语言学研究院副研究员。主要研究方向为自然语言处理、信息抽取、鲁棒模型。2021年获得复旦大学博士学位,已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文30余篇。曾获中国中文信息学会优秀博士论文奖、2019 百度奖学金(全球 10 名华人)、2020 IBM 奖学金、2019&&2020 国家奖学金、复旦大学“学术之星”特等奖、COLING2018 领域主席推荐奖、NLPCC2019 亮点论文奖。主持华为、美团、头条、悟道等多个基金项目。担任TPAMI、ACL、EMNLP、AAAI、IJCAI等国际著名会议期刊程序委员会成员和审稿人。
报告主题:自然语言处理算法鲁棒性研究思考报告摘要:深度神经网络在几乎全部自然语言处理任务中都取得了非常好的效果,在包括阅读理解在内很多任务的标准评测集合上达到了超越人类的准确性。然而,我们在实际应用中却发现,在真实场景中很多模型的效果大打折扣,所获得精度甚至远远低于传统机器学习方法。近年来的很多研究也表明,深度神经网络模型在仅仅添加了很小的扰动的样本上,其预测效果也很可能出现大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中,将针对自然语言处理算法的鲁棒性问题,在语料构建、文本表示、模型分析、鲁棒性评测等方面的最新研究进行介绍。
许嘉蓉
复旦大学副研究员
讲者简介:许嘉蓉,复旦大学副研究员,浙江大学博士,加州大学洛杉矶分校访问学者。主要研究方向包括网络表示学习、社交网络分析、数据挖掘。曾在KDD、AAAI、NeurIPS、TKDE、TKDD等学术会议和期刊发表论文十余篇。曾担任KDD'20-22、SDM'22等国际学术会议程序委员会委员,TKDE等期刊审稿人。
报告主题:基于图数据的鲁棒机器学习
报告摘要:近年来,虽然研究人员在基于图(网络)数据的机器学习模型上已取得长足进展,但由于图数据中节点之间存在复杂的关联性,图模型很容易被图数据中的微小扰动所欺骗。本次报告针对图数据中的噪声和恶意攻击带来的潜在威胁,汇报了我们在基于图数据的鲁棒机器学习上的一些最新进展。具体而言,报告首先探讨了图数据中的噪声,并提出相应的网络重构方法;其次探究了现实场景下网络对抗攻击的存在性和有效性;最终,为了进一步抵御网络中的对抗攻击,报告讨论了一种对抗场景下的鲁棒图模型,实现只需要训练一个无监督的鲁棒图编码器,就能够有效防范网络对抗攻击在各种下游任务中的风险。
郑勤锴
清华大学KEG实验室研究助理
讲者简介:郑勤锴,清华大学KEG实验室研究助理,本科及硕士毕业于上海交通大学,并取得巴黎高等电信学校工程师学位。研究领域是图神经网络及其鲁棒性,曾获得KDDCUP 2020 “图对抗攻击与防御”竞赛第一名,并在NeurIPS'21提出了图机器学习的鲁棒性基准平台(Graph Robustness Benchmark,https://cogdl.ai/grb/home),旨在有效评估图机器学习方法的对抗鲁棒性。
报告主题:图鲁棒性基准GRB:评估图机器学习方法的对抗鲁棒性
报告摘要:对抗攻击的存在给图机器学习模型的应用带来了巨大威胁,如何提高模型的鲁棒性成为一个关键问题。针对以往工作在鲁棒性评估上存在的问题,我们提出了图鲁棒性基准(Graph Robustness Benchmark,GRB),提供了具备实际意义的攻防场景、不同规模的数据集、十余种攻防方法、便捷易用的API、公开可复现的排行榜等,旨在提供一种模块化、可扩展、易复现的新基准,更好地评估图机器学习方法的对抗鲁棒性。
会议交流
进入SMP 2021大会官网!