查看原文
其他

清华提出首个面向无监督和半监督新意图发现的文本聚类框架USNID

OpenMMLab
2024-11-23

【社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~





本期精彩



针对自然语言处理中的新意图发现问题,清华大学计算机系 THUIAR 研究组聚焦于文本无监督和半监督聚类任务,提出了 USNID 框架,能有效利用无监督或者少量有监督数据指导聚类发现。他们提出的方法能够先捕捉浅层语义相似性关系,再利用簇中心指导的聚类机制构造高质量自监督信号挖掘深层意图语义。


此外,团队还提出了简单有效的估计簇个数方法。在基准意图数据集上,USNID 在无监督和半监督聚类任务相比现有方法取得了十分显著的提升,首次在无监督新意图发现任务取得突破性进展。在未知簇个数的开放环境也取得十分鲁棒的性能。


本次社区开放麦,我们特别邀请到清华大学计算机系直博四年级研究生张瀚镭同学为大家带来 USNID 文本聚类框架的分享,更多精彩内容请锁定本周四晚 20:00 的社区开放麦直播。



分享内容


  • 自然语言处理中的新意图发现问题

  • 无监督和半监督聚类框架

  • 聚类簇个数估计



分享时间


北京时间

2024 年 1 月 25 日(周四)

20: 00 - 20: 40(分享)

20: 40 - 21: 00(Q&A)



分享嘉宾


张瀚镭


清华大学计算机系智能技术与系统国家重点实验室、THUIAR 研究组直博四年级研究生,导师是徐华副教授。研究方向包括开集识别、半监督和无监督聚类、自然语言处理、多模态机器学习,旨在解决真实开放世界和多模态环境下的意图理解问题。


他率先开展开放意图检测、新意图发现、多模态意图理解三个重要方向的相关研究,在文本开集识别、半监督和无监督聚类、多模态意图识别等领域提出了一系列代表性算法和开创性工作,搭建了第一个文本开放意图识别平台 TEXTOIR,构建了第一个多模态意图识别数据集 MIntRec 以及第一个大规模多模态多轮对话意图识别和领域外检测数据集 MIntRec2.0。目前已经以第一作者身份在 ICLR, IEEE TKDE, ACL, AAAI, ACM MM, IEEE/ACM TASLP 等人工智能顶级国际会议和期刊录用或发表7篇论文,谷歌学术一作引用累计 200 余次。连续三年获评清华大学综合优秀一等奖学金。


个人主页:https://hanleizhang.github.io/



内容详情


新意图发现是自然语言处理中十分重要且具有挑战的任务,本次分享介绍该领域的最新进展,基于论文 A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery,该项工作已被人工智能和数据挖掘领域顶级期刊 IEEE TKDE(CCF-A)接收,审稿人评价提出的方法技术完整和扎实、创新且有效。


挖掘用户潜在需求和意图是实现良好人机交互的关键环节,发现的新类别意图可以帮助完善对话系统和用户画像建模,从而更好地为用户服务,具有巨大的商业前景和应用价值。为了解决这个问题,我们提出了新意图发现任务[1],旨在通过挖掘大量无监督文本中的复杂语义信息发现具有相似意图样本的簇模式,也是一个聚类任务。


然而,在没有任何先验知识的无监督环境下利用高维离散的文本数据学习对聚类友好的特征表示尤为困难,因此已有工作往往从半监督聚类入手解决这个问题,即利用有标注的已知意图数据作为先验知识指导无监督数据聚类进而发现新意图簇。由于在真实世界场景中,大量高质量标注数据往往需要昂贵的时间和人力成本,我们希望利用尽可能少量的有标注数据(如已知意图数据的 10%)指导聚类过程挖掘无标注数据中的语义相似性关系,半监督新意图发现示例[2] 如下图所示:




现有工作(如 CDAC+[1], DeepAligned[2], MTP-CLNN[3] 等算法)在半监督新意图发现任务已经取得了较大进展,但非常依赖有标注先验信息,在无监督新意图发现任务(即无监督文本聚类)上效果仍十分有限。因此在这个工作中,我们提出了第一个面向无监督和半监督新意图发现的文本聚类框架 USNID, 它能够有效利用大量无监督数据或包含少量有监督信息的半监督数据,在预训练的基础上,构建高质量自监督信号进行深度聚类和表示学习,从而捕获高维离散文本特征包含的复杂语义。模型总体框架如下图所示:



无监督 USNID 方法首先通过构建强增广样本进行无监督对比学习获得对聚类友好的初始特征表示,然后通过一个简洁高效的基于簇中心指导的聚类策略构建高质量自监督信号,用于同时优化样例级和簇级别目标函数,再交替进行聚类和表示学习过程直到收敛。无监督新意图发现模型图如下所示:



在无监督 USNID 基础上,半监督 USNID 则充分利用少量有监督数据帮助学习对聚类友好的特征表示。在预训练阶段,通过半监督对比学习和监督学习将有标注数据的分类信息有效迁移至无监督数据,进而指导聚类过程。在交替进行聚类和表示学习阶段,通过引入监督对比学习增强模型学习数据之间的相似性关系。半监督新意图发现模型图如下所示:



此外,我们对无监督和半监督设置均提出了一种简单高效的簇个数估计方法,针对真实场景聚类簇个数未知的开放环境提供了可行的解决方案。在实验中,我们对比了 15 个文本无监督和半监督聚类基线方法。在无监督条件下,我们提出的方法在三个数据集均取得了 SOTA 性能,并在 ARI 聚类指标取得了17-30 个百分点的绝对提升。在半监督条件下,我们对比了已知类别占全部类别数量的 25%、50% 和 75%三种设置,USNID 同样取得了 SOTA 性能,在多数聚类指标取得了 1-9 个百分点的显著提升。实验结果如下表所示:



我们同时还对比了在未知簇个数的开放环境下的模型表现。在不同初始簇个数条件下,提出的方法在无监督和半监督设置下均取得了最好且鲁棒的性能,如下图所示:



论文中涉及的数据集和全部无监督半监督聚类算法均在我们之前提出的 TEXTOIR[4] 框架中的新意图发现模块高质量开源,欢迎大家使用!



论文链接:

https://ieeexplore.ieee.org/document/10349963


预印版论文链接:

https://arxiv.org/abs/2304.07699


代码链接:

https://github.com/thuiar/TEXTOIR



交流群


同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行 1v1 沟通 ,扫码即可入群~



参考文献:


[1] Ting-En Lin, Hua Xu, and Hanlei Zhang. 2020. Discovering New Intents via Constrained Deep Adaptive Clustering with Cluster Refinement. In Proceedings of AAAI 2020.


[2] Hanlei Zhang, Hua Xu, Ting-En Lin, and Rui Lyu. 2021. Discovering New Intents with Deep Aligned Clustering. In Proceedings of AAAI 2021.


[3] Yuwei Zhang, Haode Zhang, Li-Ming Zhan, Xiao-Ming Wu, and Albert Y.S. Lam. 2022. New intent discovery with pre-training and contrastive learning. In Proceedings of ACL 2022.


[4] Hanlei Zhang, Xiaoteng Li, Hua Xu, Panpan Zhang, Kang Zhao, and Kai Gao. 2021. TEXTOIR: An Integrated and Visualized Platform for Text Open Intent Recognition. In Proceedings of ACL 2021.





往期回顾



上期社区开放麦,我们特别邀请到 MMPose 团队,他们为我们介绍了 RTMO 和 RTMW 的原理和使用方式,并且分享了如何使用 MMPose 研发 SOTA 算法的技巧和心得。


感兴趣的同学,可以通过直播回放学习一下哦~



万字详解书生·浦语2.0!综合性能领先开源社区,支持免费商用!

2024-01-19

出息了,豆哥自己挣到猫粮了!领域知识助手茴香豆的进化之路

2024-01-18

谁是最强多模态模型?评测框架 VLMEvalKit 全方位揭秘多模态能力

2024-01-17

继续滑动看下一个
OpenMMLab
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存