查看原文
其他

干货!深度描述聚类——加州大学戴维斯分校计算机系博士生张洪境

爱国 AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


本文旨在研究可解释聚类,现有的可解释聚类大多针对于特征可理解的表格型数据,然而大部分深度聚类模型被运用在图像,文本等特征抽象复杂的数据上。在这项工作中,我们通过引入语义标签提出了一种新的针对复杂数据的深度可解释聚类模型。具体地说,我们通过最大化互信息来进行无监督聚类,根据聚类的中间结果与语义标签我们求解一个基于整数规划的解释性目标函数来为每个簇生成简洁且正交的解释。最后我们提出一个自监督的成对样本损失函数来最大化聚类特征空间和类别解释模块的一致性。在公共图像数据集的实验结果表明我们提出的模型可以生成高质量的类别解释与优异的聚类效果。


本期AI TIME PhD直播间我们邀请到加州大学戴维斯分校博士——张洪境,为我们带来报告分享《深度描述聚类》。



张洪境:


加州大学戴维斯分校计算机系博士研究生,博士导师为Ian Davidson,主要研究方向为半监督学习,可解释AI和公平性机器学习。以第一作者在IJCAI, SDM, ECMLPKDD, DMKD等国际会议与期刊上发表多篇论文。个人主页: https://honhjingz.github.io/。


01

 背   景 


机器学习模型在很多场景下都能够替代人类进行决策,因此理解模型的决策十分重要。可解释AI致力于提高复杂机器学习模型的可解释性,尤其是深度学习相关的算法。本文工作主要关注深度聚类算法的可解释性,假设我们使用深度聚类算法对下图左边的6个动物进行聚类生成A、B两个簇(cluster),这里就会有一个问题:如何描述和概括这两个簇?



现有的工作主要分为两类,一类是Explanation by Design,即学习聚类的同时生成相应解释,这类算法不适用文本图像等特征较抽象且难以理解的数据,并且不同的聚类算法需要设计不同可解释方法;另一类是Explanation by Post-Processing,需要引入额外语义标签帮助解释,可以应用于不同聚类模型。



受到Explanation by Post-Processing的启发,我们引入语义标签作为深度聚类算法输入,帮助产生更好聚类算法的结果解释。

下面是一个深度描述聚类的例子,输入是无类别标签的图片和相应语义标签,输出是聚类结果和语义标签组成的类别表示。


现有的深度聚类算法是将需要聚类的数据输入到神经网络,然后生成聚类结果,而没有利用好相应的语义标签进行聚类解释的后处理。因此我们期望利用语义标签来提升深度聚类算法的效果和解释聚类结果。

 

02

 方   法 


本文提出的深度描述聚类(DDC)方法主要包括三个部分,第一个部分是基础深度聚类模型,用来对数据聚类,生成聚类结果。第二个部分根据语义标签和基础聚类模型的聚类结果求解一个带约束的类别解释目标函数,这部分输出包括生成的类别解释和一个语义解释映射函数,这个映射函数会过滤掉冗余标签来得到解释空间。


第三部分通过自监督学习生成约束对并进行优化——我们为具有相似解释但是在聚类空间中差异较大的样本对生成一致性约束,通过优化这种成对约束,我们最终使得解释空间中相似的样本对在聚类空间中也保持相似。

 


关于我们的基础聚类模型,它与传统的判别式聚类算法一致,我们通过最大化样本输入和类别指派的互信息来学习聚类。在我们提出的类别解释目标函数中,我们主要求解一个类别解释-整数规划问题,主目标是为每个簇求得简洁的语义解释,我们希望相同的解释在同一个簇的样本中拥有高的覆盖率,而这些解释在不同簇中尽量正交。在第三个模块中,我们通过最小化自生成的成对样本聚类结果的交叉熵来确保聚类特征空间与生成的解释空间保持高度一致。

 


03

 实   验 


数据集:AwA / aPY

评价指标:

 


实验结果:

下面是本文方法DDC与2018年Dao的聚类算法的对比,可以看出本文方法的解释拥有最高的TC值,意味着本文方法给的解释能够准确描述每个簇。此外DDC也达到了最高的ITF值,这意味着DDC给出的解释是独特的。好的聚类解释可以提升聚类效果,相比Dao的算法,DDC的聚类结果也更好,相近的动物都被聚类到一起。



当解释类别或者解释标签过多时,为了方便的验证与理解我们生成的解释。本文提出了另一种基于图形ontology的解释,我们分别为aPY和AwA生产了相对应的图形化解释。

 

下图中的节点名称是基于簇中的大多数类而决定的,当两个簇共享一定数量的语义标签时,我们会为两个簇生成一条边,表示这两类具有一定的相似性。我们可以从左边apy数据集对应的ontology图看出,我们生成的聚类结果大致被分为了四个群体,分别是动物,家具,小的物件和交通工具。同样的,右图是awa数据集对应的图解释,相同科属的动物因为分享了一些类似的语义标签从而被连接到了一起,比如狮子、老虎以及猫科动物。



论文链接: 

https://www.ijcai.org/proceedings/2021/0460.pdf。


点击“阅读原文”,即可观看本场回放

整理:爱   国

审核:张洪境


直播预告


1月26日 19:30  青年科学家-16

《青光眼估计和预测的深度学习模型》——香港理工大学电子计算学系研究助理教授许林川


往期精彩文章推荐


记得关注我们呀!每天都有新知识!

 关于AI TIME 


2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存