主动学习以及样本不均衡在图数据场景的探索
4. 结论
编辑整理|刘素辉
出品社区|DataFun
问题背景
样本标签的获取相当具有挑战性。这一点可以理解,因为我们大多数时候只能观察到普通正常用户的行为,他们出于合法需求注册并使用平台。然而,那些从事不正当行为的用户,比如那些试图滥用系统的薅羊毛用户,在总体用户中所占比例较小。因此,我们能够获得的有关这些少数不良用户的标签相对较少。这种标签的稀缺性也导致了另一个问题。 样本不均衡。由于不良用户的数量较少,这就造成了不同类别之间样本数量的不平衡。这种情况会进一步影响模型的训练和性能。标签获取困难以及样本不均衡问题都会影响模型的效果和稳健性。
标签获取通常具有挑战性,这是由于其难以获取。
标签获取也可能非常昂贵。在风控数据等领域,情况并不像在计算机视觉领域那样普遍。虽然大多数人都可以成为计算机视觉数据的标注员,但是在我们的问题中,数据的标注与业务场景紧密相关。这就导致了数据反馈和收集的周期较长,以及成本较高的问题。
我们在选择样本时,不仅会利用模型对样本进行分类并选择不确定性最高的样本,还会考虑图结构本身的特性。例如,我们会关注节点的度以及中心性等。这些信息与图的结构紧密相关,会指导我们制定具体的算法。这种方法的一个重点在于,在提高不确定性的同时,也要考虑选取代表性样本,以增强主动学习在图数据上的效果。
借鉴社交网络或图分析中的关键节点发现的思想。举个例子,我们要思考哪些节点的信息传播对整个图的影响最大,还要考虑信息的多样性,通过引入多样性来增强模型的稳健性。
我们首先需要获得一些用户以及他们之间的关联关系。利用图神经网络(例如GNN、GCN)来学习他们的一些基本嵌入信息。基于这些嵌入信息,我们能够计算节点的影响力。节点的影响力表示的是在整个图中节点自身的信息变化如何影响到其他节点信息的一种衡量。
此外,我们还希望结合节点的语义信息对其进行修正。我们的目标是,尽管节点可能在结构上具有较大的影响力,但这种影响力应仅体现在与其同类的节点上。通过这些步骤,我们得到了一种正向的影响力衡量方式。利用这个衡量方法,我们可以选择那些对相同类型的节点产生更大影响的一组数据样本。随后,在对这些数据样本进行标注时,我们可以基于其影响力进行有针对性的标注工作。
我们可以考虑采取一些样本平衡的策略。比如,对于数量较少的类型样本进行过采样,对于数量较多的样本进行降采样,以实现两类样本的相对平衡。
我们还可以在损失函数中进行优化,对不同类型的样本赋予不同的权重。对于样本数量较少的类型,可以赋予较大的权重,以期在模型学习过程中更加关注这些样本。
分类任务:预测节点所属的类型;
聚类任务:获得节点应当归属于的簇。
分享嘉宾
INTRODUCTION
周敏
华为
高级研究员
周敏,华为云算法创新 Lab 高级研究员。本科毕业于中国科学技术大学自动化系,博士毕业于新加坡国立大学工业系统工程与管理系。主要研究方向为机器学习,表征学习在序列数据、图数据的研究和应用。她的相关成果申请专利多项,并在 ICML,KDD,ICDE,SIGIR,WWW,Automatica,TKDE 等顶级会议和期刊发表论文多篇。她也是国内图学习社区图学习研讨会的发起人之一。