其他
复杂图上的知识迁移学习
导读 本文将分享关于复杂图上知识迁移的一些尝试和观点。
主要围绕以下四个部分展开:1. 图上知识迁移介绍
2. 图数据知识迁移的初步实践
3. 普适场景下的图知识迁移方法-KBL
4. 问答环节
分享嘉宾|毕文东 腾讯 研究员
编辑整理|于苗苗
内容校对|李瑶
出品社区|DataFun
01
图上知识迁移介绍
1. 图上知识迁移的定义
2. Data Hungry 问题
可用的数据量比较少; 数据的质量比较低,比如数据存在一些噪声,或者标注的错误等。
3. Data Hungry 解决方法
4. 图数据的分布偏移
图表示学习是当下很火的用来学习图上节点级别、边级别以及整个图级别表示的学习方法。但传统的图表示学习是建立在独立同分布的 I.I.D 假设的基础上的,对于不同 domain 数据下存在的分布偏移情况是不适用的。 图上学习任务主要分为节点级别、边级别、图级别三种,图上的分布偏移也是对应这三种任务而产生的,其中目前研究比较多的是节点级别和图级别的分布偏移问题。
5. 邻居分布表征
邻居的均值其实就是邻居特征分布的最简单的一阶统计量,但一阶统计量不足以表示一个完整的分布。以最简单的高斯分布为例,它的自由度是 2,说明它至少需要有均值和方差两个统计量才能够确定其分布; 此外,大多数图本身比较稀疏,我们无法保证邻居分布一定可以被近似为高斯分布,所以需要用更复杂的特征函数来表示。
6. 传统迁移学习
通常会将数据区分成源域 source domain 和目标域 target domain; 根据训练阶段使用的标签数量或质量,可以进一步将迁移学习拆分成几个子问题,比如 0 样本学习 Zero-short learning、少样本学习 Few-short learning,以及弱样本学习 Weak-shot learning。
02
图数据知识迁移的初步实践
1. 两大真实场景
(1)政治选举的 Twitter 社交网络场景
像特朗普、拜登这样的政治名流 普通用户
(2)金融网络场景
上市公司规模更大、信息更加公开透明,比如上市公司每年/季度会发布财务报表类信息; 非上市公司规模相对较小,信息也难以获取。
2. VS-Graph 场景
通常现实生活中有很多的大 V 或明星节点,数量比较少,小 V 占据了更多的数量; 这些大 V 节点通常是比较 popular 的,信息更全,与它们相连的节点数量也更多,对应之前提到的像特朗普、拜登这样的政治名人,以及金融网络里面的上市公司。小 V 通常 unpopular,信息量更少,对应普通的 Twitter 用户以及非上市公司。
3. 知识可迁移图神经网络 KTGNN 模型
(1)模型总体示意图
第一部分:小 V 节点的缺失属性的补全。 第二部分:VS-Graph 上的跨领域节点的消息传递。相较于传统的 GN,不区分消息传递的方向,即大 V 节点和小 V 节点之间、大 V 节点和大 V 节点之间、小 V 节点和小 V 节点之间消息的传递。其中,在考虑跨领域节点的消息传递的时候,不得不去考虑小 V 和大 V 节点在数据分布上的差异。 第三部分:针对不同 domain 节点的分类,我们设计了跨领域节点的可迁移的分类器。
(2)模型验证结果
03
普适场景下的图知识迁移方法-KBL
输入数据必须是图数据 不同 domain 节点需要有边进行相连
1. 非图数据为什么也需要图知识迁移方法
源域数据中的狮子和老虎还可以进一步分成成年和幼年 目标域数据只有幼年老虎和幼年狮子
迁移学习学习的是从这个源域向目标域迁移的分类模式。例如,分类模型的分类面就是一种典型的分类模式。但是由于数据分布不同,来自不同 domain 数据的分类界面也不同,所以往往我们不能直接迁移过来。 迁移学习是分类模式的整体迁移,该分类模式可能是跨领域不变的。但源域中的数据并不是所有的信息对于目标域数据都是有效的,只有源域中的幼年老虎和幼年狮子对于这个目标域数据是有效的。此时如果我们还是从整体上迁移领域知识,很有可能会产生负迁移的效果。
2. KBL 的定义
首先学习知识迁移的有效的 scope; 用 graph 结构表征这个 scope; 在规定的 scope 下完成样本间的知识迁移。
3. 基于不同输入数据类型的分类
非图数据上的知识迁移:比如图片数据、向量或 NLP 的文本数据,不同的样本之间是相互独立的。 跨网络的知识迁移:输入的是两个独立的不同 domain 的 graph。我们输入的 graph 上是只是存在着同 domain 内的样本节点的连边,但是不存在跨网络的连边。 同一个 graph 上存在不同 domain 节点:同一个图里存在着不同 domain 的节点,之前讲的 VS-Graph 也是该场景的一个特例。
4. KBL 的实例化-Bridged-GNN 模型
将来自不同 domain 的数据输入给自适应的知识检索模块 AKR,该模块用来学习不同 domain 样本对的相似性,包括领域内样本的相似性和领域间样本的相似性,最终该模块会输出一个样本对的相似度矩阵。 基于学习到的多领域样本对的相似性,构建 bridged-graph,即在相似度高的样本之间进行连边,用于限定知识迁移的范围。如果输入数据本来就是一个 graph,则根据所学习到的跨领域的样本对相似性去掉一些原本相似性比较低的边,得到 bridged-graph。 通过一个图神经网络 GNN 以消息传递的形式完成 bridged-graph 上的知识迁移。
5. Bridged-GNN 模型的三大关键模块
(1)自适应的知识检索模块
(2)相似度学习模块
(3)图神经网络模块
6. 实验结果
(1)非图数据上的知识迁移场景
DNNT:只在目标域上训练模型; DNNS->T:先在这个源域上训练模型,再在目标域上训练模型,即预训练+微调范式; DNNS+T:同时把源域数据和目标域数据作为训练样本进行模型训练。
(2)跨网络数据上的知识迁移场景
(3)同一个图数据上包含多个 domain 节点的场景
04
问答环节
分享嘉宾
INTRODUCTION
毕文东
腾讯
研究员
腾讯算法研究员,主要研究方向为图神经网络、社交网络挖掘,中科院计算所硕士,本科毕业于上海交通大学,曾获国奖、北京市优秀毕业生,一作论文发表在 KDD、WWW、CIKM、WSDM 等学术会议。
往期推荐
开源delta lake 3.0 优势和发展
多模态大模型在文本和视频分析中的应用
流式数据湖 Paimon 0.7 的研发进展
多模内容理解在百度商业广告中的探索实践
直播预告| 智能运维,如何让中小企业数据库管理更高效?
哔哩哔哩基于 Iceberg 的智能数据组织优化实践
图技术在金融反欺诈中的应用
CloudCamel:OPPO 云上大数据极致优化之路
ClickHouse企业版商业化精要解读
点个在看你最好看
SPRING HAS ARRIVED