[AI安全论文] 22.图神经网络及认知推理总结和普及-清华唐杰老师
https://www.bilibili.com/video/BV1mJ411q7gy
唐杰老师PPT:https://pan.baidu.com/s/1Q3tX6wnQYcvBV3eSymbrKg 密码:8thm
唐杰老网站:http://keg.cs.tsinghua.edu.cn/jietang
文章目录:
一.Networked World
1.背景知识
2.相关工作
二.start with an example
三.表示学习:Representation Learning on Networks
1.表示学习
2.DeepWalk
3.Node2vec
4.LINE:Information Network Embedding
5.我们的工作:Unifying DeepWalk, LINE, PTE, and node2vec into Matrix Forms
6.我们的工作:NetMF
7.我们的工作:NetSMF
8.我们的工作:ProNE: Fast and Scalable Network Embedding
四.图神经网络:Revisiting Graph Neural Networks
1.总体概述
2.GCN
3.GraphSage
4.Graph Attention Networks
5.我们的工作:NRGCN(Node Ranking-aware GCN)
6.我们的工作:NSGCN(Network Sampling GCN)
五.Applications
App1: Social Prediction
App2: Recommendation in E-commerce
六.总结及感受
《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正。同时,前期翻译提升为主,后续随着学习加强会更多分享论文的精华和创新,在之后是复现和论文撰写总结分析。希望自己能在科研路上不断前行,不断学习和总结更高质量的论文。虽然自己科研很菜,但喜欢记录和分享,也欢迎大家给我留言评论,学术路上期待与您前行,加油~
前文推荐:
[AI安全论文] 05.RAID-Cyber Threat Intelligence Modeling Based on GCN
[AI安全论文] 06.NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
[AI安全论文] 14.S&P2019-Neural Cleanse 神经网络中的后门攻击识别与缓解
[AI安全论文] 21.S&P21 Survivalism经典离地攻击(Living-Off-The-Land)恶意软件系统分析
[AI安全论文] 22.图神经网络及认知推理总结和普及-清华唐杰老师
一.Networked World
2.相关工作
ML tasks in networksNode classification(节点分类或排序)
Predict a type of a given nodeLink prediction(节点之间的关系预测)
Predict whether two nodes are linked
在社交网络中是朋友关系推荐,在知识图谱中比如概念之间关系寻找Community detection(社区检测)
Identify densely linked clusters of nodes
寻找类簇或群体Network similarity(网络相似度)
How similar are two (sub)networks?
Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research (JMLR), 3:1137–1155, 2003.
原文地址:https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
Efficient Estimation of Word Representations in Vector Space
原文地址:https://arxiv.org/abs/1301.3781v3
原文地址:https://dl.acm.org/doi/10.1145/2623330.2623732
- Hamilton, Will, Zhitao Ying, and Jure Leskovec. “Inductive representation learning on large graphs.” Advances in neural information processing systems. 2017.
- 原文地址:
https://proceedings.neurips.cc/paper/2017/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf
DM tasks in networks:
– Modeling individual behavior
– Modeling group behavioral patterns
– Reveal anomaly patterns
– Deal with big scale
二.start with an example
我们第一个思路是将内容数据提取,然后每个节点内容做相关的features,然后再用Word2Vec转换向量,再构建模型做分类。
我们今天先不讨论内容,更多讨论结构。比如:这个节点影响另一个节点,这个节点为什么会被它影响而不被其他节点影响。
Peer influence
Conformity influence
Structural influence
三元组 Influence Learning
Influence features
Hand craft features
predictive mode
自动将复杂的图或case表示或映射成向量,再扔给机器学习完成剩下的任务
How to automate the representation of each user?
Representation Learning on Networks
Revisiting Graph Neural Networks
Applications
Conclusion and Q&A
三.表示学习
1.表示学习
Modern deep learning toolbox is designed for simple sequences or grids.
– CNNs for fixed-size images/grids…
– RNNs or word2vec for text/sequences…But networks are far more complex!
– Complex topographical structure (i.e., no spatial locality like grids)
– No fixed node ordering or reference point (i.e., the isomorphism problem)
– Often dynamic and have multimodal features.
2.DeepWalk
B. Perozzi, R. Al-Rfou, and S. Skiena. 2014. Deepwalk: Online learning of social representations. KDD, 701–710
缺点:DeepWalk是利用固定长度、乱随机游动为每个节点生成上下文
DeepWalk utilizes fixed-length, unbiased random walks to generate context for each node, can we do better?
LINE:显式地保留一阶和二阶的相似性
如图5和6应该更相似,但先前的方法可能学出来6和7更相似,在具体的实例中,7可能是房屋中介,8、9、10是卖家,5和6是买家,因此6和7相似度很低,除了买房的时候有关系,DeepWalk就存在这个问题。因此,LINE能解决该类问题。
PTE:继续扩展到异构文本网络上
Node2vec:use a biased random walk to better explore node’s neighborhood.
社交网络中存在三阶关系,即朋友的朋友是朋友。V在X1和X2中的相似度不一样,他们做了一个biased的工作,使用有偏随机游走来更好地探索节点的邻域。
3.Node2vec
local view
global view
A. Grover and J. Leskovec. 2016. node2vec: Scalable feature learning for networks. KDD, 855–864.
BFS:Local microscopic view(局部微观视图)
DFS:Global macroscopic view(全局宏观视图)
4.LINE:Information Network Embedding
J. Tang, M. Qu, M. Wang, M. Zhang, J. Yan, and Q. Mei. 2015. Line: Large-scale information network embedding. WWW, 1067–1077.
一种简单有效的方法:训练LINE模型分别将一阶相似度和二阶相似度写在一起,然后同时优化,将两种方法训练的embeddings连接起来
一个更有原则的方法是联合训练两个目标函数
5.我们的工作:Unifying DeepWalk, LINE, PTE, and node2vec into Matrix Forms
DeepWalk、LINE、PTE和Node2Vec本质上都在做矩阵分解
– D是diagonal矩阵;A是邻接矩阵;T是随机游走步数;Qiu et al. Network embedding as matrix factorization: unifying deepwalk, line, pte, and node2vec. WSDM’18. The most cited paper in WSDM’18 as of May 2019 5
DeepWalk is factorizing a matrix
LINE is a special case of DeepWalk T=1
word-word network、word-document network、word-label network
6.我们的工作:NetMF
Qiu et al. Network embedding as matrix factorization: unifying deepwalk, line, pte, and node2vec. WSDM’18. The most cited paper in WSDM’18 as of May 2019
https://github.com/xptree/NetMF
7.我们的工作:NetSMF
J. Qiu, Y. Dong, H. Ma, J. Li, C. Wang, K. Wang, and J. Tang. NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization. WWW’19.
https://github.com/xptree/NetSMF
8.我们的工作:ProNE: Fast and Scalable Network Embedding
J. Zhang, Y. Dong, Y. Wang, J. Tang, and M. Ding. ProNE: Fast and Scalable Network Representation Learning. IJCAI’19.
原来卷积网络能映射低通滤波,而这里的本质是带通滤波,从而避免丢失高阶信息
代码地址:https://github.com/THUDM/ProNE
四.图神经网络
1.总体概述
2.GCN
Kipf et al. Semi-supervised Classification with Graph Convolutional Networks. ICLR 2017
卷积神经网络CNN原理详解及TensorFlow编写CNN
Aggregate neighbor information and pass into a neural network
It can be viewed as a center-surround filter in CNN—graph convolutions!
Aggregate from v’s neighbors
Aggregate from itself
3.GraphSage
Hamilton, Will, Zhitao Ying, and Jure Leskovec. “Inductive representation learning on large graphs.” Advances in neural information processing systems. 2017.
原文地址:https://proceedings.neurips.cc/paper/2017/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf
4.Graph Attention Networks
Velickovic et al. Graph Attention Networks. ICLR 2018
5.我们的工作:NRGCN(Node Ranking-aware GCN)
Node attention
Edge attention
K-hop edge attention
Path attention
6.我们的工作:NSGCN(Network Sampling GCN)
实验结果如下图所示,效果更好。
同时支持inductive的实验。
五.Applications
最近,大家可能非常关心GNN的实际应用。我们也探讨了一些应用。
App1: Social Prediction
我们探讨了《王者荣耀》的信息探测。
J. Qiu, J. Tang, H. Ma, Y. Dong, K. Wang, and J. Tang. DeepInf: Social Influence Prediction with Deep Learning. KDD’18.
我们构建了 End-2-End Behavior Prediction Framework,通过该模型预测节点本身的信息。原来只通过拓扑结构学习一个表示,但是它在真实场景是很难用的,因为真实场景往往会添加很多属性,比如性别、职位、位置等。所以,我们的模型中允许它添加很多属性,最终来预测它的行为。
实验结果如下图所示:
App2: Recommendation in E-commerce
接着我们做了推荐系统:用户和商品的关系。
Y. Cen, X. Zou, J. Zhang, H. Yang, J. Zhou and J. Tang. Representation Learning for Attributed Multiplex Heterogeneous Network. KDD’19.
分析结果如下图所示:
整个模型如下图所示:
数据分析和代码如下:
https://github.com/THUDM/GATNE
分析的结果如下图所示:
同时在真实场景做了A/B测试,推荐系统上提高了点击率。
六.总结及感受
这次分享主要从背景知识、表示学习、图神经网络和真实场景应用四个方面介绍,下图是经典工作的总结和我们的相关工作。本来还想讲一些推理的事情,即ACL19的Cognitive Graph,根据兴趣来推理转换为决策过程,并且可以回溯和可解释;但看到另一位老师也在,他后续会补充。
一.Networked World
1.背景知识
2.相关工作
二.start with an example
三.表示学习:Representation Learning on Networks
1.表示学习
2.DeepWalk
3.Node2vec
4.LINE:Information Network Embedding
5.我们的工作:Unifying DeepWalk, LINE, PTE, and node2vec into Matrix Forms
6.我们的工作:NetMF
7.我们的工作:NetSMF
8.我们的工作:ProNE: Fast and Scalable Network Embedding
四.图神经网络:Revisiting Graph Neural Networks
1.总体概述
2.GCN
3.GraphSage
4.Graph Attention Networks
5.我们的工作:NRGCN(Node Ranking-aware GCN)
6.我们的工作:NSGCN(Network Sampling GCN)
五.Applications
App1: Social Prediction
App2: Recommendation in E-commerce
六.总结及感受
同时,推荐大家关注唐老师和B站的UP老师。
http://keg.cs.tsinghua.edu.cn/jietang
https://www.bilibili.com/video/BV1mJ411q7gy
个人感受简单总结下:
图神经网络和知识推理越来越重要,在各个领域都有应用,包括安全领域的知识表示(Asm2vec、log2vec、token2vec等)和图神经网络及知识图谱应用(溯源图、恶意代码检测、入侵检测等)。这篇博客作为一个入门,从唐老师的视角,能让大家更清晰整个领域的发展及应用。
唐老师的分享很棒,从经典的工作到存在的问题以及后续工作的改进,梳理了整个领域的知识点,也包括他们的现有工作,这种逐层改进能让我们更好地阅读论文和发散思维。其中两个知识点的结论如下:
– (1) 表示学习:这些经典方法(DeepWalk、LINE、PTE、Node2vec)都是由DeepWalk矩阵分解得到,因此实现了矩阵分解的统一;
– (2)图神经网络:该模型可以将不同的Attention机制增加到式子中,实现了统一(unify),包括GCN、GraphSage、GAN。同时,NSGCN通过采样提升性能。在传统机深度学习模型中,Word2Vec发挥了极其重要的作用,甚至导致了NLP的快速发展。那么,图结构能不能构建类似的模型呢?因此,我们要解决的第一个问题是如何将图表征为向量,然后更好地学习知识和实现预测。在图结构中,它会将邻接节点映射成NLP中上下文的信息,从而转换成类似NLP的问题,基于此(DeepWalk、LINE、PTE、Node2vec)有了后续的工作,这也体现了表示学习的重要性。
只有不断地向这些大牛和老师学习,阅读经典的顶会顶刊论文,探索不同方向论文的发展趋势及Motivation和Insight,才能更好地提升自己。这些知识不仅仅在AI和NLP中有应用,在安全四大顶会中我也看到了很多,在生物医学方面更多,所以学吧,学无止境!再次感谢唐老师的分享,以及B站的UP主。
虽然自己很菜,但会努力的,每天前进一小步,足矣!秀璋,加油。
这篇文章就写到这里,希望对您有所帮助。由于作者英语实在太差,论文的水平也很低,写得不好的地方还请海涵和批评。同时,也欢迎大家讨论,继续加油!感恩遇见,且看且珍惜。
(By:Eastmount 2022-05-28 周六夜于武汉)