之后我们分别对三类语义证据进行了定量描述,提出了对应的三个指标。对于关系语义证据,其为训练集 中 和 的共现次数:对于实体语义证据,其为训练集中 到 的路径数,为简化问题这里控制路径长度 :对于三元组语义证据,其为训练集中 和其他正例实体 的相似度之和:这里为了衡量两个实体 和 的相似度,我们借鉴了自然语言处理领域的分布式语义假设,即”出现在相似上下文中的单词倾向于拥有相似的含义“(words that are used and occur in the same contexts tend to purport similar meanings)[1],使用两个实体的邻居(上下文)相似度来衡量其语义相似度。
▲图3. 语义证据的实例分析 对于关系语义证据,假如我们想预测 (San Diego, travel_month, ?)→December,即 San Diego 适合旅游的月份,若我们在训练集中已经观测到了(Miami, travel_month, ?)→December、(Zurich, travel_month, ?)→December、(Melbourne, travel_month, ?)→December,则我们一方面会知道 December是一个月份实体,其次它是一个热门的旅游时间段(可能因为圣诞假期),因此当我们在对 San Diego 进行预测时,就会倾向于预测出 December。 对于实体语义证据,假如我们想预测 (Robert Downey Jr, live_in, ?)→New York City,即 Robert Downey Jr的居住地点,若我们在在训练集中已经观测到他出生在 New York City、他的朋友居住在 New York City、他的妻子居住在 New York City,那我们会倾向预测 Robert Downey Jr 的居住地也为 New York City。 对于三元组语义证据,假如我们要预测 (Freshman Program, major, ?)→Computer Science,即新生项目包含的专业,若我们已经知道新生项目包含 Mathmatics 专业、Electrical Eng. 专业和 Chemical Science 专业,且这三类专业都和 Computer Science 非常相似,则我们可以推断新生项目也应该包含 Computer Science 专业。 上述只是某一方面语义证据发挥作用的场景,在实际过程中三类语义证据会共同起作用,来帮助模型做出正确的预测。最右侧列出了各类模型的预测结果,我们也可以看出对于具备充分语义证据的数据,所有模型都表现出了较好的外推性能。
[1] Harris, Zellig S. "Distributional structure."Word10.2-3 (1954): 146-162.
[2] Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data."Advances in neural information processing systems26 (2013).
[2] Sun, Zhiqing, et al. "RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space."International Conference on Learning Representations. 2018.
[4] Yang, Bishan, et al. "Embedding Entities and Relations for Learning and Inference in Knowledge Bases."Proceedings of the International Conference on Learning Representations (ICLR) 2015. 2015.
[4] Trouillon, Théo, et al. "Complex embeddings for simple link prediction."International conference on machine learning. PMLR, 2016.
[6] Dettmers, Tim, et al. "Convolutional 2d knowledge graph embeddings."Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 32. No. 1. 2018.
[7] Vashishth, Shikhar, et al. "Composition-based Multi-Relational Graph Convolutional Networks."International Conference on Learning Representations. 2019.