多模态图学习蓝图：应用于视觉、语言、自然科学

复现者联盟集智俱乐部 2024-03-18

导语

复杂系统建模需要测量来自不同视角、不同尺度或通过多种模态（如图像、传感器读数、语言序列和紧凑的数学语句）描述相同对象的信息。如何融合来自不同模态的组合信息来构建预测模型呢？近日发表于 Nature Machine Intelligence 这篇文章引入了一种多模态图学习的蓝图，该框架可以帮助开发利用图进行多模态学习的新方法。作者将此方法应用于广泛的领域，包括计算机视觉、语言处理以及自然科学等。

为了探讨图神经网络在算法神经化求解的发展与现实应用，集智俱乐部联合国防科技大学系统工程学院副教授范长俊、中国人民大学高瓴人工智能学院助理教授黄文炳，共同发起「图神经网络与组合优化」读书会，聚焦于图神经网络与算法神经化求解的相关领域，包括神经算法推理、组合优化问题求解、几何图神经网络，以及算法神经化求解在 AI for Science 中的应用等方面，希望为参与者提供一个学术交流平台，激发参与者的学术兴趣，进一步推动相关领域的研究和应用发展。读书会从2023年6月14日开始，每周三晚 19:00-21:00 举行，持续时间预计8周。欢迎感兴趣的朋友报名参与。

关键词：深度学习，图神经网络，多模态学习，图数据网络

Yasha Ektefaie et al. | 作者

DataStream 复现者联盟 | 编译

有趣的方法PhD | 来源

论文题目：Multimodal learning with graphs论文来源：Nature Machine Intelligence论文链接：https://www.nature.com/articles/s42256-023-00624-6

1. 图神经网络用于多模态学习

2. 多模态图学习用于图像

3. 多模态图学习用于语言

4. 自然科学中的多模态图学习

5. 展望

摘要

图人工智能在复杂系统建模方面取得了显著成功，从生物中的动态网络到物理中的互动粒子系统。然而，越来越多的异质图数据集需要多模态方法，这些方法可以结合不同的归纳偏差，多模态算法用来对它们在训练期间没有遇到的输入进行预测假设。在多模态数据集上的学习具有挑战性，因为归纳偏差会因数据模态而异，并且输入中可能未明确给出图形。

为了应对这些挑战，图人工智能方法结合了不同的模态，同时通过几何关系利用了跨模态的依赖性。不同的数据集使用图进行组合，并被送入复杂的多模态架构中，被指定为图像密集型、知识基础型和语言密集型模型。利用这种分类，这篇文章介绍了多模态图学习（multimodal graph learning, MGL）的蓝图，用它来研究现有方法，并提供设计新模型的指南。

引言

深度学习在图数据上的应用为生物学、化学、物理学和社会科学等领域的突破做出了贡献。图神经网络的主要用途是基于神经信息传递策略学习各种图组件（如节点、边、子图和整个图）的表示。学习到的表示用于下游任务，包括通过半监督学习、自监督学习和图设计与生成进行标签预测。在大多数现有应用中，数据集明确描述了图的节点、边以及表示上下文知识的附加信息，如节点、边和图的属性。

建模复杂系统需要测量来自不同视角、不同尺度或通过多种模态（如图像、传感器读数、语言序列和紧凑的数学语句）描述相同对象的信息。多模态学习研究如何优化这些异质复杂描述符，以创建广泛可推广、对底层数据分布的变化具有鲁棒性，并能够用较少标记数据进行更多训练的学习系统。

虽然多模态学习已成功应用于单模态方法失败的场景，但它面临着几个挑战，需要克服才能实现在人工智能领域的广泛应用。这些挑战包括找到针对机器学习分析进行优化的表示形式，以及融合来自不同模态的组合信息以创建预测模型。

这些挑战是困难的。例如，多模态方法往往只关注在模型训练过程中最有帮助的一部分模态，而忽视了对模型实现可能具有信息量的模态，这是一个被称为模态坍塌（mode collapse）的陷阱。此外，与经常假设每个对象必须存在于所有模态的观点相反，由于数据收集和测量技术的限制，完整的模态集很少可用，这是一个被称为模态缺失（modality missing）的挑战。由于不同模态可能导致复杂的关系依赖，简单的模态融合不能充分利用多模态数据集。图学习模型通过将不同模态的数据点连接为在最佳定义的图中的边，为此类数据系统提供了解决方案，并为各种任务构建学习系统。

这篇文章引入了一种多模态图学习的蓝图。MGL蓝图提供了一个框架，可以表达现有的算法，并帮助开发利用图进行多模态学习的新方法。该框架允许学习融合的图表示，并研究前述的模态坍塌和模态缺失的挑战。作者将此方法应用于广泛的领域，包括计算机视觉、语言处理以及自然科学等（图1）。

文章考虑以图像为主的图（image-intensive graph, IIG）用于图像和视频推理（“图像的多模态图学习”），以语言为主的图（language-intensive graph, LIG）用于处理自然和生物序列（“语言数据集的多模态图学习”），以及用于辅助科学发现的知识密集图（knowledge-intensive graph, KIG）（“自然科学中的多模态图学习”）。

图1：以图为中心的多模态学习。左侧显示了不同的数据模态。右侧显示了MGL在机器学习任务中的价值所在。作者引入了MGL蓝图，它作为一个统一框架，通过计算机视觉、自然语言处理和自然科学领域的学习系统实现了多模态图神经架构。

1. 图神经网络用于多模态学习

深度学习为多模态学习创造了各种融合方法。例如，循环神经网络（RNN）和卷积神经网络（CNN）架构已成功地组合起来，在视频描述问题中融合声音和图像表示。最近，生成模型在依赖于语言和基于物理的多模态数据上也表现出非常准确。这些模型基于编码器-解码器框架，在编码器中同时训练了组合架构（每个架构专门用于一个模态），而解码器从各个架构中汇集信息。当模态之间存在复杂关系产生网络结构时，图神经网络（GNNs）为利用多模态数据中的相互依赖关系提供了一种表达能力强、灵活的策略。

1.1 以图为中心的多模态学习蓝图

使用图神经网络进行多模态学习具有吸引力，因为它们可以灵活地模拟不同数据类型内部和之间的交互。然而，通过图学习进行数据融合需要构建网络拓扑并应用图推理算法。作者提出了一种方法，给定一组多模态输入数据，产生用于下游任务的输出表示。作者将这种方法称为多模态图学习（MGL）。MGL可以被看作是一个蓝图，由四个学习组件以端到端的方式连接起来。在图2a,b中，突出了传统的单模态架构组合处理多模态数据的方法，与建议的全能多模态架构之间的区别。

图2：MGL框架概述。a、传统的多模态学习方法涉及将不同的单模态架构组合起来，每个架构针对不同的数据模态进行优化。b、相比之下，全能多模态架构考虑了针对每个数据模态的归纳偏差，并以端到端的方式优化模型参数，实现了表达能力强大的数据融合。c、MGL蓝图包括四个组件：识别实体、揭示拓扑结构、传递信息和混合表示。这些组件分为两个阶段：结构学习和在结构上进行学习。

MGL的前两个组成部分，即识别实体和揭示拓扑结构，可以归为结构学习阶段（图2c）。

1.1.1 识别实体（MGL组成部分1）

第一个组成部分在各种数据模态中识别相关实体，并将它们投影到一个共享的命名空间中。例如，在精准医学中，患者的状态可以通过匹配的病理切片和临床记录来描述，从而产生具有结合图像和语言信息的患者节点。在计算机视觉中的另一个例子中（图3），实体识别涉及定义图像中的超像素。

图3：MGL蓝图在图像中的应用。a、图像理解中的模态识别，其中节点表示由SLIC分割算法生成的聚合感兴趣区域或超像素。b、图像去噪中的拓扑结构揭示，其中图像补丁（节点）与其他非局部相似补丁相连。c、人-物互动中的拓扑结构揭示，创建了两个图。一个以人为中心的图将身体部位映射到其解剖邻居，另一个以物体与图像中其他物体的距离连接身体部位。d、人-物互动中的信息传递，通过空间条件图修改信息传递，以合并边缘特征，强制物体在图像中的相对方向。

1.1.2 揭示拓扑结构（MGL组成部分2）

在定义了问题的实体后，第二个组成部分发现跨模态的节点之间的相互作用和交互类型。交互通常是明确提供的，因此图是给定的，该组成部分负责将已有的图结构与其他模态结合（例如，在图5c中，揭示拓扑结构的组成部分对应于将蛋白表面信息与蛋白结构本身结合）。当数据没有先验网络结构时，揭示拓扑结构的组成部分基于显式特征（例如空间和视觉特征）或隐式特征（例如表示相似性）来探索可能的邻接矩阵。对于后一种情况，自然语言处理领域的示例考虑从文本输入中构建表示词之间关系的图。

图4：MGL蓝图在语言数据集中的应用。a、文本输入中不同层次的上下文，从句子到文档的层次以及在每个上下文层次上识别的个体单元。这是MGL蓝图中模态识别的第一个组成部分的示例。b、从文本输入构建语言密集图的简化示例，这是MGL蓝图中拓扑结构揭示组成部分的应用。c、d、在ABSA（方面级情感分析）的LIG上进行学习的示例，旨在为句子分配与给定方面相关的情感（积极、消极或中性）。通过从句子内部按关系类型进行分组（c）或对句子和方面之间的关系进行建模（d），这些方法集成了与ABSA相关的归纳偏差，并创新地应用了MGL的第三个组成部分，即信息传递。

经过指定或自适应优化图形（MGL中的结构学习阶段；图2c），可以使用各种策略在图形上进行学习。最后两个MGL组成部分，合称为结构学习阶段（图2c），涵盖了这些策略。

1.1.3 信息传递（MGL组成部分3）

第三个组成部分使用卷积或信息传递步骤，基于图邻接关系学习节点表示（有关图卷积和信息传递的更多细节，请参见补充说明1）。在存在多个邻接矩阵的情况下，方法使用独立的传播模型或假设超图形式，将邻接矩阵与单个传播模型融合。

1.1.4 表示混合（MGL组成部分4）

最后一个组成部分根据下游任务转换学习到的节点级表示。传播模型输出节点上的表示，可以根据最终表示级别（例如，图级别或子图级别标签）进行组合和混合。常用的混合策略包括简单的聚合操作（例如求和或平均）或更复杂的函数，其中包含神经网络架构。

图2c显示了所有MGL组成部分，从多模态输入数据到用于下游任务的优化表示。数学公式在 Box 1 中，MGL方法的摘要在补充说明2中。

方框1 多模态图学习的框架

以图为中心的多模态学习蓝图包含四个组成部分。

（1）识别实体。将来自不同来源的信息组合并投影到共享的命名空间中。节点独立地作为集合元素进行标识，尚未给出相互作用。设k个模态C=C₁,……,C_k，其中C_i是第i个模态的信息矩阵，描述每个实体的信息向量。我们为每个模态i定义Identify_i模块：

X_i←Identify_i(C_i), (1)

将所有模态的信息映射到相同的命名空间中。如果k=1，则得到 MGL 的减少的单模态变体。

（2）揭示拓扑结构。设数据模态X=X₁,……,X_k。我们定义Connect_j模块，j=1,……,m来指定基于m个距离度量的中实体之间的连接：

A_j=Connect_j(X) (2)

如果已经给出了X_i作为邻接矩阵，则相关的Connect_j模块指定了预定义的邻域。

（3）信息传递。在邻接矩阵A=A₁,……,A_m中，沿着边进行神经信息交换，产生节点表示：

H←Propagate(X, A) (3)

当给定多个邻接矩阵时，Propagate 模块可以指定多个独立的传播模型或在组合的邻接矩阵上操作。

（4）表示混合。将表示混合并转换为针对下游任务进行优化的潜在表示：

Z←Mix(H, A), (4)

混合模块 Mix 将节点表示转换为实体最终表示，下游任务将在其上定义。已建立的混合表示策略包括聚合操作，例如求和、平均值、多跳聚合以及使用邻接信息A的方法。

2. 多模态图学习用于图像

以图像为主的图（IIG）是多模态图，其中节点代表视觉特征，边表示图像特征之间的空间连接。结构图像学习涉及创建 IIG 以编码与图像相关的几何先验，例如平移不变性和尺度分离。平移不变性描述了卷积神经网络的输出在输入图像的平移变化时不应发生变化，通过具有共享权重的卷积滤波器实现。相比之下，尺度分离指定如何分解跨尺度的特征之间的长程相互作用，侧重于可以传播到粗粒度尺度的局部相互作用。例如，在 CNN 中，池化层在卷积层之后用于实现尺度分离。此外，GNN 可以对于图像相关任务（例如图像分割，图像恢复或人物-物体交互）建模任意形状的长程依赖关系。

2.1 视觉理解

视觉理解在视觉分析中仍然是基础，MGL 在图像分类、分割和增强方面已经发挥了帮助作用。图像分类识别图像中存在的物体类别。相反，图像分割将图像划分为段，并将每个段分配到一个类别。最后，图像恢复和去噪将低质量图像转换为高分辨率图像。这些任务所需的信息包括对象、段和图像块，以及周围的长程上下文。

IIG 构建（对应于 MGL 组件1和2）从分割算法开始，例如简单的线性迭代聚类（SLIC），以识别有意义的区域（图3a）。这些区域定义了用于提取特征图和每个区域的摘要视觉特征的节点，其属性从 CNN（例如 FCN-16 或 VGG19 ）初始化。此外，节点与 CNN 学习到的特征空间中k个最近邻节点相连（图3b），与空间上相邻的区域连接，或者根据先前定义的节点之间的相似性阈值连接到任意数量的邻居。

完成了 MGL 的结构学习阶段后，使用基于图卷积和图注意力的传播模型（MGL 组件3）对图中的节点邻居进行加权，基于学习到的注意力分数。此外，方法，如图去噪网络，内部图神经网络和残差图卷积网络，考虑到边的相似性以指示图像区域之间的相对距离。

2.2 视觉推理

视觉推理超越了对视觉元素的识别，通过对实体之间的关系进行问题提问来了解图像中的实体之间的关系。这些关系可以涉及人类和物体，如人-物体交互（human–object interaction, HOI），或更广泛地涉及视觉、语义和数值实体，如视觉问答（VQA）。

在 HOI 中，MGL 方法识别两个实体：人体部位（例如手、脸等）和物体（例如冲浪板、自行车等），它们以全连接，二部图或部分连接拓扑结构进行交互。用于 VQA 的 MGL 方法构建了一个涵盖相互连接的视觉、语义和数值图的新拓扑结构。实体表示识别了由提取器（例如F aster R-CNN）识别的视觉对象、通过光学字符识别识别的场景文本和数字类型文本。这些实体之间的相互作用基于空间定位进行定义：相互靠近的实体通过边连接。

为了了解这些结构（MGL组件3），方法区分了在相同类型实体之间和不同类型实体之间传播信息的方式。在 HOI 中，同类实体之间的信息（即类内神经信息）通过遵循边并应用由图注意力定义的变换进行交换，图注意力根据节点的潜在向量的相似性对神经信息进行加权。相比之下，不同实体之间的信息（即类间神经信息）使用图解析神经网络进行传播，其中权重是自适应学习的。模型可以具有多个通道，对同一类别的实体进行推理，并在类别之间共享信息。例如，在 HOI 中，关系解析神经网络使用双通道模型，在混合这些表示以进行最终预测之前，先进行人类和物体中心的信息传递（图3c）。VQA 中也是如此，在视觉、语义和数值通道执行独立的信息传递之后，通过视觉-语义聚合和语义-数值聚合共享信息。其他神经网络结构可以用作基于图的通道的可替代方案。

3. 多模态图学习用于语言

具备生成上下文语言嵌入能力的语言模型已经广泛改变了自然语言的分析。然而，除了词语，语言的结构还存在于句子（语法树、依存分析）、段落（句子间关系）和文档（段落间链接）的级别。Transformer 作为一类占主导地位的语言模型可以捕捉这种结构，但其计算和数据要求严格。MGL方法通过将语言结构融入模型来缓解这些问题。具体而言，这些方法依赖于以语言为主的图（LIG），显式或隐式图，其中节点表示由语言依赖关系连接的语义特征。

3.1 创建 LIG

在最高级别上，语言数据集可以被视为文档的集合，然后是单个文档、一组句子、一组提及、一组实体，最后是单个单词（图4a）。MGL可以通过构建 LIG 来考虑这些不同级别的上下文信息。选择要包括的上下文以及如何创建表示此上下文的LIG是任务特定的。我们将这些步骤描述为文本分类和关系抽取，因为这些任务是大多数语言分析的基础。

在文本分类中，模型根据单词（标记）的使用和含义，被要求为文本段分配一个标签。与单词相关的图结构由文档中单词的相对位置或文档共现性确定。关系抽取旨在识别文本中的单词之间的关系，这对于其他语言任务（如问题回答、摘要和知识图推理）非常重要。为了捕捉句子的含义，单词实体之间的结构基于底层的依赖树。除了单词，还包括其他实体以捕捉跨句子的拓扑结构（图4a,b）。

3.2 学习 LIG

一旦构建了 LIG，就需要设计一个模型来在 LIG 上进行学习，同时结合与语言任务相关的归纳偏差。我们以基于方面的情感分析（ABSA）作为下游语言任务来说明在 LIG 上进行学习的策略。ABSA 将文本的情感（积极、消极）分配给一个词/词语或一个方面。模型必须通过句法结构和文本中方面和其他单词之间的远程关系进行推理，以执行 ABSA。为了在远程单词之间传播信息，特定方面的 GNN 在 LIG 中掩盖非方面单词进行远程信息传递。它们还对查询词和方面词的潜在表示进行门控或逐元素乘法运算。为了包含句法结构的信息，GNN 通过类型特定的信息传递在依赖树中区分不同类型的关系（图4c）。

邻近或相似句子的情感对于确定文档的基于方面的情感至关重要。合作图注意网络通过两个基于图的建模块之间的协作实现了这一点：方面内和方面间建模块（图4d）。这些模块捕捉了句子与具有相同方面的其他句子之间的关系（方面内）以及与包含不同方面的相邻句子在文档中的关系（方面间）。方面内和方面间模块的输出在交互模块中混合，并通过一系列隐藏层进行传递。最后，通过学习的注意权重将每个隐藏层之间的中间表示融合，创建最终的句子表示（MGL 组件4）。

4. 自然科学中的多模态图学习

除了计算机视觉和语言建模，图在自然科学中的应用越来越多。我们将这些图称为用于辅助科学发现的知识密集图（KIG），因为它们融入了与特定任务相关的归纳偏差或将科学知识编码到其结构中。

4.1 物理学中的多模态图学习

在粒子物理学中，GNN已被用于识别引起粒子喷注的初态粒子，这些粒子喷射出高能粒子碰撞中的粒子群。在这些图中，节点是粒子，连接到它们的k个最近邻。经过多轮信息传递，聚合的节点表示被用于识别初态粒子。

受传统方法无法处理的由多尺度过程主导的物理系统模拟的启发，物理学信息 GNN 已成为一种有前途的方法。典型的目标是从可用的实验数据中发现隐藏的物理规律。GNN 是通过使用物理定律获得的可用实验数据和信息进行训练的，然后在时空域中的点上进行评估。这种基于物理的体系结构将多模态数据与数学模型相结合。

例如，GNN可以将底层动态的微分算子表示为节点和边上的函数。GNN 还可以表示对象之间的物理相互作用，例如流体中的粒子、机器人中的关节和电网中的点。初始节点表示描述这些粒子的初始状态和全局常数（如重力），边表示相对粒子速度的关系。信息传递首先更新边的表示以计算系统中相对力的效应，然后使用更新后的边的表示来更新节点表示，并计算由于力的作用而产生的粒子的新状态（图5a）。这种信息传递策略推进了MGL的第三个组件（“图像的MGL”），并且还被用于解决组合算法（Bellman-Ford和Prim算法）以及芯片布局设计以设计计算机芯片的物理布局。

图5：MGL在自然科学中的应用。a. 物理相互作用中的信息传递，使用物理知识的神经信息传递来更新系统中粒子的状态，以应对粒子间的相互作用和其他力的影响。b. 分子推理中的信息传递，使用全局注意机制对两个分子中的原子之间的潜在相互作用进行建模，以预测两个分子是否会发生反应。c. 蛋白质建模中的拓扑结构揭示，使用多尺度图表示将蛋白质的一级、二级和三级结构与摘要的分子超像素中的高级蛋白质基元相结合，以表示一个蛋白质。这种强大的拓扑结构在蛋白质-配体结合亲和性预测等任务上提供了更好的预测结果。

4.2 多模态图学习在化学中的应用

在化学中，MGL方法可以通过在由键连接的原子组成的分子图上进行信息传递来预测分子的内部和分子间性质。目前的工作除了考虑二维分子细节外，还包括三维空间分子信息。当没有这些信息时，MGL 方法通过考虑立体化学来聚合神经信息，并将分子建模为化学亚结构的集合，除了细粒度的原子表示。

立体异构体是具有相同图连接性但空间排列不同的分子。分子图中的聚合函数在三维空间中不考虑原子的方向而进行聚合。这可能导致性能较差，因为立体异构体可能具有不同的性质。为了缓解这个问题，置换（PERM）和置换连接（PERM-CAT）聚合通过对各个立体异构体进行加权求和来更新手性群中的每个原子。虽然每个置换中的邻居是相同的，但空间排列不同。通过对每个置换进行加权，PERM 和 PERM-CAT 通过修改信息在底层图中的传播方式来编码这种归纳偏差（MGL的第三个组件）。

此外，MGL 可以通过反应识别分子产生的化学产物。例如，为了预测两个分子是否会发生反应，QM-GNN102（一种量子化学增强的GNN）使用每个反应物的分子图表示，并为每个原子和键提供了与化学相关的初始表示。经过多轮信息传递后，原子表示通过全局注意机制进行更新（图5b）。

注意机制揭示了一个新的拓扑结构，其中原子可以与其他分子上的原子进行相互作用。它结合了化学中的一个原理，即粒子之间的分子间相互作用影响了反应性。最终的表示与原子电荷和键长等描述符结合在一起，并用于预测。这种方法将分子的结构知识与相关的化学知识在 GNN 中相结合，可以在小型训练数据集上进行准确的预测。通过融合 GNN 输出的领域知识，MGL 的 Mix 模块在化学领域的应用为虚拟药物筛选、分子生成和设计以及药物靶点识别提供了新的机会。

4.3 多模态图学习在生物学中的应用

除了个体分子外，MGL 还可以帮助理解多个尺度上的复杂结构的性质，其中最相关的结构是蛋白质。在一级氨基酸序列尺度上，最重要的任务是从氨基酸序列预测 3D 结构。AlphaFold 构建了一个 KIG，其中节点是氨基酸，其表示是从序列同源性中导出的。为了在这个 KIG 中传播信息，AlphaFold 引入了三角形乘法更新和三角形自注意力更新。这些三角形的修改将归纳偏差与学习表示必须符合距离的三角不等式来表示 3D 结构相结合。MGL 等创新使得 AlphaFold 能够从氨基酸序列预测蛋白质的 3D 结构。

除了 3D 结构，分子蛋白质表面在细胞功能和疾病中起着重要作用，因此对几何和物理蛋白质属性进行建模至关重要。例如，MaSIF 在描述为多模态图的分子表面上训练了一个 GNN 来预测蛋白质相互作用。节点的初始表示基于几何和化学特征。接下来，在每个节点上定义了高斯核以传播信息，编码了分子表面的复杂几何形状，并扩展了卷积的概念。最终的表示可以用于预测蛋白质-蛋白质相互作用、蛋白质复合物的结构配置和蛋白质-配体结合。

5.展望

多模态图学习是一个新兴的领域，在自然科学、视觉和语言领域都有应用。预计多模态图学习的发展将受到完全多模态图结构和在自然科学和医学中的新应用的推动。文章还概述了在何时多模态图学习具有价值或无助并需要改进来解决多模态归纳偏差或缺乏显式图的挑战的应用。

5.1 完全多模态图结构

目前的方法使用针对每种数据模态的领域专用体系结构。然而，通用体系结构的进展提供了一种表达策略，可以考虑模态之间的依赖关系，无论它们是作为图像、语言序列、图形还是表格数据集给出的。此外，MGL 的框架支持更复杂的图结构，如超图和异构图。

这个框架还可以为图中心的多模态学习开辟新的应用。例如，知识蒸馏旨在将知识从教师模型转移到较小的学生模型，以在使用更少资源的同时保持性能。可以使用KIG来设计更高效的知识蒸馏损失函数。在另一个例子中，可见神经网络指定了架构，使得节点对应于细胞系统的不同尺度上的概念（例如分子、信号通路），范围从小的复合物到广泛的信号通路，它们基于生物学关系连接，并用于前向和后向传播。通过将这样的归纳偏差纳入模型训练中，可以以数据有效的方式进行训练，因为它们不必从头开始发明相关的基本原则，因此需要更少的数据进行训练。通过将算法设计与领域知识协调一致，还可以提高模型的可解释性。

5.2 解决多模态挑战的算法改进

现有方法在没有先验知识或关系结构的领域受到限制。例如，在化学反应预测、基本粒子分类、物理相互作用模拟和蛋白质-配体建模等任务中，与任务相关的相互作用不是事先给定的，这意味着方法必须自动捕捉新颖、未指定和相关的相互作用。一些应用程序使用节点特征相似性，在每个层后动态构建局部邻接关系以发现新的相互作用。然而，这不能捕捉到远距离节点之间的新的相互作用，因为信息只在信息传递中在紧密连接的节点之间传递。方法通过引入具有诱导稀疏性的注意力层来解决这个限制，以发现这些相互作用。在没有强关系结构的应用中，例如分子属性预测、粒子分类和文本分类，节点特征通常比任何编码结构具有更好的预测价值。因此，其他方法已经表现出比基于图的方法更好的性能。

5.3 在自然科学和医学领域的突破性应用

在自然科学和医学领域，使用深度学习揭示了图表示在建模小型和大型分子结构方面的威力。结合不同类型的数据可以在分子和生物体水平之间建立桥梁，以在大尺度上对物理、化学或生物现象进行建模。最近的知识图应用已经应用于精准医学，以及在基因组、药物学和临床应用中进行预测。多尺度学习系统正在成为蛋白质结构预测,蛋白质性质预测和生物分子相互作用建模方面的有价值工具。这些方法可以通过建模预定义的图结构或修改信息传递算法来整合物理关系的数学表述、知识图谱、先验分布和约束条件。当存在此类信息时，多模态学习可以增强视觉系统中的图像去噪、图像恢复和人物-物体交互。

数据可用性：在https://yashaektefaie.github.io/mgl上总结了 MGL 方法，并提供持续更新的概述。还提供了一个实时表格，其中添加了MGL方法，为社区提供一个不断发展的资源。

图神经网络与组合优化读书会启动

现实世界中大量问题的解决依赖于算法的设计与求解。传统算法由人类专家设计，而随着人工智能技术不断发展，算法自动学习算法的案例日益增多，如以神经网络为代表的的人工智能算法，这是算法神经化求解的缘由。在算法神经化求解方向上，图神经网络是一个强有力的工具，能够充分利用图结构的特性，实现对高复杂度算法的高效近似求解。基于图神经网络的复杂系统优化与控制将会是大模型热潮之后新的未来方向。

集智俱乐部联合国防科技大学系统工程学院副教授范长俊、中国人民大学高瓴人工智能学院助理教授黄文炳，共同发起「图神经网络与组合优化」读书会，聚焦于图神经网络与算法神经化求解的相关领域，包括神经算法推理、组合优化问题求解、几何图神经网络，以及算法神经化求解在 AI for Science 中的应用等方面。读书会从2023年6月14日开始，每周三晚 19:00-21:00 举行，持续时间预计8周。欢迎感兴趣的朋友报名参与！

详情请见：

加速经典算法效率，突破现实技术瓶颈：图神经网络与组合优化读书会启动

推荐阅读

1. 研究速递：图神经网络预测复杂网络中的传播现象

2. Barabási 最新研究：利用图神经网络加速网络布局

3. Nat. Mach. Intell. 速递：图神经网络实现三维流体运动中的粒子跟踪

4. 《张江·复杂科学前沿27讲》完整上线！

5. 成为集智VIP，解锁全站课程／读书会

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

继续滑动看下一个

集智俱乐部

向上滑动看下一个

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

女性最佳“绝经期”，不是45岁，而是这个数，越接近越健康！

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

多模态图学习蓝图：应用于视觉、语言、自然科学

摘要

引言

1. 图神经网络用于多模态学习

1.1 以图为中心的多模态学习蓝图

1.1.1 识别实体（MGL组成部分1）

1.1.2 揭示拓扑结构（MGL组成部分2）

1.1.3 信息传递（MGL组成部分3）

1.1.4 表示混合（MGL组成部分4）

2. 多模态图学习用于图像

2.1 视觉理解

2.2 视觉推理

3. 多模态图学习用于语言

3.1 创建 LIG

3.2 学习 LIG

4. 自然科学中的多模态图学习

4.1 物理学中的多模态图学习

4.2 多模态图学习在化学中的应用

4.3 多模态图学习在生物学中的应用

5.展望

5.1 完全多模态图结构

5.2 解决多模态挑战的算法改进

5.3 在自然科学和医学领域的突破性应用

您可能也对以下帖子感兴趣

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

女性最佳“绝经期”，不是45岁，而是这个数，越接近越健康！

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

生成图片，分享到微信朋友圈

多模态图学习蓝图：应用于视觉、语言、自然科学

摘要

引言

1. 图神经网络用于多模态学习

1.1 以图为中心的多模态学习蓝图

1.1.1 识别实体（MGL组成部分1）

1.1.2 揭示拓扑结构（MGL组成部分2）

1.1.3 信息传递（MGL组成部分3）

1.1.4 表示混合（MGL组成部分4）

2. 多模态图学习用于图像

2.1 视觉理解

2.2 视觉推理

3. 多模态图学习用于语言

3.1 创建 LIG

3.2 学习 LIG

4. 自然科学中的多模态图学习

4.1 物理学中的多模态图学习

4.2 多模态图学习在化学中的应用

4.3 多模态图学习在生物学中的应用

5.展望

5.1 完全多模态图结构

5.2 解决多模态挑战的算法改进

5.3 在自然科学和医学领域的突破性应用

您可能也对以下帖子感兴趣