GNN（续）

二十六、Graph Network[2018]

摘要：人工智能Artificial intelligence: AI 最近经历了一场复兴，并在视觉、语言、控制、决策等关键领域取得了重大进展。取得这些进展的部分原因是由于廉价的数据、廉价的计算资源，这符合深度学习的天然优势。然而，在不同压力下发展起来的人类智力，其许多决定性特点对于目前的人工智能方法而言仍然是触不可及的。具体而言，超越经验的泛化能力--人类智力从幼年开始发展的标志--仍然是现代人工智能面临的巨大挑战。
论文 《Relational inductive biases, deep learning, and graph networks》 认为：组合泛化combinatorial generalization 是AI 实现人类相似能力的首要任务，而结构化表示和计算structured representations and computations 是实现该目标的关键。正如生物学把先天 nature 和后天 nurture 相结合，论文摒弃手动设计特征 hand-engineering 、端到端学习 end-to-end learning 之间进行二选一选择的错误做法，而是提倡一种利用它们进行优势互补的做法。
论文探索深度学习框架中使用关系归纳偏置 relational inductive biases 如何促进对实体 entity、关系 relation、以及构成它们的规则 rule 的了解。论文为AI toolkit 提供了一个新的、具有强大关系归纳偏置的构建块 building block：Graph Network 。Graph Network 概括和扩展了图上运行的各种神经网络方法，并为操作结构化知识 manipulating structured knowledge 和产生结构化行为 producing structured behaviors 提供了直接接口。
论文讨论Graph Network 如何支持关系推理 relational reasoning、组合泛化combinatorial generalization 。这为更复杂、更可解释、更可扩展的推理模式 reasoning pattern 奠定了基础。
作为论文的补充，作者还发布了一个用于构建 Graph Network 的开源软件库，并演示了如何在实际工作中应用它们。
引言：人类智能的一个重要标志是 “无限使用有限方法” （infinite use of finite means）的能力，其中一小部分的、有限的原始（如单词 word）可以无限地组合（如构成无限多的句子 sentence ）。这反映了组合泛化combinatorial generalization 的原理，即从已知的构建块 building block 来创建新的推论 inference 、预测 prediction、行为 behavior 。这里我们探索如何通过将偏置学习 biasing learning 用于结构化的表示和计算 structured representations and computations 从而提高现代 AI 的组合泛化能力，尤其是对图 graph 进行操作的系统。
人类的组合泛化能力很大程度上取决于我们表达结构representing structure 和推理关系 reasoning about relations 的认知机制。
- 我们将复杂系统表示为实体 entity 及其相互作用 interaction 的组合。
- 我们使用层次结构来抽象细粒度fine-grained 的差异，并捕获representations 和 behaviors 之间的更一般的共性，比如：同一个物体的一部分、同一个场景的物体、同一个城镇的社区。
- 我们通过组合熟悉的技能 skills 和惯例 routines 来解决新的问题。
- 我们通过将两个领域之间的关系结构对齐，并根据其中一个领域的相应知识得出另一个领域的推论来进行类比。
Kenneth Craik 的 The Nature of Explanation 将世界的组成结构 compositional structure of the world 和我们内在的心理模型 internal mental model 的组织方式联系起来，即：世界是组合的 compositional，或者至少我们是从组合的角度来理解它的。当我们学习的时候，我们要么将新知识放入现有的结构化表示 structured representations 中、要么调整结构本身从而更好地适应（和使用）新旧知识。
自 AI 诞生以来，如何构建具有组合泛化的人工智能系统一直就是 AI 的核心问题，它是很多结构化方法 structured approach 的核心，包括：逻辑 logic、语法 grammar、经典规划 classic planning、图模型 graphical model、因果推理causal reasoning、贝叶斯非参数化 Bayesian nonparametric 以及概率规划 probabilistic programming。
所有子领域都集中于显式的以实体 entity 和关系 relation 为中心的学习上，例如关系强化学习relational reinforcement learning、统计关系学习 statistical relational learning 。结构化方法对于之前的机器学习如此重要的一个关键原因，部分是因为数据和计算资源的昂贵，而结构化方法强大的归纳偏置 inductive biases 所带来的样本复杂度 sample complexity 的改善是非常有价值的。
与过去的人工智能方法相比，现代深度学习经常遵循 “端到端”（end-to-end）的设计理念，强调最小限度的先验表征的、计算的假设 minimal a priori representational and computational assumptions，并力求避免使用显式的结构 explicit structure 和特征工程hand-engineering 。这种强调 emphasis 和当前的大量廉价数据和廉价计算资源非常契合，也得到了充分的验证。这使得牺牲样本效率 sample efficiency 从而更灵活地学习成为一种理性的选择。从图像分类到自然语言处理，深度学习在很多具有挑战性的领域中取得了令人瞩目的快速发展，这证明了这种极简主义原则 minimalist principle 的成功。一个突出的例子是语言翻译，事实证明sequence-to-sequence 方法非常有效，无需使用显式的解析树 parse tree 或者语言实体 linguistic entity 之间的复杂关系。
尽管深度学习取得了巨大成功，但是也有一些严厉的批评：深度学习在复杂的语言和场景理解complex language and scene understanding、结构化数据的推理reasoning about structured data、训练条件之外的迁移学习 transferring learning beyond the training condition 以及少量经验中学习learning from small amounts of experience时面临重大挑战。这些挑战需要组合泛化，因此摒弃组合性 compositionality 以及显式结构 explicit structure 的方法难以满足这些挑战，这并不奇怪。
当深度学习的前辈连接主义 connectionist 面临诸如结构性的structured、符号性的 symbolic 立场 position 等类似批评时，有些工作直接地、细致地做出了建设性的努力来解决这些挑战。在诸如模拟制造 analogy-making 、语言分析 linguistic analysis、符号操作 symbol manipulation 以及其它形式的关系推理之类的领域中，符号主义开发了用于表示和推理结构化对象的各种创新的亚符号 sub-symbolic 方法，以及有关大脑如何工作的更多综合理论 integrative theory 。这些工作还有助于培养更多的深度学习进展advances，这些进展使用分布式向量表示来捕获文本text、图 graph、代数表达式 algebraic expression、逻辑表达式 logical expression、以及程序programs 中的丰富语义内容。
我们认为，现代 AI 的关键途径是致力于将组合泛化作为首要任务，并且我们主张采用综合方法 integrative approache 来实现这一目标。正如生物学没有在先天 nature 和后天 nurture 之间进行选择一样（生物学同时利用先天和后天，这种整体效果强于每个部分之和），我们也拒绝这样的观念（即，结构 struture 和灵活性 flexibility 在某种程度上是矛盾的或不相容的），并且我们同时拥抱结构和灵活性从而获得它们的互补优势。根据大量最新的一些混合了 structure-based方法、deep learning 方法的案例，我们发现：将当今最好的方法（即 deeplearning 方法）和早期算力昂贵时必不可少的方法（即结构化方法）相结合的综合技术具有广阔的前景。
近年来，在深度学习和结构化方法的交集中出现了一类模型，这些模型聚焦于推理有关显式结构化数据（特别是图 graph）的方法。这些方法的共同点是可以对离散实体 entity 以及实体之间的关系 relation 进行计算。这些方法和经典方法不同之处在于：如何学习实体和关系的representation 以及structure ，以及相应的计算，从而缓解了事先需要指定它们的负担。即，这些知识是通过学习而来，而不是预先指定的。至关重要的是，这些方法以特定的体系架构假设的形式引入强烈的关系归纳偏置 relational inductive biases ，这些偏置指导这些方法学习实体和关系。我们和很多其他人一起认为，这是类似人类智力的基本组成部分。
在文章的剩余部分，我们通过关系归纳偏置的角度考察了各种深度学习方法，表明现有方法通常带有关系假设relational assumptions，这些假设并不总是很明显或者显而易见。然后我们提出了一个基于实体和关系推理的通用框架，我们称之为 Graph Network:GN。GN 统一和扩展了图上运行的现有方法，并描述了使用 Graph Network 作为构建块 building block 来构建强大架构的关键设计原理。我们还发布了一个用于构建 Graph Network 的开源库。

26.1 关系归纳偏置

26.1.1 Relational Reasoning

定义结构 structure 为通过一组已知构建块 building block 组成的产品 product。结构化表示 Structured representations 捕获了这种组成composition ，如元素element 的排列arrangement 。结构化计算 structured computations 以一个整体的方式对所有这些元素及其组合进行操作。关系推理 Relational Reasoning 涉及利用实体entity 和关系relation的组成规则 composed rule ，从而操作实体和关系的结构化表示。我们用以下数据来描述认知科学、理论计算机科学、人工智能的相关概念：
- 实体 entity：具有属性的元素，如具有大小、质量的物理对象。
- 关系 relation：实体之间的属性。如两个对象之间的关系可能包括：相同大小 same size as、比.. 更重 heavier than、距离distance from。
  - 关系也可以具有属性。比如 more than X times heavier than 带有一个属性 X，它决定了这个关系取值为 true/false 的阈值。
  - 关系也可能对全局上下文敏感。比如对于石头和羽毛，关系 falls with greater accelaration than 取决于环境是在空气中还是真空中。
  这里我们关注实体之间的成对关系 pairwise relations 。
- 规则 rule：将实体和关系映射到其它实体和关系的函数，就像一个非二元的逻辑谓词 non-binary logical predicate。例如 is entity X large?、 is entity X heavier than entity y? 这样的尺度比较scale comparison。
  这里我们仅考虑带有一个参数或两个参数、并返回一个属性的规则。
我们以图模型 graphical model 来作为机器学习中关系推理的示例性说明。
图模型可以通过在随机变量之间指定显式的条件独立性来建模复杂的联合分布。这样的模型非常成功，因为它捕获了稀疏结构 sparse structure ，而稀疏结构是很多现实世界生成过程generative processes 的基础，并且它们支持有效的学习和推理算法。
例如，隐马尔可夫模型可以显式指定条件独立性：
- 当前状态仅依赖于前一个状态，与其它历史状态无关。
- 当前观测值仅依赖于当前状态，和其它历史状态、其它观测值无关。
这和很多现实世界因果过程 causal process 的关系结构非常契合。
明确表达变量之间的稀疏依赖关系提供了各种高效的推断 inference 和推理 reasoning 算法。例如，消息传递算法在图模型内的各个位置之间采用通用的消息传播过程，从而导致一个可组合的composable、部分并行化的 partially parallelizable 推理过程reasoning procedure，这适用于不同大小和形状的图模型。

26.1.2 Inductive Biases

学习是通过观察世界并与世界互动来理解有用知识的过程，它涉及搜索解空间 space of solutions 以期找到可以更好地解释数据、或获得更高回报的解决方案 solution。但是在很多情况下，有多种解决方案同样出色。归纳偏置 inductive bias 允许学习算法独立于观测到的数据，从而将一种解决方案（或者解释）优先于另一种解决方案（或解释）。
在贝叶斯模型中，归纳偏置通常以先验分布的选择choice 、参数化 parameterization 来表示。而在其它模型中，归纳偏置可能是为避免过拟合而添加的正则化项，也可能被编码到算法本身的体系结构中。
归纳偏置通常以灵活性 flexibility 为代价从而换取改善的样本复杂性 sample complexity，并且可以从偏差-方差平衡 bias-variance tradeoff 的角度来理解。理想情况下，归纳偏置既可以在不显著降低性能的情况下改善对于解空间的搜索，又可以帮助找到理想泛化的解决方案。但是，不匹配mismatched 的归纳偏置也会引入过强的约束从而导致欠拟合。
data-generating process $L_2$ 惩罚下误差最小。这反映了一个假设：数据生成过程可以简单地解释为被加性高斯噪音 additive Gaussian noise 破坏的线性过程 line process。
$L_2$ 正则化倾向于获得参数较小的解，并可以对于病态问题 ill-posed problem 可以得到唯一的解决方案和全局结果。这可以解释为关于学习过程的一种假设：当解决方案之间的分歧较少时，寻找好的解决方案更加容易。
注意，这些假设不需要明确地解释模型或算法如何与世界交互。

26.1.3 Relational Inductive Biases

机器学习和 AI 中很多具有关系推理能力的方法使用关系归纳偏置 relational inductive bias 。虽然不是精确的正式定义，但是我们通常使用该术语来指归纳偏置 inductive bias ，它对于学习过程中实体之间的关系和交互施加了约束。
近年来新型的机器学习体系架构迅速增加，从业人员经常遵循通过组合基本构建块 elementary building block 来形成更复杂、更深计算的层次hierarchies 和计算图。
例如：
- 全连接层 full connected layer 被堆叠到多层感知机 multilayer perceptrons: MLPs 中。
- 卷积层 convolutional layers 被堆叠到卷积神经网络 convolutional neural networks: CNNs 中。
- 图像处理网络的标准配置是由各种 CNN 变体 + MLP 的组合。
这种 layer 的组合提供了一种特殊类型的关系归纳偏置：层次处理 hierarchical processing 的关系归纳偏置。其中计算分阶段 in stages进行，这会导致输入信号中的信息之间产生越来越长距离的交互 long range interaction 。
正如我们在下面探讨的那样，构建块本身也带有各种关系归纳偏置（如下表所述）。尽管超出了本文的范围，但是在深度学习中也使用各种非关系归纳偏置 non-relational inductive biases，例如：激活值的非线性 non-linearity、权重衰减、dropout、batch normalization/layer normalization、data augmentation、训练方式、优化算法都对学习的轨迹和结果施加了约束。
要探索各种深度学习方法中表达的关系归纳偏置，我们必须确定几个关键因素：实体是什么、关系是什么、组成实体和关系的规则是什么、计算实体和关系的规则是什么。在深度学习中，实体和关系通常表示为分布式表示 distributed representation，规则通常表示为神经网络函数逼近器 approximator 。然后，实体、关系、规则的精确形式在不同体系架构之间有所不同。为了理解架构之间的这些差异，我们通过以下探索进一步理解每种架构如何支持关系推理：
- 规则函数rule function 的自变量 argument，例如：哪些实体和关系作为输入。
- 规则函数如何在计算图上重用或共享，例如：跨不同实体和关系、跨不同时间或 step 。
- 架构如何定义 representation 之间的交互 interaction 与隔离 isolation。例如：通过在相关的实体上应用规则来得出结论，而不是对每个实体独立处理。

26.1.4 标准 deep learning 构建块

Fully Connected Layers 全连接层：也许最常见的构建块是全连接层。
通常全连接层被实现为输入向量的非线性函数：
$\vec{h} = σ (W {\vec{x}}_{i} + \vec{b})$
$\mathbf W$ $\mathbf{\vec b}\in \mathbb R^{n}$ $\mathbf{\vec x}_i\in \mathbb R^n$ $\sigma(\cdot)$ 为非线性激活函数。
因此实体是网络中的单元，关系是 all-to-all：
- 所有输入单元都连接到所有输出单元，规则由权重矩阵和偏置向量指定。
- 规则的自变量是完整的输入信号，没有参数共享，也没有信息隔离。
因此，在全连接层中的隐式关系归纳偏置非常弱week：所有输入单元之间可以交互从而决定任何输出单元的值，并且所有输出单元之间相互独立。
Convolutional Layers 卷积层：另一个常见的构建块是卷积层。
卷积层通常被实现为输入向量或张量的卷积：
$H = σ (X * K + B)$
$\mathbf K$ $\mathbf X$ $*$ $\mathbf B$ $\sigma(\cdot)$ 为非线性激活函数。
这里的实体仍然是单个单元（或者网格元素，如像素），但是实体之间的关系更为稀疏。全连接层和卷积层之间的差异在于卷积层增加了一些重要的关系归纳偏置：局部性 locality 和平移不变性 translation invariance 。
- 局部性反映了关系规则relational rule 的自变量是那些在输入信号的坐标空间中紧密相邻的实体、并且和远处实体隔离。
- 平移不变性反映了在输入中跨区域重复使用相同的规则。
这些偏置对于处理天然的图像数据非常有效，因为图像数据局部邻域内存在较高的协方差，且随着距离增加，协方差会减小。并且统计量在整个图上大多是平稳的stationary 。
Recurrent Layers 递归层：第三种常用的构建块是递归层，它是通过一系列 step 来实现的。这里我们将每个 step 的输入和 hidden state 视为实体，将马尔可夫过程视为关系：当前 hidden state 依赖于前一个 hidden state 和当前 input。实体组合的规则将当前 step 的输入、前一个 hidden state 作为规则的自变量，然后更新当前 hidden state 。
这个规则在每个 step 被复用，这反映了时间不变性（类似于 CNN 在空间上的平移不变性）的关系归纳偏置。例如，某些物理事件序列的结果不应该取决于一天中的某个时刻。
RNN 也通过其马尔可夫结构对序列带来局部性 locality 的 bias 。
下图给出了常见的深度学习构建块中的复用和共享，共享的权重由具有相同颜色的箭头表示。
- (a)：全连接层，其中所有权重都是独立的，并且没有共享。
- (b) ：卷积层，其中局部核函数在输入中多次重复使用。
- (c)：循环层，其中相同的函数可以在不同的 step 中复用（水平方向代表了时间线）。

26.1.5 sets 和 graphs 上的计算

虽然标准的深度学习工具包所包含的方法具有各种形式的关系归纳偏置，但是没有默认的深度学习组件可以在任意关系结构上运行。我们需要模型具有显式的实体表示和关系表示，并需要学习算法，该算法用于找到计算实体和关系交互的规则、以及将规则置于数据中的方式。
重要的是，世界上的实体（如对象、agent）没有自然顺序。相反，可以通过关系的性质来定义顺序。如：可以根据对象之间的大小、质量、年龄、毒性、价格之间的关系来对它们进行排序。顺序不变性invariance to ordering（除了处理关系时）是一种理想的属性，这种不变性应该由用于关系推理的深度学习组件来反映。
集合 sets 是描述包含一组无序实体的系统的自然表达形式。具体而言，集合的关系归纳偏置并不是来自于 something 的存在，而是来自于 something 的缺失。
$n$ $i$ $\mathbf{\vec x}_i$ 。对于该任务，行星之间的顺序并不重要，因为系统状态（即质心）只能用聚合的、平均的统计量来描述。
MLP $(\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots, \mathbf{\vec x}_n)$ $(\mathbf{\vec x}_n,\mathbf{\vec x}_1,\cdots, \mathbf{\vec x}_2)$ $n!$ 种可能的排列组合，因此最坏的情况下 MLP 可能会认为每种顺序从根本上看是不同的，因此需要指数级的输入/输出训练样本来学习近似函数。
per-object $\{f(\mathbf{\vec x}_1),\cdots,f(\mathbf{\vec x}_n)\}$ ，然后将它们以对称的方式聚合，如均值聚合。这种方式是 Deep Sets 以及相关模型的本质。我们在后文进一步讨论。
当然，在很多问题中排列不变性 permutation invariance 并不是底层结构的唯一重要形式。例如，一个集合中的每个对象都可能受到集合中其它对象的 pairwise interactioncase $\Delta t$ 之后预测每个行星位置的任务。这种情况下，使用聚合的平均信息是不够的，因为每个行星的运动取决于其它行星所施加的力。
$\mathbf{\vec x}_i^\prime = f\left(\mathbf{\vec x}_i, \sum_j g\left(\mathbf{\vec x}_i,\mathbf{\vec x}_j\right)\right)$ ，其中：
- $g\left(\mathbf{\vec x}_i,\mathbf{\vec x}_j\right)$ $j$ $i$ 颗行星上的力。
- $f(\mathbf{\vec x}_i,\cdot )$ $i$ 颗行星的未来状态，该状态是由力和动力学方程产生的。
$g(\cdot,\cdot)$ global permutation invariance $g(\cdot,\cdot)$ 现在采用两个自变量，而不是一个。
上述太阳系的例子说明了两种关系结构 relation structure：一种完全没有关系，一种包含所有的 pairwise 关系。很多现实世界的系统（如下图所示）的关系结构在这两种极端 case 之间：某些实体 pair 对之间存在关系、另一些实体 pair 对之间缺乏关系。
在我们的太阳系例子中，如果该系统改为由行星及其卫星组成，则可能会试图通过忽略不同行星的卫星之间的相互作用来近似。实际上，这意味着仅计算某些对象之间的交互，即：
${\vec{x}}_{i}^{'} = f ({\vec{x}}_{i}, \sum_{j \in δ (i)} g ({\vec{x}}_{i}, {\vec{x}}_{j}))$
$\delta(i)\sube \{1,2,\cdots,n\}$ $i$ graph $i$ $i$ 的邻域描述。
$i$ 更新后的状态仍然不依赖于我们描述邻居的顺序。
下图为现实世界的不同系统，以及对应的graph 的表达：
- (a) ：一个分子图，其中每个原子表示为一个节点，边对应于化学键。
- (b)：一个质点弹簧系统，其中绳索由一个质点序列定义，这些质点在图中表示为节点。
- (c)：一个 n body 系统，其中每个 body 为节点，节点之间全连接。
- (d)：一个刚体系统，其中球和墙壁都为节点，底层的 graph 定义了球之间、球和墙壁之间的相互作用。
- (e)：一个句子，其中单词对应于解析树上的叶结点，其它节点和边可以由解析器提供。或者也可以使用一个全连接的图。
- (f)：一张图片，可以将其分解为图像块patch，每个块代表一个节点，并且节点之间全连接。
通常，图 graph 是支持任意 pairwise 关系结构的表示形式，并且图上的计算提供了超越卷积层、递归层的强大的关系归纳偏置。

26.2 Graph Network

图神经网络已经在监督学习、半监督学习、无监督学习、强化学习领域被应用。
- 图神经网络被认为在具有丰富的关系结构的任务上很有效，例如视觉场景理解 visual scene understanding 任务、few-shot learning 任务等。
- 图神经网络也被用于物理系统 physical system 和多智体系统 multi-agent system ，从而推理知识图谱、预测分子化学性质、预测道路交通流量、分类和分割图像/视频/3D 网格/点云、分类图像中的区域、执行半监督文本分类及机器翻译。
- 图神经网络已经在 model-free 和 model-based 连续控制中都被使用，用于 model-free 的强化学习，以及更经典的规划问题。
- 图神经网络还探索了很多涉及离散实体和结构推理的传统计算机科学问题，例如组合优化、布尔满足性satisfiability、程序表示和验证、元胞自动机及图灵机建模，以及图模型上的 inference。最近的工作还关注于图的生成模型、graph embedding 的无监督学习。
这里介绍我们的图网络框架 Graph Networks:GN，该框架定义了一族函数用于图结构表示graph-structured representations 的关系推理relational reasoning 。我们的 GN 框架概括并扩展了各种图神经网络、MPNN、以及 NLNN 方法，并支持从简单的构建块构建复杂的体系架构。
注意，我们避免在 Graph Network 中使用术语 neural 来反映GN 可以使用除神经网络以外的函数来实现，尽管这里我们的重点是神经网络的实现。
GN 框架中的主要计算单元是 GN 块 GN block。GN 块是一个 graph-to-graph 的模块，它将图作为输入，对结构进行计算，然后将图作为输出返回。图的节点表示实体，图的边表示关系，图的全局属性表示 system-level 属性。
- GN 框架的 block 组织强调可定制性customizability ，以及综合了新的架构，这个新架构能够表达预期的关系归纳偏置。
- GN 框架的主要设计原则是：灵活的表示形式 flexible representations、可配置的块内结构 configurable within-block structure、可组合的多块体系架构 composable multi-block architectures 。
我们引入一个例子来更具体的说明 GN。可以在任意重力场中预测一组橡胶球的运动，这些橡胶球不会彼此弹跳，而是每个橡胶球都有一个或多个弹簧，这些弹簧将它们和其它橡胶球相连。我们将在下文中参考这个例子，从而启发 motivate 图的表示以及图上进行的计算。

26.2.1 图的定义

这里我们使用图来表示带全局属性的、有向的、带属性的多图 multi-graph 。
- graph-level $\mathbf{\vec u}$ 。
- $k$ sender $s_k$ receiver $r_k$ （即终点）。
- $i$ $k$ 都带有与之关联的边属性。
- 属性：节点、边、图的属性可以编码为向量、集合、甚至另一个图。
- 多图 multi-graph：节点之间可能存在多条边，包括自连接 self-edge 。
GN $\mathcal G = \left(\mathbf{\vec u},\mathcal V, \mathcal E\right)$ ，其中：
- $\mathbf{\vec u}$ 为全局属性，比如它代表全局的万有引力场。
- $\mathcal V = \{\mathbf{\vec v}_i\}_{i=1}^{N_v}$ $N_v$ $\mathbf{\vec v}_i$ $i$ $\mathcal V$ 可能代表橡胶球集合，每个橡胶球都包含位置、速度、质量等属性。
- $\mathcal E = \{(\mathbf{\vec e}_k, r_k,s_k)\}_{k=1}^{N_e}$ $N_e$ $\mathbf{\vec e}_k$ $r_k$ receiver $s_k$ sender $\mathcal E$ 可能代表不同橡胶球之间的弹簧，边的属性为弹簧系数。

26.2.2 GN block

GN $\phi$ $\rho$ ：
$\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) \\ {\bar{\vec{e}}}_{i}^{'} = ρ^{(e \to v)} (E_{i}^{'}) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) \\ {\bar{\vec{e}}}^{'} = ρ^{(e \to u)} (E^{'}) \\ {\vec{u}}^{'} = ϕ^{(u)} ({\bar{\vec{e}}}^{'}, {\bar{\vec{v}}}^{'}, \vec{u}) \end{matrix}$
其中：
$E_{i}^{'} = {({\vec{e}}_{k}^{'}, r_{k}, s_{k})}_{r_{k} = i, k = 1, \dots, N_{e}}, E^{'} = {({\vec{e}}_{k}^{'}, r_{k}, s_{k})}_{k = 1, \dots, N_{e}}, V^{'} = {{\vec{v}}_{i}^{'}}_{i = 1, \dots, N_{v}}$
其物理意义为：
- $\phi^{(e)}$ $\mathbf{\vec e}_k$ $\mathbf{\vec u}$ sender $\mathbf{\vec v}_{s_k}$ receiver $\mathbf{\vec v}_{r_k}$ $\mathbf{\vec e}_k^\prime$ 。
- $\phi^{(v)}$ $\mathbf{\vec v}_i$ $\mathbf{\vec u}$ receiver $\bar{\mathbf{\vec e}}_i^\prime$ $\mathbf{\vec v}_i^\prime$ 。
- $\phi^{(u)}$ $\mathbf{\vec u}$ $\bar{\mathbf{\vec v}}^\prime$ $\bar{\mathbf{\vec e}}^\prime$ $\mathbf{\vec u}^\prime$ 。它仅更新一次。
- $\rho$ $\rho$ 函数必须是排列无关的 permutation invariant，并且应该采用可变数量的自变量。一些典型的例子包括：逐元素求和、均值池化、最大值池化等。
GN 块的计算步骤：
- $\phi^{(e)}\left(\mathbf{\vec e}_k, \mathbf{\vec v}_{r_k}, \mathbf{\vec v}_{s_k},\mathbf{\vec u}\right)$ $\mathbf{\vec e}_k^\prime$ $\phi^{(e)}$ 可能对应于两个连接的橡胶球之间弹簧的力或者势能。
  - $\mathcal E^\prime = \left\{\left(\mathbf{\vec e}_k^\prime, r_k, s_k\right)\right\}_{k=1,\cdots,N_e}$ 。
  - $i$ $\mathcal E_i^\prime = \left\{\left(\mathbf{\vec e}_k^\prime, r_k, s_k\right)\right\}_{r_k=i,k=1,\cdots,N_e}$ $i$ 为 receiver 。
- $\bar{\mathbf{\vec e}}_i^\prime = \rho^{(e\rightarrow v)}\left(\mathcal E_i^\prime\right)$ $\rho^{(e\rightarrow v)}$ $i$ 个球上所有力或势能的总和。
- $\mathbf{\vec v}_i^\prime = \phi^{(v)}\left(\bar{\mathbf{\vec e}}_i^\prime, \mathbf{\vec v}_{i},\mathbf{\vec u}\right)$ $\phi^{(v)}$ 可能更新类似于每个球的位置、速度、动能等。
  $\mathcal V^\prime = \left\{\mathbf{\vec v}_i^\prime\right\}_{i=1,\cdots,N_v}$ 。
- $\bar{\mathbf{\vec e}}^\prime = \rho^{(e\rightarrow u)}\left(\mathcal E^\prime \right)$ $\bar{\mathbf{\vec e}}^\prime$ $\rho^{(e\rightarrow u)}$ 可能计算力的总和（根据牛顿第三定律，总和应该为零）、弹簧势能的总和。
- $\bar{\mathbf{\vec v}}^\prime = \rho^{(v\rightarrow u)}\left(\mathcal V^\prime\right)$ $\bar{\mathbf{\vec v}}^\prime$ $\rho^{(v\rightarrow u)}$ 可能计算系统的总动能。
- $\mathbf{\vec u}^\prime = \phi^{(u)}\left(\bar{\mathbf{\vec e}}^\prime, \bar{\mathbf{\vec v}}^\prime,\mathbf{\vec u}\right)$ $\phi^{(u)}$ 可能会计算出类似于物理系统的总外力或总能量的值。
尽管这里我们给出了计算步骤的顺序，但是并不是严格地根据这个顺序来执行。例如，可以先更新全局属性、再更新节点属性、最后更新边属性。
GN block 更新函数 GraphNETWORK()：
- $\mathcal G = \left(\mathbf{\vec u},\mathcal V, \mathcal E\right)$ $\mathcal V$ $\mathcal E$ $\mathbf{\vec u}$ 为全局属性
- $\mathcal G^\prime = \left(\mathbf{\vec u}^\prime,\mathcal V^\prime, \mathcal E^\prime\right)$
- 计算步骤：
  - $k\in \{1,\cdots,N_e\}$ $\mathbf{\vec e}_k^\prime = \phi^{(e)}\left(\mathbf{\vec e}_k, \mathbf{\vec v}_{r_k}, \mathbf{\vec v}_{s_k},\mathbf{\vec u}\right)$ 。
  - $i\in \{1,\cdots,N_v\}$ ，执行：
    - $\mathcal E_i^\prime = \left\{\left(\mathbf{\vec e}_k^\prime, r_k, s_k\right)\right\}_{r_k=i,k=1,\cdots,N_e}$ receiver $i$ 的边的集合。
    - $\mathcal E_i^\prime$ $\bar{\mathbf{\vec e}}_i^\prime = \rho^{(e\rightarrow v)}\left(\mathcal E_i^\prime\right)$ 。
    - $\mathbf{\vec v}_i^\prime = \phi^{(v)}\left(\bar{\mathbf{\vec e}}_i^\prime, \mathbf{\vec v}_{i},\mathbf{\vec u}\right)$ 。
  - $\mathcal V^\prime = \left\{\mathbf{\vec v}_i^\prime\right\}_{i=1,\cdots,N_v}$ $\bar{\mathbf{\vec v}}^\prime = \rho^{(v\rightarrow u)}\left(\mathcal V^\prime\right)$ 。
  - $\mathcal E^\prime = \left\{\left(\mathbf{\vec e}_k^\prime, r_k, s_k\right)\right\}_{k=1,\cdots,N_e}$ $\bar{\mathbf{\vec e}}^\prime = \rho^{(e\rightarrow u)}\left(\mathcal E^\prime \right)$ 。
  - $\mathbf{\vec u}^\prime = \phi^{(u)}\left(\bar{\mathbf{\vec e}}^\prime, \bar{\mathbf{\vec v}}^\prime,\mathbf{\vec u}\right)$ 。
  - $\mathcal G^\prime = \left(\mathbf{\vec u}^\prime,\mathcal V^\prime, \mathcal E^\prime\right)$ 。
$\mathcal G = \left(\mathbf{\vec u},\mathcal V, \mathcal E\right)$ 作为 GN 块的输入时，计算过程从边、节点、global-level。下图给出了这些计算中，每一个计算都涉及哪些图元素。蓝色表示待更新的元素，黑色表示更新中涉及的其它元素（注意，蓝色元素更新之前的值也用于它的本次更新）。
下图给出了具有更新函数、聚合函数的完整 GN 块。它根据输入的节点属性、边属性、全局属性来预测输出的节点属性、边属性、全局属性。

26.2.3 关系归纳偏置

当用于 learning process 的组成部分时，我们的 GN 框架会强制添加几个很强的关系归纳偏置：
- 首先，图可以表达实体之间的任意关系。这意味着 GN 的输入决定了 representation 是如何交互 interact 和隔离 isolated 的，而不是由固定 fixed 的体系架构来决定的。
  即实体的交互和隔离是由数据决定，而不是由模型决定。
  例如：
  - 如果两个实体对应的节点之间存在边，则认为这两个实体之间有关联，即有交互。
  - 如果两个实体对应的节点之间不存在边，则认为这两个实体之间没有关联，即隔离的。
- 其次，图将实体及其关系表示为集合，这是排列不变的 permutation invariant。这意味着 GN 对于这些元素的顺序是不敏感的，这通常是我们所需要的。
- 最后，GN 的 per-edge 函数、per-node 函数分别在所有边、所有节点之间重用。这意味着 GN 自动支持某种形式的组合泛化：由于图由边、节点、以及全局属性组成，因此单个 GN 可以在不同大小（以边和节点数量刻画）、不同形状（不同的连通性）的图上进行操作。

26.3 GN 设计原则

根据前述列出的设计原则，GN 框架可用于实现各种各样的体系架构。通常，GN 框架和特定的属性表示 attribute representation 和函数形式 functional form 无关。但是这里我们重点关注深度学习架构，该架构允许 GN 充当可学习的 graph-to-graph 的函数逼近器 function approximator 。
这里再回顾一下 GN 设计原则：灵活的表示 flexible representations、可配置的块内结构 congurable within-block structure 、可组合的多块体系架构 composable multi-block architectures 。
这三个设计原则再我们的 GN 框架中结合在一起，非常灵活，适用于从感知、语言、到符号推理的广泛领域。并且，如前所述，GN 具有的强大的关系归纳偏置支持组合泛化，因此使得 GN 在实际和理论上都成为强大的工具。

26.3.1 Flexible Representations

灵活的表示有两层含义：
- 属性形式：GN 块的全局属性、节点属性、边属性可以为任意表示形式 arbitrary representational formats 。
- 图结构形式：输入数据可以包含关系结构，或者不包含关系结构，即输入数据的图结构形式可以任意。
属性形式：GN 块的全局属性、节点属性、边属性可以使用任意表示形式。在深度学习实现中，通常使用实值向量或张量。但是，也可以使用其它数据结构，如序列sequence 、集合set、甚至是图 graph。
- 通常我们需要决定：对某个问题采用何种表示形式来描述属性。例如：
  - 当输入数据是图像时，节点属性可以为图像 patches 的张量。
  - 当输入数据为文档时，节点属性可以为句子对应的单词序列。
- 对于更广泛的体系架构中的每个 GN 块，每个边/节点的输出通常对应于一个张量/向量，而全局输出对应于单个张量/向量。这使得 GN 块的输出可以传递到其它深度学习构建块 building block 中，如 MLP,CNN,RNN 。GN 块的输出也可以根据任务需求进行定制化。具体而言：
  - edge-focused GN 可以仅仅将边作为输出。例如，做出有关实体之间相互作用的决策。
  - node-focused GN 可以仅仅将节点作为输出。例如，用于推理物理系统。
  - graph-focused GN 可以仅仅将全局属性作为输出。例如，预测物理系统的势能、分子性质、关于某个视觉场景问题的答案。
  节点属性、边属性、全局属性的输出也可以根据任务混合使用。
图结构形式：在定义如何将输入数据表示为图结构时，有两种情形：
- 首先，输入数据明确指定了关系结构。例如：知识图谱、社交网络、化学分子图、交通网络、以及具有已知交互作用的物理系统。
- 其次，需要从输入数据中推断或假设关系结构，即关系结构没有明确指定。例如视觉场景、文本文档等。
  - 这里可以将数据表示为一组没有关系的实体，甚至仅表示为向量或张量（如：图像）。
    如果未明确指定实体，则可以通过将诸如句子中的每个单词、或者 CNN 输出 feature map 中的 feature vector 视为节点来指定实体。
    或者，也可以使用单独的学习机制从非结构化信号中推断实体，如通过解析树算法从文本中得到解析树。
  - 如果关系不可用，则最简单的方法是在实体之间添加所有可能的有向边。如在图像的 patches 之间两两添加有向边。但是，这对于拥有大量实体的图而言是不可行的，因为边的数量会随着节点数量的增加而平方规模的增加。
    因此，研发更复杂的方法来从非结构化数据中推断稀疏的图结构是未来的重要方向。

26.3.2 Configurable Within-block Structure

GNGN $\phi$ $f$ $f$ 的自变量签名 argument signature 决定了它需要哪些信息作为输入。
$f$ 和块内配置，GN 框架可以表达其它各种架构，如下图所示。接下来讨论如何使用不同的方式配置 GN 的块内结构。
$\phi$ incoming $\mathbf{\vec u}, \mathcal V, \mathcal E$ 用作输入。
- (a)：full GN （即完整的、原始的 GN 块）根据传入的节点属性、边属性、全局属性来输出节点属性、边属性、全局属性。
- (b)：独立的循环块使用 inputhidden state $\phi$ 函数为 RNN 。
- (c)：MPNN 根据传入的节点属性、边属性来输出节点属性、边属性、全局属性。注意，全局预测中不包含聚合的边，输入中不包含全局属性。
- (d)：NLNN 仅输出节点属性。
- (e)：Relation Network 仅使用预测的边属性来输出全局属性。
- (f)：Deep Set 没有采用边更新从而输出全局属性。
Full GN block：《Relational inductive bias for physical construction in humans and machines》 和 《Graph networks as learnable physics engines for inference and control》 使用完整的 GN 块，如上图的 (a) 所示。
- $\phi$ $\text{NN}_e, \text{NN}_v, \text{NN}_u$ $\phi^{(e)},\phi^{(v)},\phi^{(u)}$ ，其中不同的下标表示这些函数是具有不同参数的不同函数。
- $\rho$ 函数采用逐元素求和来实现，但是也可以采用均值池化或最大/最小池化。
更新方程为：
$\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) = {NN}_{e} ([{\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}]) \\ {\bar{\vec{e}}}_{i}^{'} = ρ^{(e \to v)} (E_{i}^{'}) := \sum_{k : r_{k} = i} {\vec{e}}_{k}^{'} \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) = {NN}_{v} ([{\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}]) \\ {\bar{\vec{e}}}^{'} = ρ^{(e \to u)} (E^{'}) := \sum_{k} {\vec{e}}_{k}^{'} \\ {\vec{u}}^{'} = ϕ^{(u)} ({\bar{\vec{e}}}^{'}, {\bar{\vec{v}}}^{'}, \vec{u}) := f^{(u)} ({\bar{\vec{e}}}^{'}, {\bar{\vec{v}}}^{'}, \vec{u}) = {NN}_{u} ([{\bar{\vec{e}}}^{'}, {\bar{\vec{v}}}^{'}, \vec{u}]) \\ {\bar{\vec{v}}}^{'} = ρ^{(v \to u)} (V^{'}) := \sum_{i} {\vec{v}}_{i}^{'} \end{matrix}$
其中：
- $[\cdot,\cdot,\cdot]$ 表示向量拼接。
- MLP $\phi$ 函数；对于张量属性（如图像的 feature mapCNN $\phi$ 函数。
$\phi$ 函数也可以使用 RNN，这需要额外的 hidden state 作为输入和输出。上图 (b) 展示了一个非常简单的 GNRNN $\phi$ 函数。公式中没有消息传递，并且这种类型的 block 可用于对某些 dynamic graph state 进行递归平滑 recurrent smoothing 。
RNN $\phi$ 函数也可以在 full GN block 中使用。
Message-passing neural network: MPNN 概括了很多之前的体系架构，并且可以很自然地转换为 GN 的格式：
- $M_t(\cdot)$ GN $\phi^{(e)}$ $\mathbf{\vec u}$ 作为输入。
- GN $\rho^{(e\rightarrow v)}$ 采用逐元素累加。
- $U_t(\cdot)$ GN $\phi^{(v)}$ 的角色。
- readout $R(\cdot)$ GN $\phi^{(u)}$ $\mathbf{\vec u}$ $\mathcal E^\prime$ GN $\rho^{(e\rightarrow u)}$ 函数。
- $d_{\text{master}}$ GN $\mathbf{\vec u}$ GN $\mathcal V$ 中。
上图 (c) 展示了如何根据 GN 块来构建 MPNN。
Non-local Neural Networks:NLNN 统一了各种 intra/self/vertex/graph attention 方法，它也可以转换为 GN 的格式。
attention 指的是节点的更新方式：每个节点更新均基于其邻域节点属性（或者它的某些函数）的加权和，其中一个节点和它某个邻居之间的权重由属性之间的 scale pairwise 函数（然后整个邻域归一化）给出。
已发表的 NLNN 公式并未显式包含边，而是计算所有节点之间的 pairwise 注意力权重。但是，各种 NLNN-compliant 模型，例如节点注意力交互网络 vertex attention interaction network、图注意力网络 graph attention network 都可以通过有效地将没有边的节点之间的权重设为零来显式处理边。
NLNN $\phi^{(e)}$ 被乘以一个标量的 pairwise-interaction 函数，该函数返回：
- attention $\alpha^{(e)} \left(\mathbf{\vec v}_{r_k},\mathbf{\vec v}_{s_k}\right) = a_k^\prime$ 。
- non-pairwise $\beta^{(e)}(\mathbf{\vec v}_{s_k}) = \mathbf{\vec b}_k^\prime$ 。
$\rho^{(e\rightarrow v)}$ $a_k^\prime$ receiver $\mathbf{\vec b}_k^\prime$ 进行逐元素相加：
$\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = (α^{(e)} ({\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}), β^{(e)} ({\vec{v}}_{s_{k}})) = (a_{k}^{'}, {\vec{b}}_{k}^{'}) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}) \\ {\bar{\vec{e}}}_{i}^{'} = ρ^{(e \to v)} (E_{i}^{'}) := \frac{\sum_{r_{k} = i} a_{k}^{'} {\vec{b}}_{k}^{'}}{\sum_{r_{k} = i} a_{k}^{'}} \end{matrix}$
NLNN $f(\cdot)$ $\alpha$ $g(\cdot)$ $\beta$ 的角色。这个公式可能有助于仅关注于下游任务最相关的那些交互，尤其是当输入实体是一个集合set（而不是图graph）、并且这个图是根据集合中所有实体之间添加所有可能的边来构建的。
- Transformer 体系架构中的 single-headed self-attention，即 SA，实现为公式为：
  $\begin{matrix} a_{k}^{'} = α^{(e)} ({\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = \exp ({NN}_{α, q u e r y} {({\vec{v}}_{r_{k}})}^{⊤} {NN}_{α, k e y} ({\vec{v}}_{s_{k}})) \\ {\vec{b}}_{k}^{'} = β^{(e)} ({\vec{v}}_{s_{k}}) = {NN}_{β} ({\vec{v}}_{s_{k}}) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}) = {NN}_{v} ({\bar{\vec{e}}}_{i}^{'}) \end{matrix}$
  $\text{NN}_{\alpha,query}, \text{NN}_{\alpha,key},\text{NN}_{\beta}$ 都是神经网络函数，使用不同的参数、甚至不同的架构。
- 《Attention is all you need》multi-head self-attention $\phi^{(e)}$ $\rho^{(e\rightarrow v)}$ $\rho^{(e\rightarrow v)}$ $\phi^{(e)}$ 分量函数，类似于 Gated Graph Sequence Neural Networks 。
  multi-head self-attention $H$ $\left\{\bar{\mathbf{\vec e}}_{i,h}^\prime\right\}_{h=1,\cdots,H}$ ：
  ${\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({{\bar{\vec{e}}}_{i, h}^{'}}_{h = 1, 2, \dots, H}) = {NN}_{v} ([{\bar{\vec{e}}}_{i, 1}^{'}, \dots, {\bar{\vec{e}}}_{i, H}^{'}])$
- Vertex Attention Interaction Networks 和 SA 很相似，但是它将欧几里得距离用于 attention 相似性度量，并在 attention 输入的 embedding 中共享参数，且在节点更新函数中使用节点的输入特征：
  $\begin{matrix} a_{k}^{'} = α^{(e)} ({\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = \exp (- {‖ {NN}_{α} ({\vec{v}}_{r_{k}}) - {NN}_{α} ({\vec{v}}_{s_{k}}) ‖}^{2}) \\ {\vec{b}}_{k}^{'} = β^{(e)} ({\vec{v}}_{s_{k}}) = {NN}_{β} ({\vec{v}}_{s_{k}}) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}) = {NN}_{v} ([{\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}]) \end{matrix}$
- Graph Attention Networks 和 multi-head self-attention 相似，但是它使用神经网络作为 attention 相似性度量，并在 attention 输入的 embedding 中共享参数：
  $\begin{matrix} a_{k, h}^{'} = α_{h}^{(e)} ({\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = \exp ({NN}_{α^{'}, h} ({NN}_{α, h} ({\vec{v}}_{r_{k}}), {NN}_{α, h} ({\vec{v}}_{s_{k}}))) \\ {\vec{b}}_{k, h}^{'} = β_{h}^{(e)} ({\vec{v}}_{s_{k}}) = {NN}_{β, h} ({\vec{v}}_{s_{k}}) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({{\bar{\vec{e}}}_{i, h}^{'}}_{h = 1, \dots, H}) = {NN}_{v} ([{\bar{\vec{e}}}_{i, 1}^{'}, \dots, {\bar{\vec{e}}}_{i, H}^{'}]) \end{matrix}$
- 《Self-attention with relative position representations》 提出相对位置编码 relative position encodings 来扩展 multi-head self-attention。relativeGN $\mathbf{\vec e}_k$ multi-head self-attention $\beta^{(e)}\left(\mathbf{\vec v}_{s_k}\right)$ 替换为：
  ${\vec{b}}_{k}^{'} = β^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{s_{k}}) = {NN}_{β} ({\vec{v}}_{s_{k}}) + {\vec{e}}_{k}$
GN $\phi^{(e)}$ $\rho^{(e\rightarrow v)}$ 来实现NLNN 。通常 NLNN 假设图像（或句子中的单词）对应于全连接图中的节点，并假设注意力机制在聚合步骤中定义节点上的加权和。
GN block $\mathcal G^\prime= (\mathbf{\vec u}^\prime,\mathcal V^\prime, \mathcal E^\prime)$ $\mathcal V^\prime,\mathcal E^\prime$ $\phi$ 函数的输入。
同样的思路可以适用于其它 GNmapping $\phi$ reduction $\rho$ 函数。
- Interaction Networks 和 Neural Physics Engine 使用 full GN，但是没有使用全局属性来更新边属性。
  $\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = {NN}_{e} ([{\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}]) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) = {NN}_{v} ([{\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}]) \\ {\bar{\vec{e}}}_{i}^{'} = ρ^{(e \to v)} (E_{i}^{'}) = \sum_{k : r_{k} = i} {\vec{e}}_{k}^{'} \end{matrix}$
  该工作还包括对上述公式的扩展：输出全局的、而不是 per-node 的预测：
  $\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = {NN}_{e} ([{\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}]) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) = {NN}_{v} ([{\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}]) \\ {\vec{u}}^{'} = ϕ^{(u)} ({\bar{\vec{e}}}^{'}, {\bar{\vec{v}}}^{'}, \vec{u}) := f^{(u)} ({\bar{\vec{v}}}^{'}, \vec{u}) = {NN}_{u} ([{\bar{\vec{v}}}^{'}, \vec{u}]) \\ {\bar{\vec{v}}}^{'} = ρ^{(v \to u)} (V^{'}) := \sum_{i} {\vec{v}}_{i}^{'} \end{matrix}$
  这里没有使用全局属性来更新边属性，也没有用边属性来更新全局属性。
- Relation Networks 完全绕开了节点更新，并直接从池化的边信息中预测全局属性输出：
  $\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}) = {NN}_{e} ([{\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}]) \\ {\vec{u}}^{'} = ϕ^{(u)} ({\bar{\vec{e}}}^{'}, {\bar{\vec{v}}}^{'}, \vec{u}) := f^{(u)} ({\bar{\vec{e}}}^{'}) = {NN}_{u} ({\bar{\vec{e}}}^{'}) \\ {\bar{\vec{e}}}^{'} = ρ^{(e \to u)} (E^{'}) := \sum_{k} {\vec{e}}_{k}^{'} \end{matrix}$
- Deep Sets 完全绕开了边更新，并直接根据池化的节点信息中预测全局属性输出：
  $\begin{matrix} {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\vec{v}}_{i}, \vec{u}) = {NN}_{v} ([{\vec{v}}_{i}, \vec{u}]) \\ {\vec{u}}^{'} = ϕ^{(u)} ({\bar{\vec{v}}}^{'}) := f^{(u)} ({\bar{\vec{v}}}^{'}) = {NN}_{u} ({\bar{\vec{v}}}^{'}) \\ {\bar{\vec{v}}}^{'} = ρ^{(v \to u)} (V^{'}) := \sum_{i} {\vec{v}}_{i}^{'} \end{matrix}$
- PointNet $\rho^{v\rightarrow u}$ 使用最大池化，以及对于节点更新使用两阶段。
- Gated Graph Sequence Neural Networks: GGS-NN $t_k\in \{1,\cdots,T\}$ ，更新公式为：
  $\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} (({\vec{e}}_{k}, t_{k}), {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{s_{k}}) = {NN}_{e, t_{k}} ([{\vec{v}}_{s_{k}}]) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}) = {NN}_{v} ([{\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}]) \\ {\bar{\vec{e}}}_{i}^{'} = ρ^{(e \to v)} (E_{i}^{'}) = \sum_{k : r_{k} = i} {\vec{e}}_{k}^{'} \end{matrix}$
  $\text{NN}_v$ GRU $\text{NN}_{e,t_k}$ 为待特定参数的神经网络。
  上述更新递归进行，然后接一个全局解码器，该解码器计算所有节点的最终 embedding 的加权和。
- CommNet 的更新公式为：
  $\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{v}}_{s_{k}}) = {NN}_{e} ({\vec{v}}_{s_{k}}) \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}, \vec{u}) := f^{(v)} ({\bar{\vec{e}}}_{i}^{'}, {\vec{v}}_{i}) = {NN}_{v} ([{\bar{\vec{e}}}_{i}^{'}, {NN}_{v^{'}} ({\vec{v}}_{i})]) \\ {\bar{\vec{e}}}_{i}^{'} = ρ^{(e \to v)} (E_{i}^{'}) = \frac{1}{| E_{i}^{'} |} \sum_{k : r_{k} = i} {\vec{e}}_{k}^{'} \end{matrix}$
- structure2vec 也可以适配我们的算法，只需要进行少量的修改：
  $\begin{matrix} {\bar{\vec{ϵ}}}_{k} = ρ ({{\vec{e}}_{l}}_{s_{l} = r_{k}, r_{l} \neq s_{k}}) := \sum_{s_{l} = r_{k}, r_{l} \neq s_{k}} {\vec{e}}_{l} \\ {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\bar{\vec{ϵ}}}_{k}) := f ({\bar{\vec{ϵ}}}_{k}) = NN ({\bar{\vec{ϵ}}}_{k}) \\ {\bar{\vec{e}}}_{i}^{'} = ρ ({{\vec{e}}_{k}^{'}}_{r_{k} = i}) := \sum_{k : r_{k} = i} {\vec{e}}_{k}^{'} \\ {\vec{v}}_{i}^{'} = ϕ^{(v)} ({\bar{\vec{e}}}_{i}^{'}) := f ({\bar{\vec{e}}}_{i}^{'}) = NN ({\bar{\vec{e}}}_{i}^{'}) \end{matrix}$
  $s_l=r_k,r_l\ne s_k$ $k$ $k$ 条边的终点为起点的边。
  边的属性现在在 receiver 和 sender 之间具有 message 的含义。注意，对于边和节点更新，现在只有一组参数需要学习。
CommNet、structure2vec、Graph Sequence Neural Networks $\phi^{(e)}$ ，它并未计算 pairwise interaction，而是忽略receiver node 而仅考虑 sendersignature $\phi^{(e)}$ 函数上实现：
$\begin{matrix} {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{v}}_{s_{k}}) \\ or {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := {\vec{v}}_{s_{k}} + f^{(e)} ({\vec{e}}_{k}) \\ or {\vec{e}}_{k}^{'} = ϕ^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{r_{k}}, {\vec{v}}_{s_{k}}, \vec{u}) := f^{(e)} ({\vec{e}}_{k}, {\vec{v}}_{s_{k}}) \end{matrix}$
.

26.3.3 Composable Multi-block Architectures

GN 的主要设计原理是通过组合 GN block 来构建复杂的体系架构。我们将 GN block 定义为包含边属性、节点属性、全局属性的图作为输入，并返回新的边属性、节点属性、全局属性的图作为输出。如果某些元素不需要更新，则只需要直接对应的输入传递到输出即可。
这种 graph-to-graph 的 input/output 接口可以确保 GN block 的输出可以传递给另一个 GN block 作为输入。这两个 GN block 内部可以使用完全不同的配置，这类似于深度学习 toolkit 的 tensor-to-tensor 接口。
这种接口最基本的形式是：给定两个 GN block GN1 和 GN2，可以通过将 GN1 的输出作为 GN2 的输入，从而将它们组合在一起：
$G^{'} = {GN}_{2} ({GN}_{1} (G))$
GN block $\text{GN}_{\text{core}}$ 周围的白色表示 M 个重复的内部处理子步骤 repeated internal processing sub-steps ，可能包含共享或者不共享的 GN block 。
- 这些 block 可以不共享（采用不同的函数或参数，类似于 CNNlayer $\text{GN}_1\ne \text{GN}_2\ne\cdots\ne \text{GN}_M$ 。
- 这些 blockRNN $\text{GN}_1=\text{GN}_2=\cdots=\text{GN}_M$ 。
$\mathbf{\vec u}$ $m$ 个传播 step 之后，可访问的信息由最多 m-hop 的节点和边的集合确定。
这可以解释为将复杂的计算分解为较小的基础步 elementary step 。这些 step 也可以用于捕获时间上的顺序。
step $\Delta_t$ $M$ step $M\Delta_t$ 。
下图中，每一行突出显式了从特定节点开始、然后扩展到整个图的信息。
- 第一行中，初始节点在右上方；第二行中，初始节点在右下方。
- $m$ 个 step 能够传播的范围。
- 粗边表示消息传播的边。
注意：在完整的消息传递过程中，这种消息传播同时发生在图中所有节点和所有边上，而不仅仅是这里的两个初始节点。
可以通过 GN block 构建两种常见的体系架构：
- 一种体系架构我们称之为 encode-process-decode 配置，如下图 (b) 所示。其中：
  - $\mathcal G_{\text{inp}}$ $\text{GN}_{\text{enc}}$ $\mathcal G_0$ 。
  - core block $\text{GN}_{\text{core}}$ $M$ $\mathcal G_M$ 。
  - $\text{GN}_{\text{dec}}$ $\mathcal G_{\text{out}}$ 。
  例如在我们的橡胶球例子种，编码器可能会计算球之间的初始力和相互作用势能，core 可能会应用基本动力学更新，解码器可能从更新后的图状态读取最终位置。
- 类似 encode-process-decode 设计，另一种体系架构我们称之为 recurrent GN-based 配置，如下图 (c)step $t$ ：
  - 每个 stephidden graph $\mathcal G_{\text{hid}}^{(t)}$ 。
  - $\mathcal G_{\text{inp}}^{(t)}$ $\text{GN}_{\text{enc}}$ $\mathcal G_0^{(t)}$ 。
    $\text{GN}_{\text{enc}}$ $\mathcal G_{\text{hid}}^{(t)}$ $(\mathbf{\vec e}_k,\mathbf{\vec v}_i,\mathbf{\vec u})$ (c) $\text{GN}_{\text{core}}$ .
  - core block $\text{GN}_{\text{core}}$ unrolled $M$ $1\le t\le M$ $\mathcal G^{(t)}$ $\mathcal G_0^{(t)}$ $\mathcal G_{\text{hid}}^{(t)}$ $\text{GN}_{\text{core}}$ 可能为 GRU或者 LSTM 。
    $\text{GN}_{\text{core}}$ $\mathcal G_{\text{hid}}^{(t+1)}$ (c) $\text{GN}_{\text{dec}}$ 进行解码。
  - $\text{GN}_{\text{dec}}$ $\mathcal G_{\text{out}}^{(t)}$ 。
  这种设计以两种方式重用 GN block：
  - $\text{GN}_{\text{enc}}$ $\text{GN}_{\text{dec}}$ $\text{GN}_{\text{core}}$ step $t$ 进行共享。
  - step $\text{GN}_{\text{core}}$ 在多个 sub-step 内共享。
  这种类型的体系架构常用于预测 graph 序列，例如预测一段时间内动力系统的轨迹。
其它一些技术对于设计 GN 体系架构可能也有用。例如：
- Graph Skip ConnectionGN block $\mathcal G_m$ $\mathcal G_{m+1}$ 拼接在一起，然后再进行下一步的计算。
- Recurrent GN 架构中合并输入图和 hidden 图的信息可以使用 LSTM 或 GRU 风格的 gating scheme，而不是简单地拼接。
  或者在其它 GN block 之前和/或之间组合不同的递归 GN 块，从而提高多个传播step 中 representation 的稳定性。

26.3.4 实现

类似于可天然并行的 CNN（在 GPU 上），GN 具有天然并行结构：
- $\phi^{(e)}$ $\phi^{(v)}$ 分别在边和节点上共享，因此它们可以并行计算。
- 通过将多个图视为较大图的非连通分量 disjoint component，可以自然地将几张图打包一起。因此可以将几个独立图上进行的计算打包在一起。
$\phi^{(e)}$ $\phi^{(v)}$ 函数还可以提高 GNGN $\phi^{(e)}$ $\phi^{(v)}$ 函数的样本数为训练图中节点的数量。
我们已经发布了用于构建 GN 的开源软件库，在 github.com/deepmind/graph_nets 。我们也给出了一些demo包括：在最短路径搜索任务、排序任务、物理系统预测等任务上，如何创建、操作、训练 GN 来推理图结构数据。每个 demo 使用相同的 GN 体系架构，这凸显了该方法的灵活性。

26.4 讨论

GN的结构天然支持组合泛化，因为它们并不严格地在系统级别执行计算，而且还跨实体、跨关系执行共享计算。这样可以推理未曾见过的系统，因为它们都是由熟悉的组件构成的，从而体现了 infinite use of finite means 的方式。
GN 和 MPNN 的消息传递学习方式的局限性之一是无法解决某些类型的问题，如区分某些非同构图 non-isomorphic graph 。
更一般而言，尽管图是表示结构信息的有效方式，但是它们也有局限性。诸如递归、控制流、条件迭代之类的概念并不容易用图来表示。就这些概念而言，program和更多的 computer-like 处理过程可以提供更好的表示性。
关于使用 Graph Network 还存在很多悬而未决的问题：
- 一个紧迫的问题是：运行 GN 的图如何构建？
  深度学习的标志之一是它能够对原始的感官数据 sensory data （如图像、文本）执行复杂的计算，但是尚不清楚如何将感官数据转换为更结构化的表示形式（如 graph）。
  一种方法（我们已经讨论过）假设空间或语言实体之间是全连接的图结构，例如在 self-attention 的文献采用这种方法。但是，这样的representation可能不完全对应于真实的实体，如卷积feature map 并不直接对应于真实场景中的对象。
  此外，很多底层图结构比全连接的图稀疏的多，如何引入这种稀疏性也是一个悬而未决的问题。
  有一些研究正在探索这些问题，但是目前为止并没有一种方法能够可靠地从感官数据中提取离散实体。开发这种方法是一个令人兴奋的挑战，一旦解决就可以推开更强大、更灵活的推理算法的大门。
- 一个相关的问题是如何在计算过程中自适应地修改图结构。例如，如果一个对象分解为多个片段，则代表该对象的节点也应该拆分为多个节点。同样，仅保留交互对象之间的边可能很有用，因此需要根据上下文添加、删除边的能力。
- 人类的认知提出了一个强有力的假设，即世界是由对象和关系组成的。并且，由于 GN 做出了类似的假设，因此它的行为往往更具有解释性。GN 所处理的实体和关系通常对应于人类理解的实物（如物理对象），因此支持更可解释的分析和可视化。未来一个有趣的方向是进一步探索网络行为的可解释性。
尽管我们的重点是图，但是本文的重点不是图本身，而更多是将强大的深度学习方法和结构化表示相结合的方法。

二十七、GIN[2019]

对图结构数据的学习需要有效地对图结构进行表示。最近，对图表示学习graph representation learning 的图神经网络 Graph Neural Network: GNN 引起了人们的广泛兴趣。GNN 遵循递归邻域聚合方案，其中每个节点聚合其邻居的representation 向量从而计算节点的新的 representation 。
已经有很多 GNN 的变体，它们采用不同的邻域聚合方法、graph-level 池化方法。从实验上看，这些 GNN 变体在很多任务（如节点分类、链接预测、图分类）中都达到了 state-of-the-art 性能。但是，新的 GNN 的设计主要基于经验直觉empirical intuition、启发式heuristics、以及实验性experimental 的反复试验。
人们对 GNN 的性质和局限性的理论了解很少，对 GNN 的表达容量representational capacity 的理论分析也很有限。论文 《How powerful are graph neural networks?》 提出了一个用于分析GNN 表达能力representational power 的理论框架。作者正式刻画了不同 GNN 变体在学习表达represent 和区分distinguish 不同图结构上的表达能力expressive 。
论文的灵感主要来自于GNN 和 Weisfeiler-Lehman:WL 图同构检验graph isomorphism test 之间的紧密联系。WL-test 是一种强大的、用于区分同构图的检验。类似于 GNN，WL-test 通过聚合其网络邻域的特征向量来迭代更新给定节点的特征向量。WL-test 如此强大的原因在于它的单射聚合更新 injective aggregation update，这可以将不同的节点邻域映射到不同的特征向量。
$f$ $\mathbb A$ $\mathbb B$ $x,y\in \mathbb A$ $x\ne y$ $f(x) \ne f(y)$ $f$ $\mathbb A$ $\mathbb B$ 的单射。
论文的主要洞察是：如果 GNN 的聚合方案具有很高的表达能力expressive 并且建模单射函数injective function，那么 GNN 可以具有与 WL-test 一样强大的判别力discriminative power 。
为了从数学上形式化该洞察，论文的框架首先将给定节点的邻居的特征向量集合表示为 multiset，即可能包含重复元素的集合。可以将 GNN 中的邻域聚合视为 multiset 上的聚合函数 aggregation function over the multiset 。因此，为了具有强大的表征能力，GNN 必须能够将不同的 multiset 聚合为不同的representation。论文严格研究了multiset 函数的几种变体，并从理论上刻画了它们的判别能力，即不同的聚合函数如何区分不同的multiset。multiset 函数的判别力越强，则底层GNN 的表征能力就越强。然后论文设计出一种简单的架构 Graph Isomorphism Network:GIN，该架构被证明是 GNN 中最具表达能力的，并且和 WL-test 一样强大。
论文在图分类数据集上进行实验来验证该理论，其中GNN 的表达能力对于捕获图结构至关重要。具体而言，作者比较了使用各种聚合函数的 GNN 的性能。实验结果证明了最强大的 GNN（即作者提出的 GIN）在实验中也具有很高的表征能力，因为它几乎完美拟合训练数据。而能力更弱的 GNN 变体通常对于训练数据严重欠拟合underfit 。此外，GIN 在测试集上的准确率也超过了其它GNN 变体，并在图分类 benchmark 上达到了 state-of-the-art 性能。
论文的主要贡献：
- 证明GNN 在区分图结构方面最多和 WL-test 一样强大。
- 给出邻域聚合函数和图readout 函数在什么条件下所得的 GNN 和 WL-test 一样强大。
- 识别那些无法被主流的GNN 变体（如 GCN,GraphSAGE）判别的图结构，然后刻画这些GNN-based 模型能够捕获的图结构。
- 设计了一个简单的神经网络架构，即 Graph Isomorphism Network: GIN，并证明了其判别能力/表征能力等于 WL-test 。
相关工作：尽管 GNN 在经验上取得成功，但是在数学上研究GNN 特性的工作很少。
- 《Computational capabilities of graph neural networks》 表明：早期的 GNN 模型在概率上逼近测度函数。
- 《Deriving neural architectures fromsequence and graph kernels》 表明：该论文提出的架构位于graph kernel 的 PKHS 中，但没有明确研究该架构可以区分哪些图。
这些工作中的每一个都专注于特定的体系结构，并且不容易推广到多种体系结构。相反，我们的研究为分析和刻画一系列GNN 模型的表征能力提供了一个通用框架。
另外，近期提出了一些基于 GNN 的体系结构大多数没有理论推导。与此相比，我们的 GIN 是有理论推导的，而且简单、强大。

27.1 GNN 模型

我们首先总结一些常见的 GNN 模型。
$\mathcal G=(\mathcal V, \mathcal E)$ ，其中：
- $\mathcal V=\{v_1,v_2,\cdots\}$ 为节点集合。
- $\mathcal E=\{e_{i,j}\}$ $e_{i,j}$ $(v_i,v_j)$ 之间的边。
- $v\in \mathcal V$ $\mathbf{\vec x}_v\in \mathbb R^d$ $d$ 为特征向量维度。
通常我们关心图上的两类任务：
- $v\in \mathcal V$ $y_v\in \mathbb R$ $v$ representation $\mathbf{\vec h}_v$ $v$ $y_v = f\left(\mathbf{\vec h}_v\right)$ 来预测。
- $\{\mathcal G_1,\cdots,\mathcal G_N\}\sube \mathbb G$ $\{y_1,\cdots,y_N\}\sube \mathcal Y$ $\mathcal G_i$ representation $\mathbf{\vec h}_{\mathcal G_i}$ $\mathcal G_i$ $y_i = g\left(\mathbf{\vec h}_{\mathcal G_i}\right)$ 来预测。
GNN $\mathbf{\vec x}_v$ representation $\mathbf{\vec h}_v$ representation $\mathbf{\vec h}_{\mathcal G}$ 。
现代 GNN 使用邻域聚合策略，在该策略中我们通过聚合邻域的representationrepresentation $k$ 次迭代聚合之后，节点的representation 将捕获其 k-hop 邻域内的结构信息。
GNN $k$ 层为：
$\begin{matrix} {\vec{a}}_{v}^{(k)} = {AGG}^{(k)} ({{\vec{h}}_{u}^{(k - 1)}, u \in N_{v}}) \\ {\vec{h}}_{v}^{(k)} = {COMB}^{(k)} ({\vec{h}}_{v}^{(k - 1)}, {\vec{a}}_{v}^{(k)}) \end{matrix}$
其中：
- $\mathbf{\vec h}_v^{(k)}$ $v$ $k$ representation $\mathbf{\vec h}_v^{(0)}$ $\mathbf{\vec x}_v$ $\mathbf{\vec h}_v^{(0)} =\mathbf{\vec x}_v$ 。
- $\mathcal N_v$ $v$ 的直接邻居节点集合。
- $\text{AGG}^{(k)}(\cdot)$ $k$ $\text{COMB}^{(k)}(\cdot)$ $k$ 层的拼接函数。
$\text{AGG}^{(k)}(\cdot), \text{COMB}^{(k)}(\cdot)$ 的选择至关重要。已经提出了很多聚合函数：
- 在 GraphSAGE 的最大池化变体中，聚合函数为：
  ${\vec{a}}_{v}^{(k)} = max ({relu (W_{pool} {\vec{h}}_{u}^{(k - 1)}), u \in N_{v}})$
  其中：
  - $\mathbf W_{\text{pool}}$ 为可学习的参数矩阵，它是跨节点、跨层共享。
  - $\max(\cdot)$ 为逐元素的最大池化。
  - $\text{relu}(\cdot)$ 为 relu 非线性激活函数。
  而 GraphSAGE 中的拼接函数为简单的向量拼接：
  ${\vec{h}}_{v}^{(k)} = W^{(k)} [{\vec{h}}_{v}^{(k - 1)}, {\vec{a}}_{v}^{(k)}]$
  [,] $\mathbf W^{(k)}$ 为可学习的参数矩阵。
- 在 Graph Convolutional Networks: GCN 中，聚合函数采用逐元素的均值池化。此时聚合函数、拼接函数整合在一起：
  ${\vec{h}}_{v}^{(k)} = relu (W^{(k)} MEAN ({{\vec{h}}_{u}^{(k - 1)}, u \in N_{v} \cup {v}}))$
  MEAN(.) $\mathbf W^{(k)}$ 为可学习的参数矩阵。
$v$ representation $\mathbf{\vec h}_v^{(K)}$ $v$ 的 representation。
对于图分类任务，READOUT 函数聚合所有节点最后一层的 representationrepresentation $\mathbf{\vec h}_{\mathcal G}$ ：
${\vec{h}}_{G} = READOUT ({{\vec{h}}_{v}^{(K)}, v \in V})$
READOUT 函数可以是简单的排列不变函数permutation invariant function，例如求和函数；也可以是更复杂的graph-level 池化函数。

27.2 WL-test

图同构问题graph isomorphism problem 是判断两个图在拓扑结构上是否相同。这是一个具有挑战性的问题，尚不知道多项式时间polynomial-time 的算法。
除了某些极端情况之外，图同构的 Weisfeiler-Lehman(WL) test 是一种有效且计算效率高的算法，可用于各种类型的图。它的一维形式是 naïve vertex refinement ，它类似于 GNN 中的邻域聚合。
在 WL-test 过程中，每个节点都分配一个label。注意：这里的 label 和分类任务中的label 不同，这里的 label 更多的表示“属性”，而不是“监督信息”。
WL-test 对节点邻域进行反复迭代，最终根据两个图之间的节点label 是否完全相同，从而判断两个图是否同构的。
WL-test 迭代过程如下：
- 聚合节点及其邻域的 label 。
- 将聚合后的label 经过哈希函数得到不同的、新的label ，即 relabel 。
如下图所示：
- 首先将图中每个节点初始化为 label = 1 。
- 然后经过三轮迭代，最终：
  - 图1 具有 1 个label = 8、2 个 label = 7、2 个 label = 9 。
  - 图 2 具有1 个label = 8、2 个 label = 7、2 个 label = 9 。
  因此我们不排除图1 和图 2 同构的可能性。
下图的哈希函数为：
```
{1,1}   --> 2
{1,1,1} --> 3
{2,3}   --> 4
{3,3}   --> 5
{2,2,3} --> 6
{4,6}   --> 7
{6,6}   --> 8
{4,5,6} --> 9
```
注意：这里的 label 集合需要根据label 大小排序，并且每次哈希之后都需要分配一个新的 label 。
《Weisfeiler-lehman graph kernels》 根据 WL-test 提出了 WL subtree kernel 来衡量两个图的相似性。核函数利用 WL tet 的不同迭代中使用的节点label 数作为图的特征向量。
WL test $k$ label $k$ 的子树结构。因此 WL subtree kernel 考虑的图特征本质上是不同根子树的计数。
$h=1$ 的 WL subtree 。这里 label = 8 的节点代表一棵高度为 1 的 subtree 模式，其中subtree 根节点的 label 为 2、包含label=3 和 label=5 的邻居节点。

27.3 模型

我们首先概述我们的框架，下图说明了我们的思想：GNN 递归更新每个节点的representation 向量，从而捕获网络结构和邻域节点的representation ，即它的 rooted subtree 结构。
在整篇论文中，我们假设：
- 节点输入特征来自于可数的范围countable universe 。
- 模型的任何layer 的 representation 也是来自可数的范围。
通常浮点数是不可数的，而整数是可数的。我们可以将浮点数离散化为整数，从而使得数值可数。
为便于说明，我们为每个representation vector （输入特征向量是第0 层的 representation vector）分配唯一的 labellabel $\{a,b,c,\cdots\}$ $\mathbf{\vec h}_i^{(k)}\in \mathbb R^{d_k}$ label $l\left(\mathbf{\vec h}_i^{(k)}\right)\in \{a,b,c,\cdots\}$ $l(\cdot)$ 函数为双射函数。
然后节点的邻域节点 representation vector 就构成一个 multiset ：由于不同的节点可以具有相同的 representation 向量，因此同一个 label 可以在 multiset 中出现多次。
下图中：
- 左图：一个图结构的数据。
- 中图：rooted subtree 结构，用于在 WL test 中区分不同的图。
- 右图：如果 GNN 聚合函数捕获节点邻域的 full multiset，则 GNN 能够以递归的方式捕获 rooted subtree 结构，从而和 WL test 一样强大。
multiset 定义：multiset 是 set 概念的推广，它允许包含相同的多个元素。正式地讲，，multiset2-tuple $X =( S,m)$ ，其中：
- $S$ 为底层的set ，它包含唯一distinct 的元素。
- $m:S\rightarrow \mathbb N_{\ge 1}$ 给出这些元素的重复数量multiplicity 。
为研究 GNN 的表征能力，我们分析GNN 何时将两个节点映射到 embedding 空间中的相同位置。
直观地看，能力强大的 GNN 仅在两个节点具有相同subtree 结构、且subtree 上相应节点具有相同特征的情况下才将两个节点映射到相同的位置。
由于 subtree 结构是通过节点邻域递归定义的，因此我们可以将分析简化为：GNN 是否将两个邻域（即两个multiset）映射到相同的 embedding 或 representation 。
能力强大的 GNN 绝对不会将两个不同的邻域（即representation 向量的 multiset）映射到相同的representation。这意味着聚合函数必须是单射函数。因此我们将 GNN 的聚合函数抽象为神经网络可以表示的、multiset 上的函数，并分析它们能否表示multiset 上的单射函数。
接下来我们使用这种思路来设计能力最强的 GIN。最后我们研究了主流的 GNN 变体，发现它们的聚合函数本质上不是单射的因此能力较弱，但是它们能够捕获图的其它有趣的特性。

27.3.1 定理

我们首先刻画 GNN-based 通用模型的最大表征能力。
- 理想情况下，能力最强大的 GNN 可以通过将不同的图结构映射到 embedding 空间中不同的representation 来区分它们。这种将任意两个不同的图映射到不同 embedding 的能力意味着解决具有挑战性的图同构问题。即，我们希望将同构图映射到相同的 representation，将非同构图映射到不同的 representation 。
- 在我们的分析中，我们通过一个稍弱的准则来刻画 GNN 的表征能力：一种强大powerful的、启发式heuristic的、称作 Weisfeiler-Lehman(WL) 的图同构测试graph isomorphism test 。
  WL-test 通常工作良好，但是也有一些例外，如正规图regular graph。正规图是图中每个节点的 degree 都相同。如：立方体包含四个节点，每个节点的 degree 为 3，记作 4k3 。
2 $\mathcal G_1,\mathcal G_2$ non-isomorphic graph $\mathcal A:\mathcal G\rightarrow \mathbb R^d$ $\mathcal G_1,\mathcal G_2$ 映射到不同的 embeddingWL-test $\mathcal G_1,\mathcal G_2$ 是非同构的。
证明：这里采用反证法。
$k$ $\mathcal A$ $\mathcal A(\mathcal G_1)\ne \mathcal A(\mathcal G_2)$ WL-test $\mathcal G_1,\mathcal G_2$ 是非同构的。这意味着在 WL-test0 $k$ $\mathcal G_1,\mathcal G_2$ 的节点 label collection 都相同。
$\mathcal G_1,\mathcal G_2$ $i$ label multiset $\left\{l_v^{(i)}\right\}$ label $\left\{\left(l_v^{(i)},\left\{l_w^{(i)},w\in \mathcal N_v\right\}\right)\right\}$ $l_v^{(i)}$ $v$ WL-test $i$ 轮迭代中的 labelWL-test $i+1$ label collection $\mathcal G_1, \mathcal G_2$ 是非同构的。
$l_v^{(i)} = l_u^{(i)}$ $\mathbf{\vec h}_v^{(i)} = \mathbf{\vec h}_u^{(i)}$ $v\in \mathcal G_1,u\in \mathcal G_2$ 。我们用数学归纳法证明：
- $i=0$ 时，结论显然成立。因为 WL-testGNN $\mathbf{\vec h}_v^{(0)}\in \mathbb R^{d }$ label $l_v^{(0)} = l\left(\mathbf{\vec h}_v^{(0)}\right)\in \{a,b,c,\cdots\}$ $l(\cdot)$ $l_v^{(0)} = l_u^{(0)}$ $\mathbf{\vec h}_v^{(0)} = \mathbf{\vec h}_u^{(0)}$ 。
- $j$ 次迭代成立。
- $j+1$ $v\in \mathcal G_1,u\in \mathcal G_2$ $l_v^{(j+1)} = l_u^{(j+1)}$ ，则有：
  $(l_{v}^{(j)}, {l_{w}^{(j)}, w \in N_{v}}) = (l_{u}^{(j)}, {l_{w}^{(j)}, w \in N_{u}})$
  $j$ 次迭代的假设，我们有：
  $({\vec{h}}_{v}^{(j)}, {{\vec{h}}_{w}^{(j)}, w \in N_{v}}) = ({\vec{h}}_{u}^{(j)}, {{\vec{h}}_{w}^{(j)}, w \in N_{u}})$
  $\mathcal G_1, \mathcal G_2$ $\mathcal A$ 来计算，因此它们使用相同的AGGREGATE 函数和 COMBINE 函数。因此相同的输入（如邻域特征）产生相同的输出。因此有：
  ${\vec{h}}_{v}^{(j + 1)} = {\vec{h}}_{u}^{(j + 1)}$
  $j+1$ 次迭代成立。
因此如果 WL-testlabel $l_v^{(i)} = l_u^{(i)}$ $\mathbf{\vec h}_v^{(i)} = \mathbf{\vec h}_u^{(i)}$ $i$ $\mathcal G_1$ $\mathcal G_2$ representation $\left\{\mathbf{\vec h}_v^{(k)}\right\}=\left\{\mathbf{\vec h}_u^{(k)}\right\}$ 。由于 graph-level readout 函数对于节点representationpermutation invariant $\mathcal A(\mathcal G_1) = \mathcal A(\mathcal G_2)$ ，矛盾。
根据引理2，任何基于聚合的 GNN 在区分不同图结构方面最多和 WL-test 一样强大。
一个自然的问题是：是否存在和 WL-test 一样强大的 GNN？在定理3 中，我们将证明：如果邻域聚合函数和 graph-level readout 函数是单射的，则得到的 GNN 和 WL-test 一样强大。
3 $\mathcal A:\mathcal G\rightarrow \mathbb R^d$ 为一个 GNNGNN $\mathcal A$ WL-test $\mathcal G_1,\mathcal G_2$ 映射到不同的 embedding ：
- $\mathcal A$ 通过以下方程递归地聚合和更新节点representation：
  ${\vec{h}}_{v}^{(k)} = ϕ ({\vec{h}}_{v}^{(k - 1)}, f ({{\vec{h}}_{u}^{(k - 1)}, u \in N_{v}}))$
  $f(\cdot)$ $\phi(\cdot)$ $f(\cdot)$ 作用在 multiset 上。
- $\mathcal A$ 的 graph-level readout 函数是单射函数。其中 readoutembedding multiset $\left\{\mathbf{\vec h}_v^{(k)}\right\}$ 上。
$\mathcal A$ $\mathcal G_1, \mathcal G_2$ WL-test $K$ 次迭代后判定它们是非同构的。
$\mathcal A$ 更新节点的 representation 为：
${\vec{h}}_{v}^{(k)} = ϕ ({\vec{h}}_{v}^{(k - 1)}, f ({{\vec{h}}_{u}^{(k - 1)}, u \in N_{v}}))$
$f(\cdot),\phi(\cdot)$ 都是单射函数。
WL-test $g(\cdot)$ 来更新节点 label：
$l_{v}^{(k)} = g (l_{v}^{(k - 1)}, {l_{u}^{(k - 1)}, u \in N_{v}})$
$g(\cdot)$ 不是从数据中学习，而是预定义的。
$k$ $\varphi^{(k)}$ $\mathbf{\vec h}_v^{(k)} = \varphi^{(k)}\left(l_v^{(k)}\right)$ 。
- $k=0$ 时结论显然成立。因为 WL-testGNN $\mathbf{\vec h}_v^{(0)}\in \mathbb R^{d }$ label $l_v^{(0)} = l\left(\mathbf{\vec h}_v^{(0)}\right)\in \{a,b,c,\cdots\}$ $l(\cdot)$ $l_v^{(0)} = l_u^{(0)}$ $\mathbf{\vec h}_v^{(0)} = \mathbf{\vec h}_u^{(0)}$ $\varphi^{(0)}=l^{-1}$ $l(\cdot)$ 这个双射函数的反函数。
- $k-1$ 时也成立。
- $k$ 次迭代。根据：
  ${\vec{h}}_{v}^{(k)} = ϕ (φ^{(k - 1)} (l_{v}^{(k - 1)}), f ({φ^{(k - 1)} (l_{u}^{(k - 1)}), u \in N_{v}}))$
  $\psi^{(k-1)}$ ，使得：
  ${\vec{h}}_{v}^{(k)} = ψ^{(k - 1)} (l_{v}^{(k - 1)}, {l_{u}^{(k - 1)}, u \in N_{v}})$
  则有：
  ${\vec{h}}_{v}^{(k)} = ψ^{(k - 1)} \circ g^{- 1} g (l_{v}^{(k - 1)}, {l_{u}^{(k - 1)}, u \in N_{v}}) = ψ^{(k - 1)} \circ g^{- 1} (l_{v}^{(k)})$
  $\varphi^{(k)} = \psi^{(k-1)}\circ g^{-1}$ $k$ 轮迭代成立。
$k$ $\varphi$ $\mathbf{\vec h}_v^{(k)} = \varphi^{(k)}\left(l_v^{(k)}\right)$ 。
$K$ WL-test $\mathcal G_1, \mathcal G_2$ $\mathcal G_1$ $\mathcal G_2$ label multiset $\left\{l_v^{(K)}\right\}$ $\varphi^{(K)}$ injectivity $\mathcal G_1$ $\mathcal G_2$ embedding $\left\{\mathbf{\vec h}_v^{(K)}\right\}= \left\{\varphi^{(K)} \left(l_v^{(K)}\right)\right\}$ 也是不同的。
对于可数集，单射性injectiveness 很好地描述了一个函数是否保持输入的唯一性distinctness 。节点输入特征是连续的不可数集则需要进一步考虑。
此外，刻画学到的 representation 在 embedding 空间中的邻近程度（如果两个 embedding 不相等的话）也很有意义。我们将这些问题留待以后的工作，本文重点放在输入节点特征来自可数集的情况，并仅考虑输出 representation 相等/不等的情况。
4 $\mathcal X$ $g^{(k)}(\cdot)$ GNN $k$ $k=1,\cdots,L$ $g^{(1)}$ 是定义在 sizemultiset $X\sub \mathcal X$ $g^{(k)}(\cdot)$ representation $\mathbf{\vec h}_v^{(k)}$ ）也是可数的。
$k\in \mathbb N$ $\mathbb N^k$ $\mathbb N\times \mathbb N$ $\mathbb N\times \mathbb N$ $\phi$ $\mathbb N\times \mathbb N\rightarrow \mathbb N$ ：
$ϕ (a, b) = 2^{a - 1} \times (2 b - 1)$
现在回到我们的的引理证明。如果我们可以证明在可数集上的、sizemultiset $g(\cdot)$ range $g^{(k)}(\cdot)$ 上述引理成立。
$g(\cdot)$ 的值域是可数的。
$g(\cdot)$ 是神经网络layerwell-defined $g(X) \rightarrow X$ multiset $X\sub \mathcal X$ 是可数的。
$\mathcal X^\prime = \mathcal X\cup\{e\}$ $e$ dummy $\mathcal X$ 中。
$\mathbb N^k$ $\mathcal X^{\prime \;k}$ $k\in \mathbb N$ $\mathcal X$ multiset $\mathcal X^{\prime\; k}$ 。我们如下构建这个单射函数：
- $\mathcal X$ $Z:\mathcal X\rightarrow \mathbb N$ $x\in \mathcal X$ 映射到自然数。
- $x\in X$ $z(x)$ $x_1,\cdots,x_n$ $n=|X|$ 。
- multiset $X$ size $k\in \mathbb N$ $|X|\lt k$ $X$ $h(\cdot)$ 为：
  $h (X) = (x_{1}, x_{2}, \dots, x_{n}, e, e, \dots)$
  $k-n$ dummy element $e$ 。
$h(\cdot)$ 是单射函数，因为对于任意 sizemultiset $X$ $Y$ $X=Y$ $h(X) = h(Y)$ $g(\cdot)$ 的值域是可数的。
这里还值得讨论 GNN 在图结构判别能力上的一个重要优点，即：捕获图结构的相似性。
- WL-test 中的节点特征向量本质上是one-hot 编码，因此无法捕获 subtree 之间的相似性。
- 相反，满足定理3 条件的 GNN 将 subtree 嵌入到低维空间来推广WL-test。这使得 GNN 不仅可以区分不同的结构，还可以学习将相似的图结构映射到相似的 embedding 从而捕获不同图结构之间的依赖关系。
  捕获node label 的结构相似性有助于泛化generalization，尤其是当subtree 的共现co-occurrence 很稀疏时、或者存在边噪音和/或节点特征噪音时。

27.3.2 GIN

在研究出能力最强的 GNN 的条件之后，我们接下来将设计一种简单的架构，即图同构网络Graph Isomorphism Network:GIN。可以证明GIN 满足定理3 中的条件。
GIN 将 WL-test 推广从而实现了 GNN 的最大判别力。
为建模用于邻居聚合的 multiset 单射函数，我们研究了一种 deep multiset 理论，即：使用神经网络对 multiset 函数进行参数化。
我们的下一个引理指出：sum 聚合实际上可以表示为 multiset 上的通用单射函数。
5 $\mathcal X$ $f:\mathcal X\rightarrow \mathbb R^n$ $h(X) = \sum_{ x\in X} f(x)$ 对于每个有界sizemultiset $X\sub \mathcal X$ 是唯一的uniquemultiset $g(\cdot)$ $g(X) = \phi\left(\sum_{x\in X} f(x)\right)$ $\phi(\cdot)$ 为某个函数。
$f$ $h(X) = \sum_{x\in X} f(x)$ 对于每个有界sizemultiset $X$ 是唯一的。
$\mathcal X$ $Z:\mathcal X\rightarrow \mathbb N$ $x\in \mathcal X$ multiset $X$ cardinality $N\in \mathbb N$ $X$ $|X|\lt N$ $f$ $f(x) = N^{-Z(x)}$ $f$ 视为 one-hotN-digit $h(X) = \sum_{x\in X} f(x )$ 为 multiset 的单射函数。
$\phi\left(\sum_{x\in X} f(x)\right)$ 是排列不变的permutation invariant，因此它是定义良好的 well-defined 的multisetmultiset $g(\cdot)$ $\phi\left(\sum_{x\in X} f(x)\right)=g(X)$ $\phi$ $\phi$ $h(X) = \sum_{x\in X} f(x )$ 是单射函数。
引理5 将 《Deep sets》中的结论从 set 扩展到 multiset 。deep multiset 和 deep set 之间的重要区别是：某些流行的 set 单射函数（如均值聚合）不再是 multiset 单射函数。
通过将引理5 中的通用 multiset 函数建模机制作为构建块 building block，我们可以设想一个聚合方案，该方案可以表示单个节点及其邻域的 multiset 上的通用函数，因此满足定理3 中的第一个条件。
我们的下一个推论是在所有这些聚合方案中选择一个简单而具体的形式。
6 $\mathcal X$ $f:\mathcal X\rightarrow \mathbb R^n$ $\epsilon$ $h(c,X) = (1+\epsilon)\times f(c) + \sum_{x\in X}f(x)$ pair $(c,X)$ unique $c\in \mathcal X$ ，有界sizemultiset $X\sub \mathcal X$ pair $g(\cdot)$ $g(c,X) = \varphi\left((1+\epsilon)\times f(c)+ \sum_{x\in X} f(x)\right)$ $\varphi(\cdot)$ 为某个函数。
5 $f(x) = N^{-Z(x)}$ $N$ $Z$ 的定义延续推论 5 。
$h(c,X)=(1+\epsilon)\times f(c) + \sum_{x\in X}f(x)$ $\epsilon$ $(c^\prime,X^\prime)\ne (c,X)$ $h(x,X)\ne h(c^\prime,X^\prime)$ $c,c^\prime \in\mathcal X$ $X,X^\prime \sub \mathcal X$ 。
我们用反证法证明。
$(c,X)$ $(c^\prime,X^\prime)$ $(c^\prime,X^\prime)\ne (c,X)$ $h(x,X)= h(c^\prime,X^\prime)$ 成立。考虑以下两种情况：
- $c^\prime=c,X^\prime\ne X$ ：
  $h(c,X)= h(c^\prime,X^\prime)$ $\sum_{x\in X}f(x) = \sum_{x\in X^\prime} f(x)$ 。
  5 $f(x) = N^{-Z(x)}$ $X^\prime\ne X$ $\sum_{x\in X}f(x) \ne \sum_{x\in X^\prime} f(x)$ 。因此矛盾。
- $c^\prime\ne c$ ：
  $h(c,X) = h(c^\prime,X^\prime)$ 为：
  $ϵ \times (f (c) - f (c^{'})) = (f (c^{'}) + \sum_{x \in X^{'}} f (x)) - (f (c) + \sum_{x \in X} f (x))$
  $\epsilon$ $f(c)-f(c^\prime)$ 是一个非零的有理数，因此上式左侧为一个无理数。由于有限个有理数的和还是有理数，因此上式右侧为有理数。因此上式不成立，矛盾。
$(c,X)$ $g(\cdot)$ $\varphi\left((1+\epsilon)\times f(c)+ \sum_{x\in X} f(x)\right) =g(c,X)$ $\varphi$ 。
$\varphi$ well-defined $h(c,X) = (1+\epsilon)\times f(c)+ \sum_{x\in X} f(x)$ 是单射函数。
由于通用逼近定理universal approximation theorem，我们可以使用多层感知机multi-layer perceptrons:MLPs6 $f$ $\varphi$ 。
MLP $f^{(k+1)}\circ\varphi^{(k)}$ ，因为MLPs 可以表示组合函数。
- 在第一轮迭代中，如果输入特征是 one-hot 编码，则在求和之前不需要 MLP ，因为它们的求和本身就是单射的。
  即：
  ${\vec{h}}_{v}^{(1)} = (1 + ϵ^{(1)}) \times {\vec{x}}_{v}^{(0)} + \sum_{u \in N_{v}} {\vec{x}}_{u}^{(0)}$
- $\epsilon$ 作为一个可学习的参数或者一个固定的标量。然后 GIN 的节点representation 更新方程为：
${\vec{h}}_{v}^{(k)} = {MLP}^{(k)} ((1 + ϵ^{(k)}) \times {\vec{h}}_{v}^{(k - 1)} + \sum_{u \in N_{v}} {\vec{h}}_{u}^{(k - 1)}), k \neq 1$
通常而言，可能存在很多其它强大的 GNN。GIN 是这些能力强大的 GNN 中的一个简单的例子。
GIN 学到的节点 embedding 可以直接用于诸如节点分类、链接预测之类的任务。对于图分类任务，我们提出以下 readout 函数，该函数可以在给定每个节点embedding 的情况下生成整个图的 embedding 。
关于graph-level readout 函数的一个重要方面是：对应于 subtree 结构的 node embedding 随着迭代次数的增加而越来越精细化refine和全局化global 。足够数量的迭代是获得良好判别力的关键，但是早期迭代的representation 可能会泛化能力更好。
为了考虑所有结构信息，我们使用来自模型所有深度的信息。我们通过类似于 Jumping Knowledge Networks 的架构来实现这一点。在该架构体系中，我们将 GIN 所有层的 representation 拼接在一起：
${\vec{h}}_{G} = CONCAT (READOUT ({{\vec{h}}_{v}^{(k)}, v \in V}), k = 0, 1, \dots, K)$
通过定理3 和推论6，如果 GIN 使用求和函数（求和针对相同迭代轮次中所有节点的 representation 进行）替代了上式中的 READOUT （因为求和本身就是单射函数，因此在求和之前不必添加额外的 MLP ），它就可证明地provably 推广了 WL-test 和 WL subtree kernel 。

27.4 Less Powerfull GNN

现在我们研究不满足定理3 中条件的 GNN，包括 GCN、GraphSAGE。另外，我们对 GIN 的聚合器的两个方面进行消融研究：
- 单层感知机代替多层感知机MLP 。
- 均值池化或最大池化代替求和。
我们将看到：这些 GNN 变体无法区分很简单的图，并且比 WL-test 能力更差。尽管如此，具有均值聚合的模型（如 GCN）在节点分类任务中仍然表现良好。为了更好地理解这一点，我们精确地刻画了哪些 GNN 变体可以捕获或无法捕获图结构，并讨论了图学习的意义。

27.4.1 单层感知机

5 $f(\cdot)$ 帮助将不同的 multiset 映射到唯一的 embedding 。
MLP $f(\cdot)$ GNN $\sigma\circ \mathbf W$ ：先使用一个线性映射，然后接一个非线性激活函数（如 relu）。这种单层映射是广义线性模型Generalized Linear Models 的示例。
因此，我们有兴趣了解单层感知机是否足以进行图学习。引理7 表明：确实存在使用单层感知机的图模型永远无法区分的网络邻域（multiset ）。
引理7：存在有限sizemultiset $X_1\ne X_2$ $W$ ，有：
$\sum_{x \in X_{1}} relu (W x) = \sum_{x \in X_{2}} relu (W x)$
$X_1=\{1,1,1,1,1\}$ $X_2=\{2,3\}$ ，即两个不同的、包含正数的multiset，但是它们的sum 结果相同。我们将使用 ReLU 的同质性homogeneity 。
$W$ $x\in X_1,X_2$ $\mathbb R$ $X_1,X_2$ 中的元素都为正数：
- $W\gt 0$ $Wx\gt 0, x\in X_1\cup X_2$ $\text{relu}(Wx) = Wx$ $\sum_{\mathbf{x}\in X_1}\text{relu}\left(W x \right) = \sum_{\mathbf{x}\in X_2}\text{relu}\left(Wx \right)$ 。
- $W\lt 0$ $Wx\lt 0, x\in X_1\cup X_2$ $\text{relu}(Wx) =0$ $\sum_{\mathbf{x}\in X_1}\text{relu}\left(W x \right) = \sum_{\mathbf{x}\in X_2}\text{relu}\left(Wx \right)$ 。
- $W=0$ $Wx=0,x\in X_1\cup X_2$ $\text{relu}(Wx) =0$ $\sum_{\mathbf{x}\in X_1}\text{relu}\left(W x \right) = \sum_{\mathbf{x}\in X_2}\text{relu}\left(Wx \right)$ 。
$\sum_{\mathbf{x}\in X_1}\text{relu}\left(W x \right) = \sum_{\mathbf{x}\in X_2}\text{relu}\left(Wx \right)$ 。
引理7 的证明的主要思想是：单层感知机的行为和线性映射非常相似。因此 GNN 层退化为简单地对邻域特征进行求和。我们的证明基于以下事实：线性映射中缺少偏置项。使用偏置项和足够大的输出维度，单层感知机可能区分不同的 multiset。
尽管如此，和使用 MLP 的模型不同，单层感知机（即使带有偏置项）也不是 multiset 函数的通用逼近器。因此，即使具有单层感知机的 GNN 可以在不同程度上将不同的图嵌入到不同的位置，此类embedding 也可能无法充分捕获结构相似性，并且可能难以拟合简单的分类器（如线性分类器）。
在实验中，我们观察到带单层感知机的 GNN 应用于图分类时，有时对于训练数据严重欠拟合underfit 。并且在测试集准确率方面要比带 MLP 的 GNN 更差。

27.4.2 均值池化和最大池化

$h(X) = \sum_{x\in X} f(x)$ 中的求和替换为均值池化或最大池化，就像 GCN、GraphSAGE 中的那样，结果会如何？
均值池化和最大池化仍然是 multiset 上定义良好的函数，因为它们是排列不变的permutation invariant 。但是，它们不是单射函数。
下图按照表征能力对这三种聚合器（sum/mean/max 聚合器）进行排名rank。左图给出了输入的 multiset，即待聚合的网络邻域。后面的三幅图说明了给定的聚合器能够捕获 multiset 的哪个方面：
- sum 捕获了完整的multiset。
- mean 捕获了给定类型的元素的比例/分布。
- max 忽略了多重性 multiplicity，将multiset 简化为简单的 set 。
下图说明了 mean 池化和 maxGNN $v$ $v^\prime$ 的中心节点结合 combine 在一起。
$v$ $v^\prime$ 获得相同的 embedding，即使它们的图结构是不同的。如前所述：sum 捕获了完整的multiset；mean 捕获了给定类型的元素的比例/分布；max 忽略了多重性 multiplicity，将multiset 简化为简单的 set 。
- 图 (a) 给出均值池化和最大池化都无法区分的图。这表明：均值池化和最大池化无法区分所有节点特征都相同的图。
- (b) $h_r$ $h_g$ （rg $f(\cdot)$ $v$ $v^\prime$ max $\max(h_g,h_r)$ $\max(h_g,h_r,h_r)$ 将坍缩collapse 到相同的 representation（即使对应的图结构不同）。因此最大池化也无法区分它们。
  $\frac 12(h_g+h_r)$ $\frac 13(h_g+h_r+h_r)$ 通常不相等。
- 图(c) 给出均值池化和最大池化都无法区分的图。这表明：均值池化和最大池化无法区分节点特征分布相同的图。因为：
  $\begin{matrix} \frac{1}{2} (h_{g} + h_{r}) = \frac{1}{4} (h_{g} + h_{g} + h_{r} + h_{r}) \\ max (h_{g}, h_{r}) = max (h_{g}, h_{g}, h_{r}, h_{r}) \end{matrix}$

a. 均值池化

为了刻画均值聚合器能够区分的 multisetmultiset $X_1=(S,m)$ $X_2=(S,k\times m)$ $X_1$ $X_2$ distinct $X_2$ $X_1$ $k$ $X_1$ $X_2$ 映射到相同的 embedding，因为均值聚合器只是对各元素特征取均值。
因此，均值聚合器捕获的是multiset 中元素的分布（比例），而不是捕获确切的 multiset 本身。
8 $\mathcal X$ $f:\mathcal X\rightarrow \mathbb R^n$ $h(X) = \frac{1}{|X|}\sum_{x\in X}f(x)$ $X_1$ $X_2$ $h(X_1) = h(X_2)$ $|X_2|\ge |X_1|$ $X_1=(S,m)$ $X_2=(S,k\times m)$ $k$ 为某个大于1 的整数。
multiset $X_1,X_2$ $X_1=(S,m),X_2=(S,k\times m)$ $k$ 1 $X_1,X_2$ set $X_2$ multiplicity $X_1$ $k$ 倍。然后我们有：
$| X_{2} | = k | X_{1} |, \sum_{x \in X_{2}} f (x) = k \times \sum_{x \in X_{1}} f (x)$
因此有：
$\frac{1}{| X_{2} |} \sum_{x \in X_{2}} f (x) = \frac{1}{| X_{1} |} \sum_{x \in X_{1}} f (x)$
$f(\cdot)$ $\frac{1}{|X|}\sum_{x\in X}f(x)$ distributionally equivalent $X$ unique $\mathcal X$ $Z:\mathcal X\rightarrow \mathbb N$ $x\in\mathcal X$ multiset $X$ cardinality $N\in \mathbb N$ $|X|\lt N$ $X$ $f(\cdot)$ $f(x) = N^{-2Z(x)}$ 。
如果某个任务中，图的统计信息和分布信息比确切结构更重要，则对于该任务使用均值聚合器可能会表现良好。
此外，当节点特征多种多样diverse，且很少重复时，均值聚合器的能力几乎和 sum 聚合器一样强大。这可以解释为什么尽管存在限制（只能捕获 multiset 中元素的分布、而不是捕获确切的 multiset 本身），但是具有均值聚合器的 GNN 对于节点特征丰富的节点分类任务（如文章主题分类和社区检测）有效，因为邻域特征分布足以为任务提供强有力的信号。

b. 最大池化

最大池化将多个具有相同特征的节点视为仅一个节点（即，将 multiset 视为一个简单的 set）。
最大池化无法捕获确切的结构或分布。但是，它可能适合于需要识别代表性元素或者骨架 skeleton，而不适合需要区分确切结构或分布的任务。
实验表明：最大池化聚合器学会了识别3D 点云的骨架，并对噪声和离群点具有鲁棒性。为了完整起见，下一个推论表明最大池化聚合器捕获了 multiset 底层的 set 。
9 $\mathcal X$ $f:\mathcal X\rightarrow \mathbb R^\infty$ $h(X) = \max_{x\in X}f(x)$ $X_1$ $X_2$ set $h(X_1)=h(X_2)$ 成立。
multiset $X_1$ $X_2$ set $S$ ，我们有：
$max_{x \in X_{1}} f (x) = max_{x \in S} f (x) = max_{x \in X_{2}} f (x)$
$f(\cdot)$ $\max_{x\in X}f(x)$ set $X$ unique $\mathcal X$ $Z:\mathcal X\rightarrow \mathbb N$ $x\in\mathcal X$ $f:\mathcal X\rightarrow \mathbb R^{\infty}$ 函数的定义为：
$\begin{matrix} f_{i} (x) = {\begin{cases} 1, & i = Z (x) \\ 0, & else \end{cases} \end{matrix}$
$f_i(x)$ $f(x)$ $i$ $f$ 本质上将 multiset 映射到它的 one-hot embedding 。

27.4.3 其它聚合器

我们还没有覆盖到其它非标准的邻域聚合方案，如通过attention 加权平均的聚合器、 LSTM 池化聚合器。我们强调，我们的理论框架足以通用从而刻画任何基于聚合的 GNN 的表征能力。未来我们会研究应用我们的框架来分析和理解其它聚合方案。

27.5 实验

我们评估和对比了 GIN 以及能力较弱的 GNN 变体的训练和测试性能。
- 训练集上的性能比较让我们能够对比不同 GNN 模型的表征能力。
- 测试集上的性能比较让我们能够对比不同 GNN 模型的泛化能力。
数据集：我们使用9 种图分类benchmark 数据集，包括4 个生物信息学数据集（MUTAG, PTC, NCI1, PROTEINS）、5 个社交网络数据集（COLLAB, IMDB-BINARY, IMDB-MULTI, REDDITBINARY and REDDIT-MULTI5K）。
- 社交网络数据集：
  - IMDB-BINARY 和 IMDB-MULTI 是电影协作collaboration 数据集。
    每个图对应于演员的协作图，节点代表演员。如果两个演员出现在同一部电影中，则节点之间存在边。
    每个图都来自于预先指定的电影流派 genre ，任务的目标是对图的流派进行分类。
  - REDDIT-BINARY 和 REDDIT-MULTI5K 是平衡的数据集。
    每个图对应于一个在线讨论话题thread，节点对应于用户。如果一个用户评论了另一个用户的帖子，则两个节点之间存在一条边。
    任务的目标是将每个图分类到对应的社区。
  - COLLAB 是一个科学协作collaboration 数据集，它来自3 个公共协作数据集，即 High Energy Physics, Condensed Matter Physics, Astro Physics 。
    每个图对应于来自每个领域的不同研究人员的协作网络。任务的目标是将每个图分类到所属的领域。
- 生物学数据集：
  - MUTAG 是包含 188 个诱变mutagenic 的芳香族aromatic 和异芳香族heteroaromatic 硝基化合物nitro compound 的数据集，具有 7 个类别。
  - PROTEINS 数据集中，节点是二级结构元素secondary structure elements:SSEs，如果两个节点在氨基酸序列或3D 空间中是邻居，则两个节点之间存在边。它具有3 个类别，分别代表螺旋helix、片sheet、弯 turn 。
  - PTC 是包含344 种化合物的数据集，给出了针对雄性和雌性老鼠的致癌性，具有 19 个类别。
  - NCL1 是美国国家癌症研究所公开的数据集，是化学化合物平衡数据集的子集balanced datasets of chemical compounds。这些化合物经过筛选具有抑制一组人类癌细胞系生长的能力，具有 37 个类别。
重要的是，我们的目标不是让模型依赖于节点的特征，而是主要从网络结构中学习。因此：在生物信息图中，节点具有离散categorical 的输入特征；而在社交网络中，节点没有特征。对于社交网络，我们按照如下方式创建节点特征：
- 对于 REDDIT 数据集，我们将所有节点特征向量设置为相同。因此这里特征向量不带任何有效信息。
- 对于其它社交网络，我们使用节点 degree 的 one-hot 编码作为节点特征向量。因此这里的特征向量仅包含结构信息。
下表给出了数据集的统计信息。
baseline 方法：
- WL sbuntree kernel，其中使用 C-SVM 来作为分类器。
  SVM 的超参数 C 以及WL 迭代次数通过超参数调优得到，其中迭代次数从{1,2,3,4,5,6} 之中选择。
- state-of-the-art 深度学习架构，如 Diffusionconvolutional neural networks: DCNN、PATCHY-SAN、Deep Graph CNN: DGCNN。
- Anonymous Walk Embeddings:AWL。
对于深度学习方法和 AWL，我们报告其原始论文中的准确率。
实验配置：我们评估 GIN 和能力较弱的 GNN 变体。
- 在 GIN 框架下，我们考虑两种变体：
  - $\epsilon$ $\text{GIN-}\epsilon$ 。
  - $\epsilon=0$ ，我们称之为 GIN-0 。
    $\epsilon=0$ 时，GIN 的邻域聚合就是 sum 池化（不包含当前节点自身）。
  正如我们将看到的，GIN-0GIN-0 $\text{GIN-}\epsilon$ $\text{GIN-}\epsilon$ 。
- 对于能力较弱的GNN 变体，我们考虑使用均值池化或最大池化替代GIN-0 中的 sum聚合，或者使用单层感知机来代替 GIN-0 中的多层感知机。
  这些变体根据使用的聚合器、感知器来命名。如 mean-1-layer 对应于GCN、max-1-layer 对应于 GraphSAGE，尽管有一些小的体系架构修改。
对于 GIN 和所有的 GNN 变体，我们使用相同的 graph-level readout 函数。具体而言，由于更好的测试性能，生物信息学数据集的 readout 采用sum 函数，而社交网络数据集的 readout 采用 mean 函数。
我们使用 LIB-SVM 执行 10-fold 交叉验证，并报告 10-fold 交叉验证中验证集准确率的均值和标准差。
对于所有配置 configurations：
- 我们使用5 层 GNN layer（包含输入层），并且 MLP 都有 2 层（它不算在 5 层 GNN内）。
- 我们对于每个 hidden layer 应用 batch normalization。
- 我们使用初始学习率为 0.01 的 Adam 学习器，并且每 50 个 epoch 进行学习率衰减 0.5 。
超参数是针对每个数据集进行调优的：
- 对于生物学数据集，隐层维度为16 或 32；对于社交网络数据集，隐层维度为64 。
- batch size 为32 或 128 。
- dropout 在 dense 层后，dropout 比例为0 或 0.5 。
- epoch 数量通过 10-fold 交叉验证来确定。
注意：由于数据集规模较小，因此使用验证集进行超参数选择极其不稳定。例如对于 MUTAG，验证集仅包含 18 个数据点。因此上述有很多超参数是我们人工调优的。
我们也报告了不同 GNN 的训练准确率。其中所有的超参数在所有数据集上都是固定的（调优之后）：5 层 GNN layer（包括输入层）、hidden 维度为 64、batch size = 128、dropout 比例为 0.5 。
为进行比较，我们也报告了 WL subtree kernel 的准确率，其中迭代数量为 4 。这和 5 GNN layer 相当。

27.5.1 训练准确率

通过比较 GNN 的训练准确率，我们验证了我们关于表征能力的理论分析。具有较高表达能力的模型应该具有较高的训练准确率。下图给出了具有相同超参数设置的 GIN 和能力较弱的 GNN 变体的训练曲线。
- $\text{GIN-}\epsilon$ $\text{GIN-0}$ 都是理论上最强大的 GNN，它们都可以几乎完美地拟合训练集。
  $\epsilon$ $\text{GIN-}\epsilon$ $\epsilon$ 0 $\text{GIN-0}$ ，并没有额外的收益。
- 相比之下，使用均值/最大值池化聚合、或者单层感知机的 GNN 变体在很多数据集中严重欠拟合。
  具体而言，训练准确率模式和我们通过模型表征能力的排名相符：
  - 采用 MLP 的 GNN 变体要比采用单层感知机的 GNN 变体拟合训练集效果更好。
  - 采用 sum 聚合器的 GNN 变体要比采用均值/最大值池化聚合的 GNN 变体拟合训练集效果更好。
- 在我们的数据集上，GNN 训练准确率永远不会超过 WL subtree kernel 。
  这是可以预期的，因为 GNN 的判别力通常比 WL-test 更低。例如在 IMDB-BINARY 数据集上，没有一个模型能够完美拟合训练集，而 GNN 最多可达到与 WL kernel 相同的训练准确率。
  这种模式和我们的结果一致，即 WL-test 为基于聚合的 GNN 的表征能力提供了上限。但是， WL kernel 无法学习如何组合节点特征，这对于给定的预测任务非常有用。我们接下来会看到。

27.5.2 测试准确率

接下来我们比较测试准确率。尽管我们的理论分析并未直接提及 GIN 的泛化能力，但是可以合理地预期具有强大表达能力的 GNN 可以准确地捕获感兴趣的图结构，从而更好地泛化。
下表给出了 GIN（Sum-MLP）、其它GNN 变体、以及state-of-the-art baseline 的测试准确率。表现最好的 GNN 以黑色突出显示。在有些数据集上 GIN 的准确率在所有 GNN 变体之间并非最高，但是和最佳 GNN相比 GIN 仍然具有可比的性能，因此GIN 也已黑色突出显示。如果 baseline 的性能明显高于所有 GNN，则我们用黑体和星号同时突出显示。
结论：
- 首先，GIN，尤其是 GIN-0，在所有 9 个数据集上均超越了（或者达到可比的）能力较弱的 GNN 变体，达到了 state-of-the-art 性能。
- 其次，在包含大量训练数据的社交网络数据集中，GIN 效果非常好。
  对于 Reddit 数据集，所有节点都使用相同的特征，因此模型仅能捕获图结构信息。
  - GIN 以及 sum 聚合的 GNN 准确地捕获到图结构，并且显著优于其它模型。
  - 均值聚合 GNN 无法捕获图的任何结构，并且其测试准确率和随机猜测差不多。
  对于其它社交网络数据集，虽然提供了节点degree 作为输入特征，但是基于均值聚合的 GNN 也要比基于sum 聚合的 GNN 差得多。
- GIN-0 $\text{GIN-}\epsilon$ GIN-0 $\text{GIN-}\epsilon$ GIN-0 $\text{GIN-}\epsilon$ 的泛化能力更好。

二十八、MPNN[2017]

机器学习预测分子和材料的性质仍处于起步阶段。迄今为止，将机器学习应用于化学任务的大多数研究都围绕着特征工程展开，神经网络在化学领域并未广泛采用。这使人联想到卷积神经网络被广泛采用之前的图像模型image model 的状态，部分原因是缺乏经验证据表明：具有适当归纳偏置inductive bias 的神经网络体系结构可以在该领域获得成功。
最近，大规模的量子化学计算 quantum chemistry calculation 和分子动力学模拟molecular dynamics simulation，加上高通量high throughput 实验的进展，开始以前所未有的速度产生数据。大多数经典的技术不能有效地利用现在的大量数据。假设我们能找到具有适当归纳偏置的模型，将更强大和更灵活的机器学习方法应用于这些问题的时机已经成熟。原子系统的对称性表明，在图结构数据上操作并对图同构graph isomorphism 不变的神经网络可能也适合于分子。足够成功的模型有朝一日可以帮助实现药物发现或材料科学中具有挑战性的化学搜索问题的自动化。
在论文 《Neural Message Passing for Quantum Chemistry》 中，作者的目标是为化学预测问题展示有效的机器学习模型，这些模型能够直接从分子图 molecular graph 中学习特征，并且对图同构不变 invariant 。为此，论文描述了一个在图上进行监督学习的一般框架，称为信息传递神经网络（Message Passing Neural Network: MPNN）。MPNN 简单地抽象了现有的几个最有前景的图神经模型之间的共性，以便更容易理解它们之间的关系，并提出新的变体。鉴于许多研究人员已经发表了适合 MPNN 框架的模型，作者认为社区应该在重要的图问题上尽可能地推动这种通用方法，并且只提出由application 所启发的新变体，例如论文中考虑的应用：预测小有机分子的量子力学特性（如下图所示）。
最后，MPNN 在分子属性预测benchmark 上取得了 state-of-the-art 的结果。
论文贡献：
- 论文开发了一个 MPNN 框架，它在所有13个目标target 上都取得了 SOTA 的结果，并在 13 个目标中的 11 个目标上预测到 DFT 的化学准确性。
- 论文开发了几种不同的 MPNN ，在 13 个目标中的5个目标上预测到 DFT 的化学准确性，同时仅对分子的拓扑结构进行操作（没有空间信息作为输入）。
- 论文开发了一种通用的方法来训练具有更大 node representation的 MPNN，而不需要相应地增加计算时间或内存，与以前的MPNN相比，在高维node representation 方面产生了巨大的节省。
作者相信论文的工作是朝着使设计良好的 MPNN成为中等大小分子上的监督学习的默认方法迈出的重要一步。为了实现这一点，研究人员需要进行仔细的实证研究，以找到使用这些类型的模型的正确方法，并对其进行必要的改进。
相关工作：尽管原则上量子力学可以让我们计算分子的特性，但物理定律导致的方程太难精确解决。因此，科学家们开发了一系列的量子力学近似方法，对速度和准确率进行了不同的权衡，如带有各种函数的密度功能理论（Density Functional Theory: DFT）以及量子蒙特卡洛 Quantum Monte-CarloDFT $O(N^3_e )$ $N_e$ 为电子数），并且相对于薛定谔方程的精确解，DFT 表现出系统误差和随机误差。
《Combined first-principles calculation and neural-network correction approach for heat of formation 》 使用神经网络来近似 DFT 中一个特别麻烦的项，即交换相关势能 exchange correlation potential ，以提高DFT的准确性。然而，他们的方法未能提高DFT的效率，而是依赖于一大套临时的原子描述符 atomic descriptor。另一个方向试图直接对量子力学的解进行近似，而不求助于 DFT 。这两个方向都使用了有固有局限性的手工设计的特征。

28.1 MPNN

$\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 为边集合。
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ 。
- $e_{i,j}$ $\mathbf{\vec e}_{i,j}\in \mathbb R^{d_e}$ 。
将无向图推广到有向的多图multigraph（即多条边）也很容易。
GNN 的前向传播具有两个阶段：消息传递阶段、readout 阶段：
- $T$ 个时间 stepmessage function $M_t(\cdot)$ update function $U_t(\cdot)$ 来定义。
  $v$ $\mathbf{\vec h}_v^{(t+1)}$ $\mathbf{\vec m}_v^{(t+1)}$ 来更新的：
  $\begin{matrix} {\vec{m}}_{v}^{(t + 1)} = \sum_{u \in N_{v}} M_{t} ({\vec{h}}_{v}^{(t)}, {\vec{h}}_{u}^{(t)}, {\vec{e}}_{v, u}) \\ {\vec{h}}_{v}^{(t + 1)} = U_{t} ({\vec{h}}_{v}^{(t)}, {\vec{m}}_{v}^{(t + 1)}), {\vec{h}}_{v}^{(0)} = {\vec{x}}_{v} \end{matrix}$
  $\mathcal N_v$ $v$ 的邻域。
- readout $T$ embedding $\hat{\mathbf{\vec y}}$ ：
  $\hat{\vec{y}} = R ({{\vec{h}}_{v}^{(T)} ∣ v \in G})$
  $R(\cdot)$ 为readout 函数readout function。
  $R(\cdot)$ 函数对节点的状态集合进行操作，并且必须满足对节点集合的排列不变性 permutation invariant 从而使得 MPNN 对图的同构不变性graph isomorphism invariant 。
MPNN $\mathbf{\vec h}_{e_{v,u}}^{(t)}$ 来学习边特征，并采取类似的更新方式：
$\begin{matrix} {\vec{m}}_{e_{v, u}}^{(t + 1)} = \sum_{s \in N_{v}} M_{t}^{e} ({\vec{h}}_{v}^{(t)}, {\vec{h}}_{s}^{(t)}, {\vec{h}}_{e_{v, s}}^{(t)}) + \sum_{s \in N_{u}} M_{t}^{e} ({\vec{h}}_{u}^{(t)}, {\vec{h}}_{s}^{(t)}, {\vec{h}}_{e_{u, s}}^{(t)}) \\ {\vec{h}}_{e_{v, u}}^{(t + 1)} = U_{t}^{e} ({\vec{h}}_{e_{v, u}}^{(t)}, {\vec{m}}_{e_{v, u}}^{(t + 1)}), {\vec{h}}_{e_{v, u}}^{(0)} = {\vec{e}}_{v, u} \end{matrix}$
$M_t(\cdot)$ $U_t(\cdot)$ readout $R (\cdot)$ $M_t(\cdot),U_t(\cdot),R(\cdot)$ 来定义已有的一些模型。
- 《Convolutional Networks for Learning Molecular Fingerprints》：
  - $M_t\left(\mathbf{\vec h}_v^{(t)} , \mathbf{\vec h}_u^{(t)},\mathbf{\vec e}_{v,u}\right) =\left[\mathbf{\vec h}_u^{(t)}||\mathbf{\vec e}_{v,u}\right]$ $[\cdot||\cdot]$ 为向量拼接。
  - $U_t\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)=\sigma\left(\mathbf M^{(t)}_{\text{deg(v)}}\mathbf{\vec m}_v^{(t+1)}\right)$ ，其中：
    - $\mathbf M^{(t)}$ $t$ $\text{deg}(v)$ $v$ 的 degree，并且不同的 degree 使用不同的映射矩阵。
    - $\sigma(\cdot)$ 为 sigmoid 函数。
  - Readout $R(\cdot)$ skip connection $\mathbf{\vec h}_v^{(t)}$ ，并且等价于:
    $f (\sum_{v \in V} \sum_{t = 1}^{T} softmax (W^{(t)} {\vec{h}}_{v}^{(t)}))$
    $f(\cdot)$ $\mathbf W^{(t)}$ 为待学习的参数。
  $\mathbf{\vec m}_v^{(t+1)}= \left[\sum_{u\in \mathcal N_v}\mathbf{\vec h}_u^{(t)}||\sum_{u\in \mathcal N_v}\mathbf{\vec e}_{v,u}\right]$ 分别在节点和边上进行求和。因此，这种消息传递方案无法识别节点状态和边状态之间的相关性。
- Gated Graph Neural Networks:GG-NN：
  - $M_t\left(\mathbf{\vec h}_v^{(t)} , \mathbf{\vec h}_u^{(t)},\mathbf{\vec e}_{v,u}\right) = \mathbf A_{e_{v,u}}\mathbf{\vec h}_u^{(t)}$ $\mathbf A_{e_{v,u}}$ edge label $e$ （即边的类型）学习一个矩阵。注意：模型假设边的label是离散的。
  - $U_t\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)=\text{GRU}\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)$ ，其中GRU 为Gated Recurrent Unit 。
    该工作使用了权重绑定 weight tying，因此在每个时间步都使用相同的更新函数。
    $t$ 个时间步视为一个序列。
  - Readout $R(\cdot)=\sum_{v\in \mathcal V} \sigma\left(f_i\left(\mathbf{\vec h}_v^{(T)},\mathbf{\vec h}_v^{(0)}\right)\right)\odot \left(f_j\left(\mathbf{\vec h}_v^{(T)}\right)\right)$ $f_i(\cdot),f_j(\cdot)$ $\odot$ $\sigma(\cdot)$ 为 sigmoid 函数。
- Interaction Networks：该工作既考虑了 node-level 目标，也考虑了 graph-level 目标。也考虑了在节点上施加的外部效应。
  - $M_t\left(\mathbf{\vec h}_v^{(t)} , \mathbf{\vec h}_u^{(t)},\mathbf{\vec e}_{v,u}\right) =\left[\mathbf{\vec h}_v^{(t)}||\mathbf{\vec h}_u^{(t)}||\mathbf{\vec e}_{v,u}\right]$ $[\cdot||\cdot]$ 为向量拼接。
  - $U_t\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)=g\left(\left[\mathbf{\vec h}_v^{(t)}||\mathbf{\vec f}_v^{(t)}||\mathbf{\vec m}_v^{(t+1)}\right]\right)$ $\mathbf{\vec f}_v^{(t)}$ $t$ $v$ $g(\cdot)$ 为神经网络函数。
  - 当进行 graph-levelReadout $R(\cdot) = f\left(\sum_{v\in \mathcal G}\mathbf{\vec h}_v^{(T)}\right)$ $f(\cdot)$ $T$ 仅仅为 1 。
- Molecular Graph ConvolutionsMPNN $\mathbf{\vec e}_{v,u}^{(t)}$ 。
  - $M_t\left(\mathbf{\vec h}_v^{(t)} , \mathbf{\vec h}_u^{(t)},\mathbf{\vec e}_{v,u}^{(t)}\right) =\mathbf{\vec e}_{v,u}^{(t)}$ 。
  - $U_t\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)=\text{relu}\left[\mathbf W_1\left(\text{relu}\left(\mathbf W_0\mathbf{\vec h}_v^{(t)}\right)\right)||\mathbf{\vec m}_v^{(t+1)}\right]$ ，reluReLU $\mathbf W_0,\mathbf W_1$ 为待学习的权重矩阵。
  - 边更新函数：
    ${\vec{e}}_{v, u}^{(t + 1)} = U_{t}^{e} ({\vec{e}}_{v, u}^{(t)}, {\vec{h}}_{v}^{(t)}, {\vec{h}}_{u}^{(t)}) = relu [W_{4} (relu (W_{2} {\vec{e}}_{v, u}^{(t)})) | | relu (W_{3} [{\vec{h}}_{v}^{(t)} | | {\vec{h}}_{u}^{(t)}])]$
    $\mathbf W_2,\mathbf W_3,\mathbf W_4$ 为待学习的权重矩阵。
- Deep Tensor Neural Networks：
  - $M_t\left(\mathbf{\vec h}_v^{(t)} , \mathbf{\vec h}_u^{(t)},\mathbf{\vec e}_{v,u} \right) =\tanh\left(\mathbf W_1\left(\left(\mathbf W_2\mathbf{\vec h}_u^{(t)}+\mathbf{\vec b}_1\right)\odot\left(\mathbf W_3\mathbf{\vec e}_{v,u}+\mathbf{\vec b}_2\right)\right)\right)$ $\mathbf W_1,\mathbf W_2,\mathbf W_3$ $\mathbf{\vec b}_1,\mathbf{\vec b}_2$ 为待学习的 bias 向量。
  - $U_t\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)=\mathbf{\vec h}_v^{(t)}+\mathbf{\vec m}_v^{(t+1)}$ 。
  - Readout $R(\cdot) = \sum_v \text{NN}\left(\mathbf{\vec h}_v^{(T)}\right)$ $\text{NN}(\cdot)$ 为单层神经网络。
- Laplacian Based Methods，例如GCN ：
  - $M_t\left(\mathbf{\vec h}_v^{(t)} , \mathbf{\vec h}_u^{(t)},\mathbf{\vec e}_{v,u} \right) = c_{v,u}\mathbf{\vec h}_u^{(t)}$ ，其中：
    $c_{v, u} = \frac{A_{v, u}}{\sqrt{deg (v) \times deg (u)}}$
    $A_{v,u}$ $\mathbf A$ deg(v) $v$ 的 degree 。
  - $U_t\left(\mathbf{\vec h}_v^{(t)},\mathbf{\vec m}_v^{(t+1)}\right)=\text{relu}\left(\mathbf W^{(t)}\mathbf{\vec m}_v^{(t+1)}\right)$ 。
将这些方法抽象为通用的 MPNN 的好处是：我们可以确定关键的实现细节，并可能达到这些模型的极限，从而指导我们进行未来的模型改进。
所有这些方法的缺点之一是计算时间。最近的工作通过在每个time step 仅在图的子集上传递消息，已经将 GG-NN 架构应用到更大的图。这里我们也提出了一种可以改善计算成本的 MPNN 修改。

28.2 MPNN 变体

我们基于 GG-NN 模型探索 MPNN，我们认为 GG-NN 是一个很强的 baseline 。我们聚焦于探索不同的消息函数、输出函数，从而找到适当的输入 representation 以及正确调优的超参数。
消息函数探索：
- 矩阵乘法作为消息函数：首先考察 GG-NN 中使用的消息函数，它定义为
  $M_{t} ({\vec{h}}_{v}^{(t)}, {\vec{h}}_{u}^{(t)}, {\vec{e}}_{v, u}) = A_{e_{v, u}} {\vec{h}}_{u}^{(t)}$
  $\mathbf A_{e_{v,u}}$ edge label $e$ （即边的类型）学习一个矩阵。注意：模型假设边的label是离散的。
- Edge Network：为了支持向量值的 edge 特征，我们使用以下消息函数：
  $M_{t} ({\vec{h}}_{v}^{(t)}, {\vec{h}}_{u}^{(t)}, {\vec{e}}_{v, u}) = A ({\vec{e}}_{v, u}) {\vec{h}}_{u}^{(t)}$
  $\mathcal A(\mathbf{\vec e}_{v,u})$ edge $\mathbf{\vec e}_{v,u}$ $\mathbb R^{d\times d}$ $d$ 表示内部隐状态的维度。
- Pair Message $\mathbf{\vec h}_u$ $\mathbf{\vec e}_{v,u}$ $\mathbf{\vec h}_v$ 。理论上如果消息同时包含源节点和目标节点的信息，则网络可能更有效地传递消息。因此消息函数定义为：
  $M_{t} ({\vec{h}}_{v}^{(t)}, {\vec{h}}_{u}^{(t)}, {\vec{e}}_{v, u}) = f ({\vec{h}}_{v}^{(t)}, {\vec{h}}_{u}^{(t)}, {\vec{e}}_{v, u})$
  $f(\cdot)$ 为一个神经网络。
$M_t^{(\text{in})}$ $M_t^{(\text{out})}$ $e_{v,u}$ 上应用哪一个，则取决于边的方向。
虚拟节点 & 虚拟边：我们探索了两种方式来在图中添加虚拟元素，从而修改了消息传递的方式（使得消息传播得更广）：
- 虚拟边：在未连接节点pair 对之间添加虚拟边，这个边的类型是特殊类型。这可以实现为数据预处理步骤，并允许消息在传播阶段传播很长一段距离。
- 虚拟节点：虚拟一个 master 节点，该节点以特殊的边类型来连接到图中的每个输入节点。
  此时master 节点充当全局暂存空间，每个节点都在消息传递的每个step 中从master 读取信息、向 master 写入信息。这允许信息在传播阶段传播很长的距离。
  master $d_{\text{master}}$ ，也允许 master 节点在内部状态更新函数中使用单独的权重矩阵。
  由于加入了 master 节点，理论上模型复杂度有所增加，并提升了模型型容量。
Readout 函数：我们尝试了两种 Readout 函数。
- 一种是在 GG-NN 中使用的 Readout 函数：
  $R (\cdot) = \sum_{v \in V} σ (f_{i} ({\vec{h}}_{v}^{(T)}, {\vec{h}}_{v}^{(0)})) ⊙ (f_{j} ({\vec{h}}_{v}^{(T)}))$
- 另一种是 Set2Set 模型，该模型专门为Set 输入而设计的，并且比简单地累加final node state具有更强的表达能力。
  $\left(\mathbf{\vec h}_v^{(T)},\mathbf{\vec x}_v\right)$ set $N$ 个计算 step 之后，Set2Setgraph-level embedding $\mathbf{\vec q}_t^*$ ，该 embedding 对于setembedding $\mathbf{\vec q}_t^*$ 馈入一个神经网络从而产生输出。
Multiple Towers：MPNNstep $O(n^2d^2)$ $n$ $d$ 较大时，其计算代价太大。为解决这个问题：
- $d$ embedding $\mathbf{\vec h}_v^{(t)}$ $K$ $d/k$ embedding $\left\{\mathbf{\vec h}_v^{(t,k)}\right\}_{k=1,\cdots,K}$ ，每个拆分代表图在某个隐空间下的一种 embedding 。
- $k$ embedding $\left\{\tilde{\mathbf{\vec h}}_v^{(t,k)}\right\}$ 。
- $K$ 种 embedding 结果通过以下方式混合：
  $({\vec{h}}_{v}^{(t, 1)} | | \dots | | {\vec{h}}_{v}^{(t, K)}) = g ({\tilde{\vec{h}}}_{v}^{(t, 1)} | | \dots | | {\tilde{\vec{h}}}_{v}^{(t, K)})$
  $g(\cdot)$ $g(\cdot)$ $||$ 表示向量拼接。
这种混合方式保留了节点的排列不变性permutation invariant ，同时允许图的不同embedding 在传播阶段相互交流。
这种方法是有利的，因为对于相同数量的参数数量，它能产生更大的假设空间，表达能力更强。并且时间复杂度更低。当消息函数是矩阵乘法时，某种 embeddingstep $O(n^2(d/K)^2)$ $K$ embedding $O(n^2d^2/K)$ 。另外还有一些额外的开销，因为有用于混合的神经网络。
Multiple Towers 就是 multi-head 的思想。

28.3 实验

数据集：QM-9 分子数据集，包含 130462 个分子。我们随机选择 10000 个样本作为验证集、10000 个样本用于测试集、其它作为训练集。特征（如下表所示）和 label 的含义参考原始论文。
我们使用验证集进行早停和模型选择，并在测试集上报告mean absolute error:MAE 。
结论：
- 针对每个目标训练一个模型始终优于对所有13 个目标进行联合训练。
- 最优的 MPNN 变体使用edge network 消息函数。
- 添加虚拟边、添加master 节点、将 graph-level 输出修改为 Set2Set 输出对于 13 个目标都有帮助。
- Multiple Towers 不仅可以缩短训练时间，还可以提高泛化性能。
具体实验细节参考原始论文。
下图中，enn-s2s 表示最好的 MPNN 变体（使用 edge network 消息函数、set2set 输出、以及在具有显式氢原子的图上操作），enn-s2s-ens5 表示对应的 ensemble 。

二十九、UniMP[2020]

在半监督节点分类任务中，我们需要学习带标签的样本，然后对未标记样本进行预测。为更好地对节点进行分类，基于拉普拉斯平滑性假设Laplacian smoothing assumption ，人们提出了消息传递模型来聚合节点邻域的信息从而获得足够的事实fact 来对未标记节点产生更可靠的预测。
通常有两种实现消息传递模型的实用方法：
- 图神经网络Graph Neural Network:GNN ：通过神经网络执行特征传播feature propagation 以进行预测。
- 标签传播算法 Label Propagation Algorithm:LPA：跨 graph adjacency matrix 的标签传播 label propagation 来进行预测。
由于 GNN 和 LPA 基于相同的假设：通过消息传播进行半监督分类。因此有一种直觉认为：将它们一起使用可以提高半监督分类的性能。已有一些优秀的研究提出了基于该想法的图模型。例如，APPNP 和 TPN 通过将 GNN 和 LPA 拼接在一起，GCN-LPA 使用 LPA 来正则化 GCN 模型。但是，如下表所示，上述方法仍然无法将 GNN 和 LPA 共同融入消息传递模型，从而在训练和预测过程中同时传播特征和标签。
为了统一特征传播和标签传播，主要有两个问题需要解决：
- 聚合特征信息和标签信息：由于节点特征是由embedding 表达的，而节点标签是一个 one-hot 向量。它们不在同一个向量空间中。
  此外，它们的信息传递方式也不同：GNN 可以通过不同的神经网络架构来传播信息，如GraphSAGE、GCN 和 GAT ；但是 LPA 只能通过图邻接矩阵来传递标签信息。
- 监督训练：用特征传播和标签传播进行监督训练的模型不可避免地会在 self-loop 标签信息中出现过拟合，这使得在训练时出现标签泄漏 label leakage ，导致预测的性能不佳。
受NLP 发展的启发，论文《Masked label prediction: unified message passing model for semi-supervised classification》 提出了一个新的统一消息传递模型 Unified Message Passing:UniMP，并且使用带 masked label prediction 的 UniMP 来解决上述问题。UniMP 模型可以通过一个共享的消息传递网络将特征传播和标签传播xx，从而在半监督分类中提供更好的性能。
- UniMP 是一个多层的 Graph Transformer，它使用 label embedding 来将节点标签转换为和节点特征相同的向量空间。
  一方面，UniMP像之前的 attention-based GNN 一样传播节点特征；另一方面，UniMP将multi-head attention 视为转移矩阵从而用于传播 label vector 。因此，每个节点都可以聚合邻域的特征信息和标签信息。
  即，label vector 的转移矩阵来自于 attention ，而不是来自于图的邻接矩阵。
- 为了监督训练 UniMP 模型而又不过拟合于self-loop 标签信息，论文从 BERT 中的 masked word prediction 中吸取经验，并提出了一种 masked label prediction 策略。该策略随机mask 某些训练样本的标签信息，然后对其进行预测。这种训练方法完美地模拟了图中标签信息从有标签的样本到无标签的样本的转移过程。
论文在 Open Graph Benchmark:OGB 数据集上对三个半监督分类数据集进行实验，从而证明了 UniMP 获得了 state-of-the-art 半监督分类结果。论文还对具有不同输入的模型进行了消融研究，以证明 UniMP 方法的有效性。此外，论文还对标签传播如何提高 UniMP 模型的性能进行了最彻底的分析。

29.1 模型

$\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 为边集合。
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{ d_f}$ $d_f$ $\mathbf X\in \mathbb R^{n\times d_f}$ 。
- $e_{i,j}$ $\mathbf{\vec e}_{i,j} \in \mathbb R^{d_e}$ 。
- $v_i$ $y_i$ one-hot $\mathbf{\vec y}_i\in \mathbb R^K$ $K$ one-hot $\mathbf Y\in \mathbb R^{n\times K}$ 。
  $\hat{\mathbf Y}^{(0)}$ ，该矩阵由所有节点的 one-hot 标签向量或者全零向量组成：对于标记节点，它就是标签的 one-hot 向量；对于未标记节点，它就是全零的向量。
- $\mathbf A\in \mathbb R^{n\times n}$ $\mathbf D=\text{diag}\left(d_1,\cdots,d_n\right)$ $d_i=\sum_{j}A_{i,j}$ $v_i$ 的 degree。
  $\mathbf D^{-1}\mathbf A$ $\mathbf D^{-1/2}\mathbf A\mathbf D^{-1/2}$ ，这里我们采用前者。
特征传播Feature PropagationGNN $\mathbf X$ $\mathbf X \rightarrow \mathbf Y$ 。
GNN $l$ 层：
$\begin{matrix} H^{(l + 1)} = σ (D^{- 1} A H^{(l)} W^{(l)}) \\ Y = f_{out} (H^{(L)}) \end{matrix}$
其中：
- $\sigma(\cdot)$ 为非线性激活函数。
- $\mathbf W^{(l)}$ $l$ 层的、可训练的权重参数。
- $\mathbf H^{(l)}$ $l$ representation $\mathbf H^{(0)} = \mathbf X$ 。
- $f_{\text{out}}(\cdot)$ final embedding $\mathbf H^{(L)}$ $L$ 为网络层数。
标签传播Label Propagation模型：LPA 假定相连节点之间的标签是平滑的，并在整个图上迭代传播标签。
LPA $l$ 轮迭代：
${\hat{Y}}^{(l + 1)} = D^{- 1} A {\hat{Y}}^{(l)}$
$\hat{\mathbf Y}^{(0)}$ 就是前面定义的初始标签矩阵。
LPA $\mathbf D^{-1}\mathbf A$ 从一个节点传播到其它节点。

29.1.1 UniMP 模型

UniMP 整体架构如下图所示。我们采用了 Graph Transformer 并结合使用label embedding 来构建 UniMP 模型，从而将上述特征传播和标签传播结合在一起。
Graph Transformer：由于 Transformer 已经在 NLP 中被证明功能强大，因此我们将常规的 multi-head attention 应用到 graph learning 中。
representation $\mathcal H^{(l)}=\left\{\mathbf{\vec h}_1^{(l)},\mathbf{\vec h}_2^{(l)},\cdots,\mathbf{\vec h}_n^{(l)}\right\}$ $v_j$ $v_i$ 的 multi-head attention ：
$\begin{matrix} {\vec{q}}_{c, i}^{(l)} = W_{c, q}^{(l)} {\vec{h}}_{i}^{(l)} + {\vec{b}}_{c, q}^{(l)} \\ {\vec{k}}_{c, j}^{(l)} = W_{c, k}^{(l)} {\vec{h}}_{j}^{(l)} + {\vec{b}}_{c, k}^{(l)} \\ {\vec{e}}_{c, i, j} = W_{c, e} {\vec{e}}_{i, j} + {\vec{b}}_{c, e} \\ α_{c, i, j}^{(l)} = \frac{⟨ {\vec{q}}_{c, i}^{(l)}, {\vec{k}}_{c, j}^{(l)} + {\vec{e}}_{c, i, j} ⟩}{\sum_{u \in N_{i}} ⟨ {\vec{q}}_{c, i}^{(l)}, {\vec{k}}_{c, u}^{(l)} + {\vec{e}}_{c, i, u} ⟩} \end{matrix}$
其中：
- $\left<\mathbf{\vec q},\mathbf{\vec k}\right> = \exp\left(\frac{\mathbf{\vec q}^\top \mathbf{\vec k}}{\sqrt d_h}\right)$ $d_h$ 是每个 head 的隐层大小。
- $\mathcal N_i$ $v_i$ $v_i$ 自己）。
- $c$ $c$ 个 head attention 。
source feature $\mathbf{\vec h}_i^{(l)}$ query $\mathbf{\vec q}_{c,i}^{(l)}\in \mathbb R^{d_h}$ distant feature $\mathbf{\vec h}_j^{(l)}$ key $\mathbf{\vec k}_{c,j}^{(l)}\in \mathbb R^{d_h}$ $\mathbf W_{c,q}^{(l)},\mathbf W_{c,k}^{(l)},\mathbf{\vec b}_{c,q}^{(l)},\mathbf{\vec b}_{c,k}^{(l)}$ edge feature $\mathbf{\vec e}_{i,j}$ $\mathbf{\vec e}_{c,i,j}\in \mathbb R^{d_h}$ key $\mathbf W_{c,e}, \mathbf{\vec b}_{c,e}$ 。
edge feature 跨层共享。在计算注意力系数时，edge feature 作为 key 的附加信息。
graph multi-head attention $v_i$ 的邻域信息：
$\begin{matrix} {\vec{z}}_{c, j}^{(l)} = W_{c, z}^{(l)} {\vec{h}}_{j}^{(l)} + {\vec{b}}_{c, z}^{(l)} \\ {\hat{\vec{h}}}_{i}^{(l)} = ∥_{c = 1}^{C} [\sum_{j \in N_{i}} α_{c, i, j}^{(l)} ({\vec{z}}_{c, j}^{(l)} + {\vec{e}}_{c, i, j})] \\ {\vec{r}}_{i}^{(l)} = W_{r}^{(l)} {\vec{h}}_{i}^{(l)} + {\vec{b}}_{r}^{(l)} \\ {\vec{β}}_{i}^{(l)} = sigmoid (W_{g}^{(l)} [{\hat{\vec{h}}}_{i}^{(l)} | | {\vec{r}}_{i}^{(l)} | | ({\hat{\vec{h}}}_{i}^{(l)} - {\vec{r}}_{i}^{(l)})]) \\ {\vec{h}}_{i}^{(l + 1)} = relu (LayerNorm ((1 - {\vec{β}}_{i}^{(l)}) ⊙ {\hat{\vec{h}}}_{i}^{(l)} + {\vec{β}}_{i}^{(l)} ⊙ {\vec{r}}_{i}^{(l)})) \end{matrix}$
注：这里的公式和上面的架构图不匹配。根据公式中的描述，残差应该连接在 Graph Transformer 层之后。即：残差连接 -> LayerNorm -> ReLU 。
其中：
- $||$ $\odot$ 表示逐元素乘法。
- embedding $\mathbf{\vec h}_j$ $\mathbf{\vec z}_{c,j}\in \mathbb R^{d}$ 用于后续的加权和。
  value $\mathbf{\vec z}_{c,j}^{(l)}$ $\mathbf{\vec e}_{c,i,j}$ 。
和特征传播相比，multi-head attention 矩阵代替了原始的归一化邻接矩阵作为消息传递的转移矩阵（类似于 GAT）。另外，我们提出一个层间的门控残差连接gated residual connection 来防止过度平滑oversmoothing。
$\vec\beta_i^{(l)}$ $l$ ）的不同而不同。
类似于 GAT，如果我们在输出层应用 Graph Transformer，则我们对multi-head output 应用均值池化（并且没有 LayerNorm 和 relu ）：
$\begin{matrix} {\hat{\vec{h}}}_{i}^{(l)} = \frac{1}{C} \sum_{c = 1}^{C} [\sum_{j \in N_{i}} α_{c, i, j}^{(l)} ({\vec{z}}_{c, j}^{(l)} + {\vec{e}}_{c, i, j}^{(l)})] \\ {\vec{h}}_{i}^{(l + 1)} = (1 - {\vec{β}}_{i}^{(l)}) ⊙ {\hat{\vec{h}}}_{i}^{(l)} + {\vec{β}}_{i}^{(l)} ⊙ {\vec{r}}_{i}^{(l)} \end{matrix}$
Label Embedding and Propagationembed $\hat{\mathbf Y}\in \mathbb R^{n\times c}\rightarrow \hat{\mathbf Y}_e\in \mathbb R^{n\times d_f}$ $\hat{\mathbf Y}_e$ 包含标记节点的 label embedding 向量和未标记节点的零向量。
然后，我们通过简单地将节点特征和标签特征相加得到传播特征 propagation feature ：
$H^{(0)} = X + {\hat{Y}}_{e} \in R^{n \times d_{f}}$
$\hat{\mathbf Y}$ $\mathbf X$ 映射到相同的空间并相加，我们的模型可以在共享消息传递框架下统一标签传播和特征传播。
$\hat{\mathbf Y}_e = \hat{\mathbf Y} \mathbf W_e$ $\mathbf A^*$ $\mathbf D^{-1}\mathbf A$ 或者我们的Graph Transformerattention $(\alpha_{i,j})_{n\times n}$ edge feature $\mathbf W_r^{(l)} = \mathbf W_{c,z}^{(l)} = \mathbf W^{(l)}$ 并且没有 bias 向量。那么我们有：
$\begin{matrix} H^{(0)} = X + \hat{Y} W_{e} \\ H^{(l + 1)} = σ (((1 - β) A^{*} + β I) H^{(l)} W^{(l)}) \end{matrix}$
$\beta$ 为一个门控函数或者一个类似于 APPNP 中预定义的超参数。
$\sigma(\cdot)$ 为恒等映射，因此有：
$\begin{matrix} H^{(l)} = {((1 - β) A^{*} + β I)}^{l} (X + \hat{Y} W_{e}) W^{(1)} W^{(2)} \dots W^{(l)} \\ = {((1 - β) A^{*} + β I)}^{l} X W + {((1 - β) A^{*} + β I)}^{l} \hat{Y} W_{e} W \end{matrix}$
$\mathbf W=\mathbf W^{(1)}\mathbf W^{(2)}\cdots \mathbf W^{(l)}$ 。
UniMP $((1-\beta)\mathbf A^*+\beta\mathbf I)^{l}\mathbf X\mathbf W$ $((1-\beta)\mathbf A^*+\beta\mathbf I)^{l}\hat{\mathbf Y}\mathbf W_e\mathbf W$ 。

29.1.2 Masked Label Prediction

已有的GNNground truth target $\Theta$ ：
$\arg max_{Θ} \log p_{Θ} (\hat{Y} ∣ X, A) = \sum_{i = 1}^{\hat{n}} \log p_{θ} ({\hat{y}}_{i} ∣ X, A)$
$\hat n$ $\hat y_i$ 为标签信息。
UniMP $p\left(y\mid \mathbf X,\hat{\mathbf Y},\mathbf A\right)$ 。仅将上述目标用于我们的模型会使得标签在训练阶段泄露，从而导致 inference 性能很差。
我们向BERT 学习，它可以 mask 输入的 word 并预测被 masked 的word 从而预训练BERT 模型。有鉴于此，我们提出了一种 masked label predictioniteration $\hat{\mathbf Y}$ $\tilde{\mathbf Y}$ 。其中被屏蔽的标签的比例由一个超参数 label_rate 所控制（label_rate 表示保留的标签比例）。
masked $\bar{\mathbf Y}$ $\mathbf X,\tilde{\mathbf Y},\mathbf A$ $\bar{\mathbf Y}$ ：
$\arg max_{Θ} \log p_{Θ} (\bar{Y} ∣ X, \tilde{Y}, A) = \sum_{i = 1}^{\bar{n}} \log p_{θ} ({\bar{y}}_{i} ∣ X, \tilde{Y}, A)$
$\bar n$ masked $\bar y$ 为 masked 标签。
每个 batch 内的 target 节点的 label 都是被屏蔽掉的。否则的话，对 target 节点预测标签会发生标签泄漏。
通过这种方式，我们可以训练我们的模型从而不会泄露self-loop 标签信息。
这篇论文就是一篇水文，其思想就是把 node label 作为一个节点特征拼接到原始节点特征上去（当然，目标节点拼接全零信息而不是 node label 从而防止信息泄露），然后在所有输入的特征上执行随机 mask 。
$\hat{\mathbf Y}$ 作为输入标签从而预测剩余的未标记节点。

29.2 实验

数据集：和实际工程应用的图相比，大多数论文常用的图数据集规模很小。GNN 在这些论文数据集上的性能通常不稳定，因为数据集太小、不可忽略的重复率或泄露率、不切实际的数据切分等。
最近发布的 OGB 数据集克服了常用数据集的主要缺点，它规模更大、更有挑战性。OGB 数据集涵盖了各种现实应用，并覆盖了多个重要领域，从社交网络、信息网络到生物网络、分子图、知识图谱。它还覆盖了各种预测任务，包括node-level 预测、graph-level 预测、edge-level 预测。
因此我们在该数据集上进行实验，并将 UniMP 和 SOTA 模型进行比较。如下表所示，我们对三个 OGBN 数据集进行实验，它们是具有不同大小的不同任务。其中包括：
- ogbn-products：关于 47 种产品类别的分类（多分类问题），其中每个产品给出了 100 维的节点特征。
- ogbn-proteins：关于 112 种蛋白质功能的分类（多标签二分类问题），其中每条边并给出了 8 维的边特征。
- ogbn-arxiv：关于 40 种文章主题的分类（多分类问题），其中每篇文章给出了 128 维的节点特征。
实现细节：
- 这些数据集大小或任务各不相同，因此我们使用不同的抽样方法对模型进行评估。
  - 在 ogbn-products 数据集中，我们在训练期间每一层使用 size=10 的 NeighborSampling 来采样子图，并在推断期间使用 full-batch 。
  - 在 ogbn-proteins 数据集中，我们使用随机分区Random Partition将稠密图拆分为子图，从而训练和测试我们的模型。训练数据的分区数为 9、测试数据的分区数为 5 。
  - 在小型的 ogbn-arxiv 数据集中，我们对训练数据和测试数据进行full batch 处理。
- 我们为每个数据集设置了模型的超参数，如下表所示。label rate表示我们在应用 masked label prediction 策略期间保留的标签比例。
- 我们使用 lr=0.001 的Adam 优化器来训练模型。此外，我们在小型 ogbn-arxiv 数据集中将模型的权重衰减设置为 0.0005 来缓解过拟合。
- 所有的模型都通过 PGL 以及 PaddlePaddle 来实现，并且所有实验均在单个 NVIDIA V100 32 GB 上实现。
实验结果：baseline 方法和其它SOTA 方法均由 OGB 排行榜给出。其中一些结果是原始作者根据原始论文官方提供，其它结果由社区重新实现的。并且所有这些结果都保证可以用开源代码复现。
按照 OGB 的要求，我们对每个数据集运行 10 次实验结果，并报告均值和标准差。如下表所示，我们的 UniMP 模型在三个 OGBN 数据集上都超过所有其它模型。由于大多数模型仅考虑基于特征传播来优化模型，因此结果表明：将标签传播纳入 GNN 模型可以带来重大改进。
具体而言：
- UniMP 在 gbn-products 中获得了 82.56% 的测试准确率，相比 SOTA 取得了 1.6% 的绝对提升。
- UniMP 在 gbn-proteins 中获得了 86.42% 的测试 ROC-AUC ，相比 SOTA 取得了 0.6% 的绝对提升。
- UniMP 在 gbn-arxiv 中获得了 73.11% 的测试准确率，相比 SOTA 实现了0.37% 的绝对提升。
作者没有消融研究：
- 不同 label_rate 对于模型性能的变化（当 label_rate = 0 时表示移除标签传播）。
- 除了 Graph Transformer 之外，UniMap 采用其它 base model 的效果是否也很好。

三十、Correct and Smooth [2020]

摘要：GNN是在图上学习的主要技术。然而，人们对 GNN在实践中取得成功的原因、以及它们是否是良好性能所必需的了解相对较少。在这里，论文表明：对于许多标准的 transductive node classification benchmark ，可以结合忽略图结构的浅层模型、以及利用标签结构中相关性的两个简单后处理步骤，从而超过或匹配 SOTA的 GNN的性能。这些后处理步骤利用了标签结构label structure 中的相关性：
- 误差相关性error correlation ：它将训练数据中的残差residual error 扩散，从而纠正测试数据中的误差。
- 预测相关性 prediction correlation：平滑了测试数据上的预测结果。
论文的这个pipeline 称作 “矫正和平滑”Correct and Smooth:C&S。论文的方法在各种transductive 节点分类 benchmark 上都超过或接近了SOTA GNN 的性能，而参数规模小得多，运行速度也快了几个量级，并可以轻松scale 到大型图。例如在 OGB-Products 数据集上，论文的方法相比于著名的 GNN 模型减少了 137 倍参数、提高了 100 倍的训练时间，并且效果还更好。还可以将论文的技术整合到大型 GNN 模型中，从而获得适度的收益。
引言：Graph Neural Network: GNN 目前在图数据领域取得巨大成功，并且经常排在 Open Graph Benchmark 等排行榜的榜首。通常 GNN 的方法论都围绕着创建比基本变体（如 GCN,GraphSAGE）更具有表达力的体系架构，如GAT、GIN 以及其它各种深度模型。然而，随着这些模型变得越来越复杂，理解它们的性能为什么提升是一个重大挑战，而且将它们扩展到大型数据集也很困难。
相反，论文 《Combining label propagation and simple models out-performs graph neural networks》 研究了结合更简单的模型来获得收益。为此，论文提出了一个简单的 pipeline，它包含三个主要部分（如下图所示）：
- base prediction：使用忽略图结构（如 MLP 或线性模型）的节点特征进行基础预测base prediction 。
- correction step：将训练数据中的误差传播到整个图，从而校正基础预测。
- smoothing：最后，对图上的预测进行平滑。
这里第二步和第三步只是后处理post-processing，并且使用经典的标签传播 label propagation: LP 技术进行基于图的半监督学习。在该框架中，图结构不是用来学习参数的，而是作为一种后处理机制。这种简单性导致模型的参数数量减少，训练时间也减少了几个数量级，并且可以很容易地扩展到大型图。还可以将论文的思想与SOTA 的 GNN 结合起来，从而得到适度的性能提升。
论文性能提升的一个主要来源是：直接使用标签进行预测。这个思想并不新鲜，早期的 diffusion-based 的图半监督学习算法（如spectral graph transducer、Gaussian random field model 和 label spreading ）都使用了这个思想。然而，这些方法的动机是对点云数据进行半监督学习，所以特征被用来构建图。然后，这些技术被用于仅从标签（即没有特征）来在关系数据上学习，而这种学习方式在 GNN 中基本上被忽略了。即，作者发现：即使是简单的标签传播（忽略了特征）在一些 benchmark上也有令人惊讶的表现。这启发了作者结合结合两个正交的预测能力：一个预测能力来自节点特征（忽略图形结构），一个预测能力来自在预测中直接使用已知标签。
最近的研究将GNN与标签传播label propagation 以及马尔科夫随机场Markov Random field 联系起来，一些技术在特征中使用标签信息的临时融合 (如 UniMP )。然而，这些方法的训练成本仍然很高，而论文以两种可以理解的低成本方式使用标签传播：论文从一个无视图结构的模型开始进行廉价的 "基础预测"；之后，论文使用标签传播进行纠错，然后对最终预测进行平滑处理。
这些后处理步骤是基于 error 和 label 在相连节点上是正相关的这一事实。假设相连节点之间的相似性是许多网络分析的中心，并对应于同质性 homophily 或同源混合assortative mixing。在半监督学习文献中，类似的假设是平滑性 smoothness 或聚类假设 cluster assumption 。论文在各种数据集上看到的标签传播的良好表现表明：这些相关性在普通 benchmark 上是成立的。
总的来说，论文的方法表明：结合几个简单的思想，可以在模型大小（即参数数量）和训练时间方面，以很小的成本产生出色的transductive 节点分类性能。例如，在 OGB-Product benchmark 上，论文的表现超过了目前最著名的 GNN ，参数数量少了两个数量级，训练时间少了两个数量级。然而，论文的目标并不是说目前的 graph learning 方法很差或不合适。相反，论文的目标是强调提高 graph learning预测性能的更容易的方法，并更好地理解性能提高的来源。论文的主要发现是：将标签更直接地纳入学习算法中是关键。而通过将论文的思想与现有的 GNN 相结合，也可以看到改进，尽管这些改进是微小的。作者希望论文的方法能够激发新的思想，帮助其他的 graph learning 任务，如inductive节点分类、链接预测和图预测。
下图为C&S 方法的概览。左图表示数据集中有两个类别：橙色和蓝色。
- 首先使用 MLP 进行基础预测，从而忽略了图结构。这里假设所有节点都给出了相同的预测。
- 然后从训练数据中传播误差来校正基础预测。
- 最后校正后的预测通过标签传播得以平滑。
相关工作：
- Approximate Personalized Propagation of Neural Predictions:APPNP 框架是和我们工作最相关的，因为它们也是平滑了基础预测。但是，他们专注于将这个平滑处理集成到训练过程中，以便可以端到端地训练他们的模型。这种方式不仅显著增加计算成本，而且还使 APPNP 无法在推断时纳入标签信息。
  和 APPNP 相比，我们的框架可以产生更准确的预测、训练速度更快，并且更容易scale 到大规模图数据。
- 我们的框架还补充了 Simplified Graph Convolution ，以及旨在提高可扩展性的算法。然而，我们的方法的主要重点是直接使用标签，而可扩展性是一个副产品。
- 之前也有将 GCN和标签传播联系起来的工作：
  - 《Unifying graph convolutional neural networks and label propagation》 将标签传播作为预处理步骤从而用于 GNN的edge 加权，而我们将标签传播作为后处理步骤并避免使用 GNN 。
  - 《Residual correlation in graph neural network regression》 将具备标签传播的GNN 用于回归任务，我们的 error correction 步骤将他们的一些思想适配为分类的情况。
- 最后，最近有几种方法将非线性纳入标签传播从而与 GNN 竞争并实现可扩展性，但这些方法专注于 low label rate setting ，并且没有纳入 feature learning 。

30.1 模型

$\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 为边集合。
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $\mathbf X\in \mathbb R^{n\times d_f}$ 。
- $\mathbf A$ $\mathbf D$ degree $\mathbf S=\mathbf D^{-1/2}\mathbf A\mathbf D^{-1/2}$ 为归一化的邻接矩阵。
- $\mathcal V$ $\mathcal V_{L}$ $\mathcal V_U$ ：
  $V = V_{L} \cup V_{U}, ϕ = V_{L} \cap V_{U}$
  - $\mathcal V_L$ $v_i$ $y_i\in \{1,2,\cdots,c\}$ $y_i$ one-hot $\mathbf{\vec y}_i\in \mathbb R^c$ 。
  - $\mathcal V_U$ $v_i$ one-hot $\mathbf{\vec y}_i = \mathbf{\vec 0}$ 。
  one-hot $\mathbf Y\in \mathbb R^{n \times c}$ 。
- $\mathcal V_{L}$ $\mathcal V_{L_t}$ $\mathcal V_{L_v}$ ：
  $V_{L} = V_{L_{t}} \cup V_{L_{v}}, ϕ = V_{L_{t}} \cap V_{L_{v}}$
$\mathcal G,\mathbf X, \mathbf Y$ $\mathcal V_U$ 中节点的标签。
C&S 方法从基于节点特征的、简单的 base predictor 开始，这个 predictor 不依赖于对图的任何学习。然后执行两种类型的标签传播：
- 一种是通过对误差相关性进行建模来校正 base prediction，即误差平滑性。
- 另一种是平滑最终预测，即标签平滑性。
标签传播只是后处理步骤post-processing step ，因此我们的 pipeline 没有端到端的训练。
在 C&S 方法中，图数据仅在这些后处理步骤和预处理步骤 pre-processing step 中使用（比如构建节点特征），和标准的 GNN 模型相比，这使得训练更快且可扩展性更好。
embedding $\mathbf X$ 。
此外， C&S 方法同时使用了标签传播和节点特征，这些互补的信号会产生更出色的预测结果。
标签传播本身往往在没有特征的情况下也表现得很出色。

30.1.1 Base Predictor

base predictor $\mathcal F(\cdot)$ ，使得训练损失最小化：
$min_{Θ} \sum_{v_{i} \in V_{L_{t}}} l (F ({\vec{x}}_{i}; Θ), {\vec{y}}_{i})$
其中：
- $\mathbf{\vec x}_i$ $v_i$ $\mathbf{\vec y}_i$ $v_i$ 标签的 one-hot 向量。
- $l(\cdot,\cdot)$ $\mathcal F(\cdot)$ $\Theta$ 为模型参数。
$\mathcal L_{L_t}$ 上进行。
$\mathcal F(\cdot)$ 为线性模型，或者浅层的 multilayer perceptron: MLP 后接一个softmax 输出层。这种 base predictor 忽略图结构，因此可以避免 GNN 的可扩展问题。不过我们可以使用任何 base predictor，甚至包括 GNN 的 base predictor。
但是，为了使得我们的 pipeline 简单且可扩展，我们仅使用线性模型或者 MLP 作为 base predictor 。

30.1.2 误差校正

base prediction $v_i$ 处的误差和相邻节点的误差相似。
我们在图上传播spread 这种误差相似性。我们的方法在某种程度上受到残差传播的启发。在残差传播中，类似的概念用于节点回归任务。
$\mathbf E\in \mathbb R^{n\times c}$ $v_i$ $\mathbf{\vec z}_i = \mathcal F(\mathbf{\vec x}_i;\Theta)\in \mathbb R^{ c}$ $\mathbf Z\in \mathbb R^{n\times c}$ 。则误差矩阵是训练数据集上的残差：
$\begin{matrix} E_{L_{t}} = Z_{L_{t}} - Y_{L_{t}} \\ E_{L_{v}} = 0, E_{U} = 0 \end{matrix}$
其中：
- $\mathbf E_{L_t}$ $\mathcal V_{L_t}$ $\mathbf E_{L_v}$ $\mathcal V_{L_v}$ $\mathbf E_U$ $\mathcal V_U$ （也就是未标记节点）上的误差矩阵。
- $\mathbf Z_{L_t}$ $\mathcal V_{L_t}$ $\mathbf Y_{L_t}$ $\mathcal V_{L_t}$ 上的标签矩阵。仅当base predictor 做出完美预测时，误差矩阵才为零。
$\mathbf E$ $\hat{\mathbf E}$ （称作平滑误差），这个平滑的误差满足两个条件：
- $\hat{\mathbf E}$ $\mathbf E$ 比较接近。
  $\mathbf E_{L_t}$ 比较接近。
- $\hat{\mathbf E}$ 在图上应该是平滑的。即相连的节点具有相似的平滑误差。
因此我们使用标签扩散技术来平滑误差，优化目标：
$\hat{E} = \arg min_{W \in R^{n \times c}} trace (W^{⊤} (I - S) W) + μ | | W - E | |_{F}^{2}$
其中：
- 第一项鼓励误差估计在图上的平滑性。这等价于：
  $\sum_{j = 1}^{c} {\vec{w}}_{j}^{⊤} (I - S) {\vec{w}}_{j}$
  $\mathbf{\vec w}_j\in \mathbb R$ $\mathbf W$ $j$ $c$ 上的平滑误差。
  $\mathbf W$ $\hat{\mathbf E}$ 。
- $\mathbf E$ 。
- $\mu$ 为超参数，用于平衡两个目标的重要性。
这个目标函数可以通过迭代来求解：
$E^{(t + 1)} = (1 - α) E + α S E^{(t)}$
$\alpha = 1/(1+\mu)$ $\mathbf E^{(0)} = \mathbf E$ 。
$\hat{\mathbf E}$ 。
$\hat{\mathbf E}$ ，我们将其添加到基础预测中，从而得到校正的预测：
$Z^{(r)} = Z + \hat{E}$
我们强调这是一种后处理技术，没有和base predictor 相结合的训练过程。
$\hat{\mathbf E}$ 可能不在正确的范围内。
考虑到：
${‖ E^{(t + 1)} ‖}_{2} \leq (1 - α) {‖ E ‖}_{2} + α {‖ S ‖}_{2} {‖ E^{(t)} ‖}_{2} = (1 - α) {‖ E ‖}_{2} + α {‖ E^{(t)} ‖}_{2}$
$\mathbf E^{(0)} = \mathbf E$ 。则有：
${‖ E^{(t)} ‖}_{2} \leq {‖ E ‖}_{2}$
因此，传播没有足够多的总质量total mass，所以传播无法完全纠正图中所有节点上的误差。并且，实验发现调整残差的比例实际上可以提供帮助。
有鉴于此，我们提出了两种缩放残差的方法：
- autoscale $\hat{\mathbf E}$ $\mathbf E$ 中的误差大小差不多。
  由于我们仅知道训练节点上的真实误差，所以我们用训练节点上的平均误差来计算这个缩放比例。
  $\mathbf{\vec e}_j\in \mathbb R^c$ $v_j$ $\mathbf E$ $j$ 行）。定义：
  $σ = \frac{1}{| V_{L_{t}} |} \sum_{j \in V_{L_{t}}} {‖ {\vec{e}}_{j} ‖}_{1}$
  $\sigma$ $\mathbf E$ 的平均大小。
  $v_i$ 的预测调整为：
  ${\vec{z}}_{i}^{(r)} = {\vec{z}}_{i} + σ \times \frac{{\hat{\vec{e}}}_{i}}{{‖ {\hat{\vec{e}}}_{i} ‖}_{1}}, v_{i} \in V_{U}$
  $\hat{\mathbf{\vec e}}_i\in \mathbb R^c$ $v_i$ $\hat{\mathbf E}$ $i$ 行）。
- FDiff-scale $\mathbf E_L$ 。
  具体而言，我们在未标记节点上迭代平滑误差为：
  $E_{U}^{(t + 1)} = {[D^{- 1} A E^{(t)}]}_{U}$
  $\mathbf E_L^{(t)} = \mathbf E_L$ $\hat{\mathbf E}$ $\mathbf E^{(0)} = \mathbf E$ 。
  $\mathcal V_L$ $\mathcal V_U$ $\mathbf E^{(t)}$ $\mathbf E_L$ 中的值。
  $s$ $\mathbf Z^{(r)} = \mathbf Z + s\hat{\mathbf E}$ 是有效的。

30.1.3 平滑预测

$v_i$ score vector $\mathbf{\vec z}_i^{(r)}$ $\mathbf Z^{(r)}$ $i$ $\hat{\mathbf E}$ base predictor $\mathbf Z$ 进行校正而获得。
为了做出最终预测，我们进一步对校正后的预测进行平滑处理。这样做的动机是：图中相邻的节点可能具有相似的标签，这在网络同质性homophily 或者分类混合assortative mixing 的属性下是可以预期的。
因此，我们通过另一个标签传播来鼓励图上标签分布的平滑性。
- $\mathbf G\in \mathbb R^{n\times c}$ ，它将训练节点的猜测结果设置为真实标签，将验证节点和测试节点的猜测结果设置为校正后的预测：
  $G_{L_{t}} = Y_{L_{t}}, G_{L_{v}, U} = Z_{L_{v}, U}^{(r)}$
  我们也可以在验证节点上使用真实标签，这将在后面的实验中讨论。
- 然后我们使用迭代公式：
  $G^{(t + 1)} = (1 - α) G + α S G^{(t)}$
  $\mathbf G^{(0)} = \mathbf G$ 。
  $\hat{\mathbf Y}$ 。
- $v_i\in \mathcal V_U$ 的分类预测为：
  ${\hat{y}}_{i} = \arg max_{j \in {1, 2, \dots, c}} {\hat{Y}}_{i, j}$
和误差校正一样，这里的预测平滑是一个后处理步骤。这里的预测平滑在本质上类似于 APPNP，我们稍后将其进行比较。但是，APPNP 是端到端训练的，在最后一层 representation 上进行传播而不是 softmax，不使用标签，并且动机不同。

30.1.4 总结

回顾我们的 pipeline：
- $\mathbf Z$ 开始，仅使用节点特征而不使用图结构。
- $\hat{\mathbf E}$ $\mathbf Z^{(r)} = \mathbf Z+\hat{\mathbf E}$ 。
  将训练节点的真实误差传播到所有节点。注意，我们仅关心测试节点的误差，因为测试误差需要用于纠正测试节点的预测标签。而训练节点的标签是已知的，直接使用 ground-truth 。
- 最后，我们通过另外一个标记传播步骤将校正预测与已知标签相结合，从而生成平滑的最终预测。
  标签传播时，训练节点传播的是真实标签，测试节点传播的是预测标签。
我们将这个通用的 pipeline 称作 Correct and Smooth:C&S 。
其核心就是两个平滑：误差平滑、输出平滑。
在显示该 pipeline 在 transductive 节点分类上实现 SOTA 性能之前，我们简要介绍了另一种提高性能的简单方法：特征增强。
深度学习的标志是：我们可以自动学习特征而不是手动的特征工程，但是GNN 仍然依靠输入的特征来执行预测。
pipeline $\mathbf D_{\tau}^{-1/2}(\mathbf A + \frac{\tau}{n}\mathbf I)\mathbf D_{\tau}^{-1/2}$ $k$ 个特征向量eigenvector 作为规范化的谱域嵌入regularized spectral embedding ，从而增强特征。这里：
- $\tau$ 是规范化参数，设置为图的平均 degree 。
- $\mathbf D_\tau$ $i$ $D_{i,i} + \tau$ $D_{i,i}$ $v_i$ 的 degree 。
eigensolver $O(|\mathcal E|)$ 时间内快速计算 embedding 。
在论文的实验部分，作者在进行训练速度的比较时没有考虑计算 spectral embedding 的预处理时间，因此是不公平的比较。此外，计算 spectral embedding 对于大图而言是不可行的。

30.2 实验

数据集：为证明我们方法的效果，我们使用了九个数据集，其中包括：
- Open Graph Benchmark:OGB 中的 Arxiv 数据集和 Products 数据集：标签为论文类别或商品类别，特征从文本内容派生而来。
- 三个经典引文网络 benchmark 数据集 Cora,Citeseer,Pubmed ：标签为论文类别，特征从文本内容派生而来。
- 一个web graph 数据集 wikiCS：：标签为网页类别，特征从文本内容派生而来。
- Rice University 的Facebook 社交网络数据集：类别为宿舍 dorm residence，特征为画像诸如性别、专业、班级等属性。
- US County 数据：类别为 2016 年选举结果，特征为人口统计特征。
- 欧洲研究所的 email 数据集：类别为成员的部门，没有特征。
数据集的统计信息如下所示。另外我们还给出了我们方法相比较于 SOTA GNN：参数数量降低的比例、准确率的提升（绝对值）、以及我们方法的训练时间（秒）。结果表明：通过避免使用昂贵的 GNN，我们的方法需要较少的参数、更快的训练速度，并且通常得到更准确的结果。
数据集拆分：
- 在 Arxiv 数据集和 Products 数据集中，训练集、验证集、测试集的拆分由benchmark 本身来提供。
- 对于 wikiCS 数据集的拆分，我们和 《A wikipedia-based benchmark for graph neural networks》 的拆分一致。
- 对于 Rice, US County, Email 数据集，我们随机拆分为 40%/10%/50%。
- 对于更小的引文网络数据集，我们使用 60%/20%/20% 的随机拆分。
我们并没有采用很低的 label rate，这是为了改善数据集对于超参数的敏感性。
在我们的所有实验中，不同拆分的预估准确率标准差在 1% 以内，并且通常不会改变我们的定性比较。
base predictor 和 baseline：
- base predictor：
  - 我们使用线性模型Linear和 MLP 模型作为简单的 base predictor，其中输入特征是原始节点特征和 spectral embedding。
  - 我们还使用了仅使用原始特征的普通线性模型Plain Linear 作为base predictor 进行比较。
- 变种：我们对比了仅使用 base predictor 的方法、使用 autoscale 和 FDiff-scale 的方法。
- baseline：
  - 我们对标签传播 Label Propagation 模型进行比较。
  - 我们选择 GCN, SGC, APPNP 作为对比的 GNN 模型。对于 GCN 模型，我们将输入到每一层、以及从每一层到输出层都添加了额外的残差链接 residual connection，从而产生了更好的效果。GCN 的层数、隐层维度和 MLP 相同。
    注意：这里的 GCN 一种 GCN 风格的模型，而不是原始的、Kipf&Welling 提出的模型。
- 最后，我们还包含了几个 state-of-the-art 的 baseline：
  - 对于 Arxiv 和 Product 数据集，我们使用 UniMP 模型。该模型在 2020-10-01 位于 OGB 排行榜的榜首。
  - 对于 Cora,Citeseer,Pubmed 数据集，我们复用《 Simple and deep graph convolutional networks》 论文给出的最好的结果。
  - 对于 Email 和 US County 数据集，我们使用 GCNII 模型。
  - 对于 Rice31，我们使用带spectral embedding 的 GCN、以及带 node2vec embedding 的 GCN 。这是我们发现的、效果最好的 GNN-based 模型。
  - 对于 WikiCS，我们使用 APPNP 。
对于所有模型，我们通过验证集来选择一组固定的超参数。

30.2.1 仅训练标签

在平滑预测阶段，我们仅在训练节点上使用真实标签，即：
$G_{L_{t}} = Y_{L_{t}}, G_{L_{v}, U} = Z_{L_{v}, U}^{(r)}$
下表给出了实验结果，其中 Base Prediction 表示仅使用基础预测而没有任何后处理；Autoscale 和 FDiff-scale 表示使用不同的平滑预测缩放方式。
我们重点介绍一些重要发现：
- 首先，在我们模型中C&S 后处理带来可观的收益。例如在 Product 数据集上，应用了后处理之后 MLP base prediction 的测试准确率从 63% 提升到 84%。
- 其次，在很多case 中：
  - 具有 C&S 的 Plain Linear 模型也足以战胜常规的 GCN 模型。
  - 标签传播LP（一种没有可训练参数的方法）通常与 GCN 具有相当的竞争力。
  鉴于 GCN 的主要动机是解决连接的节点可能没有相似的标签的事实，这一点令人惊讶。我们的结果表明：通过简单地使用特征从而将相关性融合到图中，这通常是一个更好的主意。
- 第三，我们模型的变体在 Product,Cora,Email,Rice31, US County 上的表现优于 SOTA。在其它数据集上，我们表现最好的模型和 SOTA 之间没有太大差异。
为了了解直接使用 ground truth 标签有多大帮助，我们还尝试了没有标签的 C&S 版本，其中不执行C&S步骤，而是使用《Learning with local and global consistency》 中的方法来平滑 base predictor 的输出，我们称这个版本为 Basic Model。即：
- 标签信息仅用于base predictor 的训练。
- 图结构信息仅用于 base predictor 预测结果的平滑。
这里面缺少了误差的平滑，仅保留预测结果的平滑。
结果如下表所示。我们看到：
- Linear 和 MLP 的 base predictor 通常可以超过 GCN 的性能。这些结果再次表明输出平滑非常重要，而 GCN 的原始动机具有误导性。相反，我们假设 GCN 可以通过平滑图上的输出来获得性能提升。这与 《Simplifying graph convolutional networks》 的观察类似。
- 另外，我们也看到下图中这个 Basic Model 和上图中使用 C&S 的方法之间仍然存在性能差异。
Plain Linear 缺少了节点的 spectral embedding 特征。
下表给出了仅使用误差校正，但是未使用平滑预测的实验结果。
实验结果表明：误差校正、平滑预测这两个标签传播步骤对于最终效果提升都是至关重要的。

30.2.2 更多标签

可以使用验证标签是我们方法的优势，这甚至可以进一步提升我们框架的性能。
在平滑预测阶段，我们在训练节点和验证节点上使用真实标签，即：
$G_{L} = Y_{L}, G_{U} = Z_{U}^{(r)}$
注意：我们不使用验证标签来训练 base predictor 模型，而是用于选择 base predictor 的超参数。
通过引入验证集标签，更多的节点被指定了 ground-truth，因此网络中传播的信息量更大。
下表给出了实验结果（另外，数据集统计信息表给出了相对于 SOTA 的收益）。应用了验证标签之后，我们的最佳模型在 9 个数据集中的 7 个中超越了 SOTA，并且具有可观的收益。
可以看到：
- 融合验证标签的能力是我们方法的优势。而 GNN 并没有这种优势，因为它们通常依靠早停来防止过拟合，可能并不总是从更多数据中受益（比如，在标签分布偏移 shift 的情况下），并且不直接使用标签。
- 对于很多数据集上的 transductive 节点分类，要获得良好的性能，实际上并不需要大型的而且昂贵的GNN 模型。
- 将经典的标签传播思想和简单的 base predictor 相结合，在这些任务上的性能超越了 GNN 模型。

30.2.3 改善 GNN

和 GNN 以及其它 SOTA 解决方案相比，我们的 C&S 框架通常需要更少的参数。例如我们在下图绘制了 Product 数据中，不同模型的参数和性能的关系。
我们的方法不仅使用更少的参数，但真正的收益在于训练时间更快。和具有可比准确率的模型相比，我们的模型的训练时间要快几个量级。因为我们的 base prediction 不需要使用图结构。例如：
- 在 Arxiv 数据集上，我们的 MLP+C&S 模型和 GCN + label 的模型具有相似的参数数量。但是我们的模型训练中，每个 epoch 的训练速度要快 7倍，并且收敛速度更快。
- 在 Products 数据集上，和 SOTA 相比，我们的 linear base predictor +C&S 模型具有更高的准确率，训练速度提高了 100倍、参数数量减少了 137 倍。
- 我们还在更大的数据集 papers 100M 上评估了我们的方法。这里我们以 Linear + C&S 模型，可以达到 65.33% 的准确率，比 SOTA 的 63.29% 更高。
这种比较是不公平的比较，因此 C&S 方法需要节点的 spectral embedding 作为输入，这通常是非常昂贵的且通常无法扩展到大型图。一种解决办法是用 DeepWalk 来得到 node emebdding，但是这种预处理也非常耗时。
如果没有 spectral embedding （即，Plain Linear），则 C&S 的效果出现巨大的下降。而且这种依赖于人工特征工程（虽然是通过 graph embedding 自动计算得到）的方式不太鼓励，因为强烈依赖于经验。
一般而言，我们的 pipeline 还可以用于改善 GNN 的性能。我们将误差校正、平滑预测应用到了更复杂的 base predictor 上，诸如 GCNII 和 GAT。
实验结果如下表所示。这提升了我们在某些数据集上的结果，包括在 Arxiv 上击败了 SOTA。但是，有时性能提升只是很小的，这表明大型模型可能正在捕获与我们简单的 C&S 框架相同的信号。

30.2.4 可视化

为了帮助理解 C&S 框架的性能，我们在 US County 数据集上的预测可视化。
- (a)：US County 可视化，其中 embedding 由 GraphViz 提供，颜色对应于类别标签。总体而言是经纬度坐标的压缩旋转版本。
- (b)：和 (a) 部分对应的pannel，显示 C&S 在哪个阶段做出了正确的预测。
- (c)：显示了相同 pannel 上 GNN 做出的预测。
如预期的那样，残差相关性倾向于校正节点，其中临县为这些节点提供了相关信息。例如：
- 我们看到 base prediction 中的很多误差已被残差相关性校正（图 3b 的左图和右图）。在这些情况下，对应于德克萨斯州和夏威夷州的部分地区，县的人口统计特征和全国其它地区相比是异常的，这误导了 Linear 模型和 GCN 模型。而来自相邻县的残差相关性能够校正预测。
- 我们还看到最终的预测相关性使得预测变得平滑，如图 3b 的中间部分所示，这使得可以基于邻居的正确分类来校正误差。

三十一、LGCN[2018]

CNN 在很多领域已经获得巨大成功，如图像领域、NLP 领域。这些领域背后的一个共同点是数据可以由网格结构表示，这使得可以在输入的每个位置上应用卷积算子。但是在很多实际应用中数据是图结构，如社交网络、引文网络、生物网络。网格结构是图结构的特殊情况，因此将图像领域的深度学习模型（尤其是 CNN）推广到图结构数据很有吸引力。
但是，在图结构数据上应用常规卷积算子面临两个主要挑战。这些挑战来自于这样一个事实：常规卷积算子要求每个节点的邻域节点数量不变，并且这些邻域节点是有序的。论文 《Large-Scale Learnable Graph Convolutional Networks》 为解决这些挑战提出了优雅的解决方案。
两个挑战：图数据中，不同节点的邻域节点数量不同，并且邻域节点没有排序信息。
最近的一些研究试图将卷积算子推广到通用图结构：
- GCN 提出使用类似卷积的运算来聚合每个节点的所有邻域节点的特征，然后进行线性变换来生成给定节点的新的 representation 。可以将其视为类似于卷积的运算，但是它在两个方面和常规的卷积算子有本质的不同：
  - 首先，它不使用相同的局部滤波器来扫描每个节点。即，邻域数量不同的节点具有不同尺寸size 和权重的滤波器。
  - receptive field $\frac {1}{|\mathcal N_i|}$ $\mathcal N_i$ $v_i$ 的邻域。因此滤波器的权重是不可训练的。
    相比之下，CNN 滤波器的权重是可训练的。
- GAT 采用注意力机制，通过衡量邻域节点的特征向量和中心节点的特征向量之间的相关性，从而获得邻域节点的不同、且可训练的权重。
  但是，graph attention 操作仍然不同于常规卷积，后者直接学习局部滤波器的权重。此外，注意力机制需要根据成对的特征向量进行额外的计算，从而在实践中导致过多的内存和计算资源需求。
和这些方法不同，论文《Large-Scale Learnable Graph Convolutional Networks》 为在通用图结构数据上应用 CNN 做出了两个主要贡献：
- 首先，论文提出可学习的图卷积层learnable graph convolutional layer: LGCL ，以便能够在图上使用常规的卷积运算。
  注意：之前的研究修改了原始卷积运算来适配图数据。相比之下， LGCL 修改了图数据来适配卷积运算。LGCL 为每个特征维度根据取值的排名自动选择固定数量的邻域节点，以便将graph 数据转换为 1-D 格式的网格结构，从而可以在通用的 graph 上应用卷积运算。
  实验结果表明，基于 LGCL 的模型在 transductive learning 和 inductive learning 的节点分类任务上均表现出更好的性能。
- 其次，论文观察到现有方法的另一个局限性，即：现有的训练过程将整个图的邻接矩阵作为输入。当图包含大量节点时，这需要过多的内存和计算资源。
  为克服这一局限性，论文提出了一种子图训练方法sub-graph training method 。该方法是一种简单而有效的方法，可以对大规模图数据进行训练。子图训练方法可以显著减少所需的内存和计算资源，而在模型性能方面的损失可以忽略不计。

31.1 模型

31.1.1 背景和相关工作

$\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 为边集合。
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $\mathbf X\in \mathbb R^{n\times d_f}$ 。
- $\mathbf A$ $\mathbf D$ degree $\hat{\mathbf A}=\mathbf A +\mathbf I$ $\hat{\mathbf D}$ 为对应的 degree 矩阵。
GCN 模型中，每一层的操作可以表示为：
$H^{(l + 1)} = σ ({\hat{D}}^{- 1 / 2} \hat{A} {\hat{D}}^{- 1 / 2} H^{(l)} W^{(l)})$
其中：
- $\mathbf H^{(l)}\in \mathbb R^{n\times d_l}$ $l$ embedding $\mathbf H^{(0)}=\mathbf X$ 。
- $\mathbf W^{(l)}\in \mathbb R^{d_l\times d_{l+1}}$ $l$ 层可训练的权重矩阵。
- $\sigma(\cdot)$ 为非线性激活函数，如 ReLU 函数。
可以看到该操作类似于卷积运算：每个节点的感受野由其本身和邻域节点组成，然后在感受野上应用一个局部滤波器。但是这种运算和 CNN 中的常规卷积运算有两点区别：
- 通常图数据中不同节点具有不同数量的邻域节点，这使得不同节点的感受野大小有所不同，从而导致不同的局部滤波器。这是和常规卷积运算的主要区别，在常规卷积运算中，网格数据的每个输入位置都使用相同的滤波器。
- $\hat{\mathbf D}^{-1/2}\hat{\mathbf A}\hat{\mathbf D}^{-1/2}$ 中没有可训练的参数。即，每个邻域节点在加权和中的权重是相同的，即简单的取平均。这和常规卷积运算也有所区别，在常规卷积运算中，每个位置的权重是可训练的参数。
因此，GCN 中这种不可训练的聚合操作限制了 CNN 在通用图数据上的能力。
两点区别：GCN 中每个节点采用不同的滤波器（滤波器不会跨节点共享，且滤波器的尺寸不固定），且滤波器是不可训练的。
GAT 试图通过注意力机制来聚合邻域特征向量，从而使得学习聚合权重成为可能。
像 GCN 一样，GAT 中每个节点仍然具有局部滤波器，其感受野包含节点本身及其邻域。当执行特征向量的加权和时，每个邻居节点都通过衡量它与中心节点之间的相关性来接收不同的权重。
$l$ $v_i$ $v_j$ ，其相关性计算为：
$\begin{matrix} e_{i, j}^{(l)} = a^{(l)} (W^{(l)} {\vec{h}}_{i}^{(l)}, W^{(l)} {\vec{h}}_{j}^{(l)}) \in R \\ α_{i, j}^{(l)} = {softmax}_{j} (e_{i, j}^{(l)}) = \frac{\exp (e_{i, j}^{(l)})}{\sum_{k \in N_{i}} \exp (e_{i, k}^{(l)})} \end{matrix}$
其中：
- $a^{(l)}(\cdot,\cdot)$ 为一个单层前馈神经网络，可以选择为：
  $a^{(l)} (W^{(l)} {\vec{h}}_{i}^{(l)}, W^{(l)} {\vec{h}}_{j}^{(l)}) = {\vec{a}}^{(l)} \cdot [W^{(l)} {\vec{h}}_{i}^{(l)}, W^{(l)} {\vec{h}}_{j}^{(l)}]$
  $\mathbf{\vec a}^{(l)}$ $l$ 层的 attention 向量。
- $\mathbf W^{(l)}$ $l$ 层的权重矩阵，它在所有节点上共享。
- $\alpha_{i,j}^{(l)}$ $v_j$ $v_i$ 的 attention 权重。
- $\mathcal N_i$ $v_i$ $\mathcal N_i$ $v_i$ 本身。
尽管通过这种方式 GAT 向不同的邻域节点提供了不同、且可训练的权重，但学习权重的过程和常规 CNN 的学习过程不同。在常规 CNN 中，直接学习局部滤波器的权重。
另外，注意力机制需要在中心节点和所有邻域节点之间进行额外的计算，这在实践中会引起内存和计算资源的问题。
和现有的这些修改常规卷积运算使得其适合通用的图数据不同，我们提出将图转换为类似网格的数据来直接应用 CNN。这个想法以前在 《Learning convolutional neural networks for graphs》 中有所探讨，但是该论文中的变换是在预处理过程中实现的。而我们的方法在模型中包含转换。
此外，我们的工作还提出了一种子图训练方法，这是一种允许大规模图的训练的简单而有效的方法。

31.1.2 LGCL

这里我们介绍通用图数据的可学习图卷积层learnable graph convolutional layer:LGCL 。
LGCL 的传播规则为：
$\begin{matrix} {\tilde{H}}^{(l)} = g (H^{(l)}, A, k) \in R^{n \times (k + 1) \times d_{l}} \\ H^{(l + 1)} = c ({\tilde{H}}^{(l)}) \in R^{n \times d_{l + 1}} \end{matrix}$
其中：
- $\mathbf A$ $\mathbf H^{(l)}\in \mathbb R^{n\times d_l}$ $l$ embedding $\mathbf H^{(0)}=\mathbf X$ 。
- $g(\cdot)$ 为选择 k-largest 节点并将通用图结构转换为网格数据的操作。
- $c(\cdot)$ 为常规的 1-D CNN 来聚合邻域信息并为每个节点输出新的 representation 向量。
$g(\cdot)$ $c(\cdot)$ 。
k-largest node selection $g(\cdot)$ k-largest node selection $k$ 为 LGCL 的超参数。
$(k+1)$ 个位置的一维网格。然后我们将转换后的数据馈入1D-CNN 来更新representation 向量。
$\mathbf H^{(l)}\in \mathbb R^{n\times d_l}$ $i$ $\mathbf{\vec h}_i^{(l)}\in \mathbb R^{d_l}$ $v_i$ $l$ representation $d_l$ $l$ 层representation 的维度。
$\mathbf A\in \mathbb R^{n\times n}$ $k$ $v_i$ $\mathcal N_i=\{v_{i_1},\cdots,v_{i_m}\}$ $m$ $v_i$ 邻域节点数量。我们将这些邻域节点的 representation 向量拼接为矩阵：
$\begin{matrix} M_{i}^{(l)} = [\begin{matrix} {({\vec{h}}_{i_{1}}^{(l)})}^{⊤} \\ ⋮ \\ {({\vec{h}}_{i_{m}}^{(l)})}^{⊤} \end{matrix}] \in R^{m \times d_{l}} \end{matrix}$
$m\ge k$ $m\lt k$ $\mathbf M^{(l)}_i$ 填充全为零的行。
k-largest $\mathbf M_i^{(l)}$ $m$ $k$ $\mathbb R^{k\times d_{l}}$ $\mathbf M_i^{(l)}$ 中的列代表特征，因此该操作等效于为每个特征选择 k-largest 个节点。
$k$ 个值，而且还进行了排序。固定数量的邻域、且邻域节点有序，这运行 CNN 卷积的要求。
这里的核心的两个操作是：如何 selectsort $k/d_l$ 个该维度取值最大的节点，然后依次拼接起来。
$\mathbf{\vec h}_i^{(l)}$ $\tilde{\mathbf M}^{(l)}_i\in \mathbb R^{(k+1)\times d_l}$ $k=4$ 的 k-largest node selection6 $(k+1)$ 个特征向量。
$g(\cdot)$ $\mathbf H^{(l)}$ $\tilde{\mathbf H}^{(l)}\in \mathbb R^{n\times (k+1)\times d_l}$ $\tilde{\mathbf H}^{(l)}$ 1D $n$ batch size $k+1$ $d_l$ k-largest node selection $g(\cdot)$ 成功地实现了从通用图数据到网格数据的转换。
k-largest node selection 操作利用了实数之间的自然排名信息，并强制每个节点具有固定数量的有序邻居。
1D-CNN $c(\cdot)$ $\tilde{\mathbf H}^{(l)}$ 可以视为一个 1D1-D CNN $c(\cdot)$ 。
LGCL 的基本功能是聚合邻域信息并更新每个节点的 representation1-D CNN $c(\cdot)$ $\tilde{\mathbf H}^{(l)}\in \mathbb R^{n\times (k+1)\times d_l}$ $\mathbf H^{(l+1)}\in \mathbb R^{n\times d_{l+1}}$ $c(\cdot)$ $(k+1)$ 缩减为 1 。
- $n$ batch size $c(\cdot)$ 的设计无关。因此我们只关注于单个数据样本，即图中的一个节点。
- $v_i$ k-largest node selection $\tilde{\mathbf M}^{(l)}_i\in \mathbb R^{(k+1)\times d_l}$ $c(\cdot)$ 的输入。
  1 $c(\cdot)$ $(k+1)$ $d_l$ $d_{l+1}$ 。
  CNN $1\times d_{l+1}$ 。
- $n$ $c(\cdot)$ $\mathbf H^{(l+1)}\in \mathbb R^{n\times d_{l+1}}$ 。
总之，我们的 LGCL 使用 k-largest node selection 方法将通用的图数据转换为网格数据，并应用标准的1-D CNN 进行特征聚合从而为每个节点更新 representation。
下图为 LGCL 的一个例子。考虑具有6个邻域节点的中心节点（橙色表示），每个节点具有3LGCL $k=4$ 个节点来生成网格数据，并应用 1-D CNN 来更新中心节点的 representation 。
- 左侧描述了从邻域中为每个特征选择 k-largest 节点的过程。
- 右侧给出了通过 1-D CNN 作用于生成的网格数据并得到中心节点的 representation 。输出为 5 维特征（输出通道数为 5 ）。
这里1-D CNN 的输入通道数和输出通道数都不相同，并且 1-D CNN 可以为任何 CNN 模型。
这里采用了两层的 1-D 卷积：第一层输入通道数为 3、输出通道数为 4；第二层输入通道数为 4、输出通道数为 5 。

31.1.3 LGCN

众所周知更深的网络通常会产生更好的性能，但是之前 GCN 之类的图模型通常只有两层，因为它们层数加深时会受到性能损失。但是在我们的 LGCL 中可以采用更深的层，从而为图节点分类提供可学习的图卷积网络 learnable graph convolutional networks: LGCNs 。
我们基于 densely connected convolutional networks:DCNNs 体系架构来构建 LGCN，因为 DCNNs 在 ImageNet 分类挑战中获得了 state-of-the-art 性能。
- 在 LGCN 中，我们首先应用一个 graph embedding layer 来生成节点的低维representation。因为某些图数据集中，原始输入通常是很高维度的特征向量。
  第一层中的 graph embedding layer 实际上是一个线性变换，即：
  $H^{(1)} = X W^{(0)}$
  其中：
  - $\mathbf X\in \mathbb R^{n\times d_f}$ 为输入特征矩阵。
  - $\mathbf W^{(0)}\in \mathbb R^{d_f\times d_1}$ $d_f$ $d_1$ $d_1\lt d_f$ 。
  也可以使用一个 GCN layer 作为 graph embedding layer。
- 在 graph embedding layer 之后，根据图数据的复杂性，我们堆叠了多个 LGCL 。由于每个 LGCL 仅聚合来自于一阶邻域的信息，因此多个 LGCL 可以收集到更大感受野中的信息。
  为了提高模型性能并简化训练过程，我们应用了 skip-connection 来连接 LGCL 的输入和输出。
- 最后，我们在softmax 输出层之前采用一个全连接层。
LGCNs $k$ 以及 LGCL 堆叠层数是最重要的超参数。
- degree $k$ 的良好参考。
- LGCL 层的数量取决于任务的复杂性，如类别数量、图中节点数量等。通常更复杂的任务需要更深度的模型。
LGCN 的一个例子如下图所示。在这个例子中，输入的节点具有两维特征。
- 首先，我们使用 graph embedding layer 将输入特征向量转换为低维 representation 。
- 然后，我们使用两个 LGCL 层，每个 LGCL 层和 skip-connection 堆叠在一起。
  注意：LGCL 层和 skip-connection 输出是拼接起来，而不是相加。
- 最后，使用一个全连接层和 softmax 输出层用于节点分类。这里有三个不同的类别。

31.1.4 子图训练

通常而言，在训练期间，图模型的输入是所有节点的特征向量及整个图的邻接矩阵。这些模型可以在小规模图上正常工作。但是对于大规模图，这些方法通常会导致过多的内存和计算资源需求，从而限制了这些模型的实际应用。
对于其它类型的数据（如网格数据）的深度神经网络，也会遇到类似的问题。如，在处理大尺寸图像时，模型通常使用随机裁剪的 patch 。受到该策略的启发，我们打算随机 “裁剪” graph 从而获得较小的graph来进行训练。
但是，图像的矩形 patch 自然地保持了像素之间的相邻信息，而如何处理图中的节点之间的不规则连接仍然具有挑战性。这里我们提出了一种子图选择算法来解决大规模图数据上的内存和计算资源问题。
具体而言，给定一个图：
- 我们首先对一些初始节点进行采样。
- 从这些节点开始，我们使用广度优先搜索BFS 算法将相邻节点迭代地扩展到子图中。
- 通过多次迭代，我们得到了初始节点和它们的高阶邻域节点。
Sub-Graph Selection Algorithm：
- 输入：
  - $\mathbf A$
  - $n$
  - $n_s$
  - $n_{\text{init}}$
  - $n_m$ （即，每轮广度搜索时，最多添加多少个节点进来）
- $\mathcal S$
- 算法步骤：
  - $\mathcal S$ $\mathcal S = \phi$ 。
  - $n$ $n_{\text{init}}$ $\mathcal V_{\text{init}}$ 。
  - $\mathcal S = \mathcal S\cup \mathcal V_{\text{init}}$ 。
  - $\mathcal V_{\text{newadd}} = \mathcal V_{\text{init}}$ 。
  - $|\mathcal S|\lt n_s$ $|\mathcal V_{\text{newadd}} |\ne 0$ ，则迭代。迭代步骤为：
    - $\mathcal V_\text{candidate} = \text{BFS}(\mathcal V_{\text{newadd}},\mathbf A)$ $\mathcal V_{\text{newadd}}$ 中所有节点的一阶邻居。
    - $\mathcal V_{\text{newadd}}= \mathcal V_\text{candidate} - \mathcal S$ $\mathcal V_\text{newadd}$ 的规模：
      - $|\mathcal V_{\text{newadd}}|\gt n_m$ $\mathcal V_{\text{newadd}}$ $n_m$ $\mathcal V_{\text{newadd}}$ 。否则不用随机采样。
      - $|\mathcal V_{\text{newadd}}|+|\mathcal S|\gt n_s$ $\mathcal V_{\text{newadd}}$ $n_s - |\mathcal S|$ $\mathcal V_{\text{newadd}}$ 。否则不用随机采样。
    - $\mathcal S = \mathcal S\cup \mathcal V_{\text{newadd}}$ 。
$n_m$ $n_m$ 值。
$n_{\text{init}} = 3$ $n_s=15$ 个节点的子图。
- 在第一次迭代中，我们使用 BFS3 $|\mathcal V_\text{newadd}|=5$ 个节点（蓝色）。
- $|\mathcal V_\text{newadd}|=7$ 个节点（绿色）。
经过两次迭代，我们选择了 3+5+7=15 个节点并获得了所需的子图。这些节点以及相应的邻接矩阵将在训练迭代期间作为 LGCN 的输入。
有了这样的随机 “裁剪” 子图，我们就能够在大规模图上训练深度模型。
此外，我们可以利用 mini-batch 训练策略来加速学习过程。在每次训练迭代中，我们可以使用提出的子图选择算法来采样若干个子图，然后将这些子图放到 mini-batch 中。相应的特征向量和邻接矩阵构成了网络的输入。
子图采样也可以作为 GNN 的通用策略从而帮助 GNN 的 mini-batch 训练。

31.1.5 未来方向

我们的方法主要解决节点分类问题，实践中有些任务需要对图进行分类，即图分类问题。
但是目前的图卷积方法（包括我们的方法）无法对图进行降采样（类似于图像数据的池化操作），我们需要一个layer 来有效地减少节点数，这是图分类所必须的。
另外，我们的方法主要应用于通用图数据，如引文网络。对于其它数据，如文本，我们的方法也可能会有所帮助，因为我们可以将文本数据视为图。

31.2 实验

我们评估在 transductive learning 和 inductive learning 环境下 LGCN 在大规模图的节点分类任务上的表现。
另外，除了和 state-of-the-art 模型进行比较之外，我们还进行了一些性能研究，从而研究如何选择超参数。
最终实验结果表明，LGCN 可以提高性能，并且子图训练比全图训练更有效。
数据集：
- transduction Learning：在 transductive learning 环境下，未标记的测试节点可以在训练期间访问到，包括测试节点的特征和连接。这意味着训练期间知道包含测试节点的图结构。
  我们使用三个标准的 benchmark 数据集：Cora, Citeseer, Pubmed。这三个数据集是引文网络数据集，节点代表文档、边代表引用关系。每个节点的特征向量是文档的bag-of-word 表示。对于这三个数据集，我们采用和 GCN 中相同的实验设置：对于每个类别，我们选择 20 个节点进行训练、500 个节点进行验证、1000 个节点用于测试。
- inductive Learning：在 inductive learning 环境下，未标记的测试节点可以在训练期间不可用。这意味着训练期间不知道测试图的结构。
  在 inductive learning 环境下，我们通常具有不同的训练图、验证图、测试图。在训练期间模型仅使用训练图、而无法访问验证图和测试图。
  我们使用 protein-protein interaction: PPI 数据集，其中包含 20 个训练图、2 个验证图、2 个测试图。由于验证图和测试图是独立的，因此训练过程中不会使用它们。平均每个图包含 2372 个节点，每个节点包含 50 个特征。每个节点都有来自 121 个类别的多个标签。
下表给出这些数据集的统计量。degree 属性是每个数据集的平均节点 degreeLGCL $k$ 。
实验配置：
- transduction Learning：
  - 由于 transductive learning 数据集使用高维的bag-of-word 作为特征向量，因此输入经过 graph embedding layer 来减小维度。
    这里我们使用 GCN layer 来作为 graph embedding layer，embedding 的输出维度为 32。
  - 然后我们使用 LGCLLGCL $k=8$ 并产生维度为 8 的特征向量。对于 Cora/Citesser/Pubmed，我们分别堆叠了 2/1/1 个 LGCL。
    另外，我们在 skip-connection 中使用拼接操作。
  - 最后，将全连接层用作分类器以进行预测。在全连接层之前，我们执行一个简单的sum 操作来聚合邻域节点的特征向量。
  - 在每一层的输入特征向量和邻接矩阵上都应用 dropout，dropout 比例分别为 0.16 和 0.999 。
  - 所有 LGCN 模型都使用子图训练策略，子图大小设置为 2000 。
- inductive Learning：除了某些超参数之外，使用和 transductive learning 相同的配置。
  - 对于 graph embedding layer，输出特征向量维度为 128。
  - LGCL $k=64$ 。
  - 我们还使用子图训练策略，子图初始节点大小等于 500 和 200 。
  - 在每一层应用dropout，dropout 比例为 0.9 。
- 对于 transductive learning 和 inductive learning ，LGCN 模型共享以下配置：
  - 对于所有层仅使用线性激活函数，这意味着网络中不涉及非线性。
  - $\lambda=0.0005$ 的 L2 正则化。
  - 训练期间，使用学习率为 0.1 的 Adam 优化器。
  - LGCN 中的权重使用 Glorot 方法初始化。
  - 我们根据验证集准确率来执行早停策略，最多训练 1000 个 epoch 。
实验结果：
- Transduction Learning 实验结果：我们报告了不同模型在节点分类任务上的准确率。根据结果，LGCN 模型在 Cora, Citeseer, Pubmed 数据集上的性能比 state-of-the-art 的 GCN1.8%, 2.7%, 0.5% $\text{LGCN}_{\text{sub}}$ 表示使用子图训练策略的 LGCN 模型。
- Inductive Learning 实验结果：我们报告了不同模型的 micro-averaged F1 得分。根据结果，LGCN 模型的性能比 GraphSAGE-LSTM提高了 16%。这表明在训练期间看不到测试图的情况下，LGCN 模型仍然取得很好的泛化能力。
上述实验结果表明：
- 在通用的图数据上提出的 LGCN 模型在不同节点分类数据集上一致性地达到 state-of-the-art 性能。
- 这些结果证明了在变换后的图数据上应用常规卷积运算的有效性。
- 另外，通过 k-largest node selection 实现的转换方法被证明是有效的。
LGCL vs GCL Layer：有人认为LGCN 性能的提高仅仅是因为 LGCN 模型采用的网络体系结构比 GCN 更深。但是，已有论文提出：通过堆叠更多的层来加深 GCN 会导致性能更差。
因此，这里我们进行另一项实验：将 LGCN 模型中所有 LGCLGCN Layer $\text{LGCN}_{\text{sub}}\text{-GCN}$ 模型。所有其它设置保持相同以确保比较的公平性。
$\text{LGCN}_{\text{sub}}$ $\text{LGCN}_{\text{sub}}\text{-GCN}$ $\text{LGCN}_{\text{sub}}$ $\text{LGCN}_{\text{sub}}\text{-GCN}$ 。这表明 LGCL 比 GCN Layer 更为有效。
子图训练vs 全图训练：上述实验中我们使用子图训练策略来训练 LGCN 模型，旨在节省内存和训练时间。但是，由于子图选择算法从整个图中抽取一些节点作为子图，这意味着以这种方式训练的模型在训练过程中不了解整个图的结构。同时，在 transductive learning 环境下，测试节点的信息可能会被忽略，从而增加了性能下降的风险。
为解决这个问题，我们在 transductive learning 环境下进行实验，从而比较子图训练策略subgraph training strategy 和全图训练策略whole-graph training strategy 。通过实验，我们证明了子图训练策略的优势，同时在模型性能方面的损失可以忽略不计。
对于子图选择过程，在 transductive learning 环境下我们仅从带有训练标签的节点中采样初始节点，以确保训练可以进行。具体而言，对于 Cora/Citeseer/Pubmed140/120/60 $n_m$ 来限制扩展到子图中的节点数，而是设置子图的最大节点数为 2000。对于我们的 GPU 而言这是可行的大小。
为进行比较，我们使用相同的 LGCNGCN $\text{LGCN}_{\text{sub}}$ $\text{LGCN}_{\text{whole}}$ 。
下表给出了这两种模型和 GCN 的比较结果：报告的节点数表示一次迭代训练使用了多少个节点；报告的时间是使用单个 TITAN Xp GPU 运行 100 个 epoch 的训练时间；报告的准确率是测试准确率。
可以看到：
- Cora/Citeseer/Pubmed 数据集的子图训练中，子图的实际节点数量分别为 644/442/354，远小于最大的子图大小 2000 。这表明这三个数据集中的节点是稀疏连接的。具体而言，从带有训练标记的几个初始节点开始，通过扩展相邻节点以形成连接的子图，只会选择一小部分节点。
  尽管通常将这些数据集视为一个大图，但是整个图实际上只是由彼此独立的几个单独的子图组成。子图训练策略利用了这一事实，并有效利用了带训练标签的节点。
  由于只有初始节点具有训练标签，并且所有这些初始节点的连接性信息都包含在所选子图中，因此子图训练中的信息丢失量降到最低，从而导致性能损失几乎可以忽略不计。
  $\text{LGCN}_{\text{sub}}$ $\text{LGCN}_{\text{whole}}$ $\text{LGCN}_{\text{whole}}$ $\text{LGCN}_{\text{sub}}$ 仅在 Cora 数据集上有 0.5% 的微小性能损失，而在 Citeseer 和 Pubmed 数据集上却具有相同的性能。
- $\text{LGCN}_{\text{sub}}$ 模型采用较少节点的子图作为输入，这有望大大提高训练效率。
  从结果可以看到，这种训练效率的提升是显著的。尽管 GCN 的计算更简单，它在 Pubmed 之类的大规模图数据集上的运行时间比 LGCN 模型要长的多。
  通常在大规模图数据上应用强大的深度学习模型，这使得子图训练策略在实践中很有用。子图训练策略可以使用更复杂的层，如LGCL，而无需担心训练时间。结果，带有子图训练策略的大型 LGCN 不仅效果好而且效率高。
$k$ LGCN $k$ degree $k$ 值如何影响 LGCN 模型的性能。
Cora,Citeseer,Pubmed $k$ $k$ 的值选取自 [2,4,8,16,32]，这覆盖了合理范围内的整数值。
$k$ 值下 LGCN 模型的性能变化。可以看到：
- LGCN $k=8$ 时达到最好性能。在 Cora, Citeseer, Pubmed 数据集中，平均节点 degree4/5/6 $k$ 通常比数据集中的平均节点 degree 稍大一点。
- $k$ LGCN $k$ 比图中的平均节点 degree 大得多，那么在 k-largest node selection 过程中使用了太多的零填充，这会不利于接下来的 1-D CNN 模型的性能。
- 对于 PPIinductive learning $k$ $k=64$ 给出，而平均节点 degree 为 31。这和我们上面讨论的结果一致。

三十二、DGCNN[2018]

摘要：直接读取graph 并对 graph 进行分类，有两个挑战：
- 如何编码graph 中丰富的信息从而用于分类。为此论文 《An End-to-End Deep Learning Architecture for Graph Classification》 设计了一个局部图卷积模型localized graph convolution model ，并展示了它与两个 graph kernel 的联系。
- 如何以一个有意义meaningful 且一致的consistent 顺序来读取一个graph 。为此论文 《An End-to-End Deep Learning Architecture for Graph Classification》 设计了一个新颖的 SortPooling 层，该层以一致的顺序对图的节点进行排序，以便可以在图上训练传统的神经网络。
在 benchmark 图分类数据集上的实验表明，所提出的架构与最先进的 graph kernel 和其他图神经网络方法相比，取得了极具竞争力的性能。此外，该架构允许使用原始图进行端到端的梯度训练，而不需要首先将图转化为向量。整个架构称之为 Deep Graph Convolutional Neural Network:DGCNN 。
引言：过去几年中，神经网络在图像分类、自然语言处理、强化学习、以及时间序列分析等应用领域日益盛行。层与层之间的连接结构使神经网络适合处理张量形式的信号，其中张量元素以有意义的顺序排列。这种固定的输入顺序是神经网络提取高层次特征的基石。例如，如果我们随机混洗下图所示图像的像素，那么SOTA 的卷积神经网络就无法将其识别为一只鹰。
虽然图像和许多其他类型的数据都是有自然的顺序，但还有另一大类结构化数据，即graph ，它们通常缺乏具有固定顺序的张量表示 tensor representation 。graph 的例子包括分子结构、知识图谱、生物网络、社会网络、以及有依赖关系的文本文档。有序张量表示的缺乏，限制了神经网络在图上的适用性。
最近，人们对将神经网络推广到图上的兴趣越来越大：
- 《Spectral networks and locally connected networks on graphs》 将卷积网络推广到谱域中的 graph ，其中滤波器应用于图的频率模式frequency mode。这个频率模式由图傅里叶变换计算得到。
- 图傅里叶变换涉及到与图拉普拉斯矩阵的特征向量的昂贵乘法。为了减少计算负担，《Convolutional neural networks on graphs with fast localized spectral filtering》将谱域滤波器参数化为特征值的 Chebyshev 多项式，并实现了高效的和局部化的滤波器。
上述谱域公式的一个局限性是：它们依赖于图拉普拉斯矩阵的固定频谱，因此只适合于具有固定单一结构的图。相反，空域公式不限于固定的图结构。为了提取局部特征，有几项工作独立提出在相邻节点之间传播特征。
- 《Convolutional networks on graphs for learning molecular fingerprints》 提出了可微分的神经图指纹Neural Graph Fingerprint ，它在1-hop 邻居之间传播特征，以模拟传统的圆形指纹 circular fingerprint 。
- 《Diffusion-convolutional neural networks》 提出了 Diffusion-CNN，它使用不同的权重将不同hop 的邻居传播到中心节点。
- 后来，《Semi-supervised classification with graph convolutional networks》 开发了针对 《Convolutional neural networks on graphs with fast localized spectral filtering》 提出的谱域卷积的一阶近似，这也导致了相邻节点之间的传播。
- 《Learning convolutional neural networks for graphs》 提出了另一种空域图卷积的方式，从节点的邻域中提取固定大小的 local patch ，并用 graph labeling 方法和 graph canonization 工具对这些 patch 进行线性化处理。由此产生的算法被称为 PATCHY-SAN 。
由于空域方法不需要单一的图结构，它们可以被应用于节点分类和图分类任务。虽然取得了 SOTA 的节点分类结果，但以前的大多数工作在图分类任务上的表现相对较差。其中一个原因是，在提取局部节点特征后，这些特征被直接 sum 从而用于图分类的图 graph-level 特征。在论文 《An End-to-End Deep Learning Architecture for Graph Classification》 中，作者提出了一个新的架构，可以保留更多的节点信息并从全局图的拓扑结构中进行学习。一个关键的创新是一个新的 SortPooling 层，它从空域图卷积中获取图的无序节点特征作为输入。SortPooling 不是将这些节点特征相加，而是将它们按照一致的顺序排列，并输出一个固定大小的 sorted graph representation ，这样传统的卷积神经网络就可以按照一致的顺序读取节点并在这个 representation上进行训练。作为图卷积层和传统神经网络层之间的桥梁，SortPooling 层可以通过它来反向传播损失的梯度，将 graph representation 和 graph learning 融合为一个端到端的架构。
论文贡献如下：
- 论文提出了一个新颖的端到端深度学习架构，用于图分类。它直接接受图作为输入，不需要任何预处理。
- 论文提出了一个新颖的空域图卷积层来提取多尺度multi-scale 的节点特征，并与流行的 graph kernel 进行类比，从而解释为什么它能发挥作用。
- 论文开发了一个新颖的 SortPooling 层来对节点特征进行排序，而不是将它们相加，这样可以保留更多的信息，并允许我们从全局范围内学习。
相关工作：
- Graph Kernel：Graph Kernel 通过计算一些半正定的 graph similarity 度量，使 SVM 等 kernel machine 在图分类中变得可行，在许多图数据集上取得了 SOTA 的分类结果。
  - 一个开创性的工作是在 《Convolution kernels on discrete structures》中引入了 convolution kernel ，它将图分解成小的子结构substructure ，并通过增加这些子结构之间的成对相似度来计算核函数 kernel function 。常见的子结构类型包括 walk、subgraph 、path 、以及 subtree 。
  - 《Graph invariant kernels》 以一种通用的方式重新表述了许多著名的基于子结构的核，称为图不变核 graph invariant kernel 。
  - 《Deep graph kernels》 提出了 deep graph kernel ，它学习子结构的潜在representation 从而利用其依赖信息。
  convolution kernel 根据两个图的所有子结构对进行比较。另一方面，assignment kernel 倾向于找到两个图的子结构之间的对应关系。
  - 《An aligned subtree kernel for weighted graphs》 提出了包含显式子树对应关系的 aligned subtree kernel 。
  - 《On valid optimal assignment kernels and applications to graph classification》 为一种类型的 hierarchy-induced kernel 提出了最佳分配。
  大多数现有的 graph kernel 侧重于对比小的局部模式。最近的研究表明，对比图的全局模式可以提高性能。《Discriminative embeddings of latent variable models for structured data》 使用 latent variable model 表示每个图，然后以类似于 graphical model inference 的方式显式地将它们嵌入到特征空间。结果在准确性和效率方面与标准 graph kernel 相比都很好。
  DGCNN 与一类基于 structure propagation 的 graph kernel 密切相关，具体而言是 Weisfeiler-Lehman(WL) subtree kernel 和 propagation kernel (PK) 。为了编码图的结构信息，WL 和 PK 基于中心节点的邻居的特征迭代更新中心节点的特征。WL 对 hard 节点标签进行操作，而 PK 对 soft 标签分布进行操作。由于这种操作可以有效地实现为随机行走，这些 graph kernel 在大型图上是有效的。与WL和PKDGCNN $\mathbf W$ ，这些参数是通过端到端优化训练的。这允许从标签信息中进行有监督的特征学习，使得它不同于 graph kernel 的两阶段框架。
- 用于图的神经网络：
  - 将神经网络推广到图的研究有两条线：给定一个单一的图结构，推断单个节点的标签或者单个图的标签；给定一组具有不同结构和大小的图，预测未见过的图的类标签（图分类问题）。
    在本文中，我们专注于第二个问题，这个问题更加困难，因为：图的结构不是固定的，每个图内的节点数量也不是固定的。此外，在第一个问题中来自不同图的节点具有固定的索引或对应的索引，但是在第二个问题中节点排序往往是不可用的。
  - 我们的工作与一项使用CNN 进行图分类的开创性工作有关，称为 PATCHY-SAN。为了模仿 CNN 在图像上的行为，PATCHY-SAN 首先从节点的邻域中提取固定大小的局部 patch 作为卷积滤波器的感受野。然后，为了在这些 patch 上应用 CNN ，PATCHY-SAN 使用外部软件（如图规范化工具NAUTY）在预处理步骤中为整个图定义一个全局节点顺序，以及为每个 patch 定义一个局部顺序。之后，graph 被转换为有序的 tensor representation ，并在这些张量上训练 CNN 。
    虽然取得了与 graph kernel 有竞争力的结果，但这种方法的缺点包括繁重的数据预处理、以及对外部软件的依赖。我们的DGCNN 继承了其为图节点施加顺序的思想，但将这一步骤集成到网络结构中，即 SortPooling 层。
  - 在如何提取节点特征方面，DGCNN 也与 GNN、Diffusion-CNN 、以及 Neural Graph Fingerprint 相关。然而，为了进行graph-level 分类，GNN 监督单个节点（是一个虚拟的超级节点，它节点与所有其它真实节点相连），而 Diffusion-CNN 和 Neural Graph Fingerprint 使用 sum 的节点特征。相比之下，DGCNN 以某种顺序对节点进行排序，并将传统的CNN 应用于有序的 representation 上，这样可以保留更多的信息，并能从全局图拓扑结构中学习。

32.1 模型

$\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 为边集合。
- $\mathbf A\in \mathbb R^{n\times n}$ $\mathbf A$ 是对称的 0/1 矩阵。并且图中没有自环self-loop 。
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $\mathbf X\in \mathbb R^{n\times d_f}$ 。
- $\mathcal N_i$ $v_i$ 的邻居节点集合。
DGCNN 包含三个连续的阶段：
- 图卷积层 graph convolution layer 抽取节点的局部子结构特征，并定义一致的节点顺序。
- SortPooling 层按照前面定义的顺序对节点特征进行排序，并统一输入尺寸 size 。
- 传统的卷积层和dense 层读取排序的graph representation 并进行预测。
DGCNN 整体架构如下图所示：图数据首先通过多个图卷积层，其中节点信息在邻域之间传播；然后对节点特征排序并通过 SortPooling 层池化；然后传递给传统的 CNN 结构以学习模型。节点特征以颜色来可视化。

32.1.1 图卷积层

我们的图卷积层的形式为：
$Z = f ({\tilde{D}}^{- 1} \tilde{A} X W)$
其中：
- $\tilde{\mathbf A}=\mathbf A + \mathbf I$ self-loop $\tilde{\mathbf D}$ $\tilde D_{i,i} = \sum_j \tilde A_{i,j}$ 。
- $\mathbf W\in \mathbb R^{d_f\times d}$ $d$ 为输出的特征维度。
- $f(\cdot)$ 为非线性激活函数。
multi-scale $l$ 层卷积层为：
$Z^{(l + 1)} = f ({\tilde{D}}^{- 1} \tilde{A} Z^{(l)} W^{(l)})$
其中：
- $\mathbf Z^{(0)} = \mathbf X$ representation $\mathbf Z^{(l)}\in \mathbb R^{n\times d_l}$ $l$ representation $d_l$ $l$ 层的特征维度。
- $\mathbf W^{(l)}\in \mathbb R^{d_l\times d_{l+1}}$ $l$ 层的、可训练的权重矩阵。
$L$ $L$ 个输出进行水平拼接，记作：
$Z^{(1 : L)} = [Z^{(1)}, \dots, [Z^{(L)}] \in R^{n \times \sum_{l = 1}^{L} d_{l}}$
$\mathbf Z^{(1:L)}$ 每一行被称作节点的一个特征描述符 feature descriptor ，它编码了节点的多尺度局部子结构信息multi-scale local substructure information 。
我们的图卷积层和 GCN 层很相似，区别在于它们使用不同的传播矩阵。
GCN layer $\tilde{\mathbf D}^{-1/2}\tilde{\mathbf A} \tilde{\mathbf D}^{-1/2}$ $\tilde{\mathbf D}^{-1}\tilde{\mathbf A}$ 。论文的表述有误。
可以证明，我们的图卷积层有效地模仿了两个流行的 graph kernel （Weisfeiler-Lehman subtree kernel、propagation kernel）的行为，这有助于解释其graph-level 分类行为。
- WL-test 对节点邻域进行反复迭代，最终根据两个图之间的节点label 是否完全相同，从而判断两个图是否同构的。注：这里的 label 更多地是节点的离散特征，而不是节点的监督信息。
  WL-test 迭代过程如下：聚合节点及其邻域的 label ；将聚合后的label 经过哈希函数得到不同的、新的label ，即 relabel 。
  《Weisfeiler-lehman graph kernels》 根据 WL-test 提出了 WL subtree kernel 来衡量两个图的相似性。核函数利用 WL tet 的不同迭代中使用的节点labelWL test $k$ label $k$ 的子树结构。因此 WL subtree kernel 考虑的图特征本质上是不同根子树的计数。
  $\tilde{\mathbf X} = \mathbf X\mathbf W$ ，则我们的图卷积层改写为：
  ${\vec{z}}_{i} = f (\frac{1}{{\tilde{D}}_{i, i}} ({\tilde{\vec{x}}}_{i} + \sum_{j \in N_{i}} {\tilde{\vec{x}}}_{j}))$
  $\tilde{\mathbf{\vec x}}_i$ $v_i$ 的连续颜色continuous color 。因此我们的图卷积公式可以视为 WL-test 算法的一个 soft 版本。
  soft 版本有两个好处：
  - $\mathbf W$ $\mathbf X$ 进行分层特征抽取，并可以通过反向传播进行训练。这比 WL subtree kernel 具有更好的表达能力。
  - 其次，使用稀疏矩阵乘法更容易实现 soft WL-test，避免了读取和排序可能非常长的 WL signature 字符串。
- propagation kernel:PK 比较了两个图的label 分布，它基于扩散更新的方案diffusion update scheme：
  $L^{(l + 1)} = T L^{(l)}$
  其中：
  - $\mathbf T= \mathbf D^{-1} \mathbf A$ 为图上的随机游走转移概率矩阵。
  - $\mathbf L^{(l)}\in \mathbb R^{n\times c}$ $n$ $l$ $c$ 维的label distribution 向量。其初始值就是每个节点label 的 one-hot 。
  最终将所有迭代过程中的label distribution 向量通过 locality-sensitive hashing:LSH 映射到离散的分桶，从而计算 label distribution 向量之间的相似性。
  PK 具有和 WL kernel 类似的 graph 分类性能，甚至具有更高的效率。而我们的图卷积公式和PK 非常相似。
WL kernel 在 hard vertex label 上进行，而 PK 在 soft label distribution 上进行。这些操作都可以有效地实现为随机游走，因此这些核函数在大规模图上非常有效。和 WL kernel 和 PK 相比，DGCNN 在传播之间具有其它参数，这些参数是通过端到端优化进行训练的。这允许从标签信息中进行有监督的特征学习，使其不同于 graph kernel 的两阶段框架。
WL kernel 的基本思想是将节点的颜色和其1-hop 邻域的颜色拼接起来作为节点的 WL-signature，然后按照字典顺序对 signature 字符串进行排序从而分配新的颜色。具有相同signature 的节点将分配相同的新颜色。
$\mathbf Z^{(l)}$ 为连续的 WL color 。

32.1.2 SortPooling 层

SortPooling 层的主要功能是将特征描述符输入传统的1-D 卷积层和 dense 层之前，以一致的顺序对特征描述符进行排序，其中每个特征描述符对应于一个节点。
问题是：以什么样的顺序对节点进行排序？在图像分类中，像素天然地以某种空间顺序排序。在NLP 任务中，可以使用字典顺序对单词进行排序。在图中，我们可以根据节点在图中的结构角色structural role 对节点进行排序。
一些工作使用 graph labeling 方法（如 WL kernel）来在预处理阶段对节点进行排序，因为最终的 WL color 定义了基于图拓扑的排序。WL 施加的这种节点顺序在各个图之间是一致的，这意味着如果两个不同图中的节点在各自图中具有相似的结构角色，那么它们会被分配以相似的相对位置。结果，神经网络可以按顺序读取图节点并学习有意义的模型。
在DGCNN 中，我们也使用 WL colorWL color $\left\{\mathbf Z^{(l)}\right\}_{l=1,\cdots,L}$ ，可以利用它们进行排序。遵循这个思路，我们提出了一种新的 SortPooling 层。对于 SortPooling 层：
- $n\times \sum_{l=1}^L d_l$ $\mathbf Z^{(1:L)}$ ，其中每一行代表一个节点的特征描述符，每一列代表一个特征通道feature channel 。
- $k\times \sum_{l=1}^Ld_l$ $k$ 为用于预定义的一个整数。
SortPooling $\mathbf Z^{(L)}$ $\mathbf Z^{(1:L)}$ 进行排序。我们可以认为最后一层的输出是节点的最细粒度的WL color ，并根据这个 final color 对所有节点进行排序。
graph representation $L$ $\mathbf Z^{(L)}$ 能够将节点尽可能地细粒度地划分为不同颜色。
$\mathbf Z^{(L)}$ $\mathbf Z^{(L)}$ 的最后一个通道以降序来对节点进行排序的（即 node representation 的最后一维）。
- $\mathbf Z^{(L)}$ 的最后一个通道中具有相同的值，那么比较倒数第二个通道的值，依此类推。
- $\mathbf Z^{(L)}$ $\mathbf Z^{(L-1)},\mathbf Z^{(L-2)},\cdots$ 等通道上的取值，依此类推。
除了一致性的顺序对节点特征进行排序外，SortPooling 还有一个能力是统一输出张量的尺寸 size 。
$n$ $k$ graph size $k$ ：
- $n\gt k$ $n-k$ 行。
- $n\lt k$ $k-n$ 行全零。
这和 LGCN的 k-largest 节点选择方法很类似。只是LGCN 独立地选择并排序最大的 k 个特征，而 SortPooling 根据 final color 选择最大的 k 个节点。除此之外，LGCN 和 DGCNN 还有一个最大的区别：
- LGCN 中，卷积层用于根据邻域节点的 k-largest representation 来更新中心节点的 representation，因此最终用于节点分类。
- DGCNN 中，卷积层根据所有节点的 GCN representation 来获得 graph representation，因此最终用于图分类。
作为图卷积层和传统层之间的桥梁，SortPooling 还有另一个好处，就是通过它可以记住输入的排序顺序从而将损失梯度传递给前一层，从而可以训练前一层的参数。
相比之下，一些工作在预处理阶段对节点进行排序，因此无法在排序之前进行参数训练。

32.1.3 其它层

SortPooling $k\times \sum_{l=1}^Ld_l$ $\mathbf Z^{(\text{sp})}$ ，其中每一行代表一个节点、每一列代表一个特征通道。
- $\mathbf Z^{(\text{sp})}$ 之上训练 CNN，我们添加若干个 1-D 卷积层和最大池化层，从而学习节点序列上的局部模式。
- 最后我们添加一个全连接层和一个 softmax 输出层。

32.1.4 讨论

GNN 设计的一个重要标准是：网络应该将同构图isomorphic graph 映射到相同的representation ，并且输出相同的预测。否则邻接矩阵中的任何排列permutation 都可能对同一个图产生不同的预测。
对于基于求和的方法这不是问题，因为求和对于节点排列是不变的。但是对于排序的方法DGCNN, PATCHY-SAN 需要额外注意。
为了确保将同构图预处理为相同的张量，PATCHY-SAN 首先使用 WL kernel 算法，然后使用图规范化工具 NAUTY 。尽管 NAUTY 对于小图足够有效，但是理论上讲，图规范化graph canonization 问题至少在计算上和图同构检验一样困难。
相比之下，我们表明DGCNN 可以避免这种图规范化步骤。DGCNN 使用最后一个图卷积层的输出对节点进行排序，我们表明：这可以视为是 soft WL 输出的连续颜色。因此 DCNN 能够将节点排序视为图卷积的副产品，从而避免像 PATCHY-SAN 这样显式运行运行 WL kernel 算法。并且，由于 SortPooling 中的排序方案，DGCNN 不再需要图规范化。因此 DGCNN 不需要显式运行 WL kernel 或 NAUTY，这使我们摆脱了数据预处理和外部软件的束缚。
DGCNN $\mathbf W$ $\mathbf W$ continuous WL color $\mathbf W$ 的学习率会逐渐降低，从而使得整个节点的排序在整个过程中保持稳定。
DGCNN $\mathcal G_1, \mathcal G_2$ 是同构的，则在 SortPooling 之后它们的图representation 是相同的。
$\mathcal G_1$ $\mathcal G_2$ 是同构的，那么在图卷积之后它们将具有相同的特征描述符的 multiset 。
由于 SortPooling 对于节点排序的方式是：当且仅当两个节点具有完全相同的特征描述符时，两个节点才有联系have a tie，因此排序的representationSortPooling $\mathcal G_1,\mathcal G_2$ 具有相同的representation 。

32.2 实验

32.2.1 Graph Kernel 比较

数据集：五个benchmark 生物信息学数据集，包括MUTAG、PTC、 NCI1、 PROTEINS、D&D 。所有节点都有 label 信息。
baseline 方法：四种graph kernel，包括 graphlet kernel: GK、random walk kernel: RW、propagation kernel: PK、Weisfeiler-Lehman subtree kernel: WL 。
实验配置：使用 LIBSVM 进行10-fold 交叉验证，训练集为 9 fold、测试集为 1 fold，并使用训练集中的 1 fold 进行超参数搜索。
每个实验重复 10次（因此每个数据集训练了 100 次），报告了平均的准确率和标准差。
实验结果如下表所示，可以看到：
- DGCNN 相比 graph kernel 具有很强的竞争力。
- 另外 DGCNN 通过 SGDgraph kernel $O(n^2)$ 的计算复杂度。因此，当应用于工业规模的图数据集时，我们预期 DGCNN 优势更大。

32.2.2 GNN 比较

数据集：六个数据集，其中包括三个生物信息学数据集 NCI1, PROTEINS, D&D 、三个社交网络数据集 COLLAB, IMDB-B, IMDB-M 。这些社交网络数据集中的图没有节点label，因此是纯结构。
baseline ：四种深度学习方法，包括PATCHY-SAN: PSCN, DiffusionCNN: DCNN, ECC, Deep Graphlet Kernel: DGK 。
实验配置：对于 PSCN, ECC, DGK，我们报告原始论文中的最佳结果，因为他们实验配置和我们这里相同。对于 DCNN，我们使用我们的实验配置重新实验。
PSCN, ECC 能够额外地利用边特征，但是由于这里很多数据集没有边特征，以及其它一些方法无法使用边特征，因此这里都没有利用边特征来评估效果。
实验结果如下表所示，可以看到：
- DGCNN 在PROTEINS, D&D, COLLAB, IMDB-M 数据集上表现出最高的分类准确率。
- 和 PATCHY-SAN 相比，DGCNN 的改进可以解释如下：
  - 通过使梯度信息通过 SortPooling 向后传播，DGCNN 甚至可以在排序开始之前就启用参数训练，从而实现更好的表达能力。
  - 通过动态排序节点，DGCNN 不太可能过拟合特定的节点排序。相比之下，PATCHY-SAN 遵从预定义的节点顺序。
- DGCNN 的另一个巨大优势是：它提供了一种统一方法，将预处理集成到神经网络结构中。
- 和使用 sum 节点特征来分类的 DCNN 相比，DGCNN 表现出显著的提升。
- 为了证明SortPooling 优于求和的优势，我们进一步列出了 DGCNN(sum) 的结果，该结果采用 sum layer 替换 DGCNN 的 SortPooling 和后面的 1-D 卷积层。可以看到，大多数情况下性能下降很多。

三十三、AS-GCN

当前图神经网络GNN的一个明显挑战是可扩展性。在 GCN 中计算图卷积需要跨层递归扩张邻域，这在计算上是不现实的，并且需要占用大量内存。即使对于单个节点，当图是稠密的或者满足幂律powerlaw 分布时，由于邻域的逐层扩张，这将迅速覆盖图的很大一部分。传统的 mini-batch 训练无法加快图卷积的计算速度，因为每个batch 都将涉及大量节点，即使 mini-batch 本身很小。
为缓解过度扩张over-expansion 的问题，一些工作通过控制采样邻域的大小来加速GCN 的训练。有几种基于采样的方法用于图上进行快速的 representation learning：
- GraphSAGE 通过对每个节点的邻域进行采样（node-wise 采样），然后执行特定的聚合器以进行信息融合来计算节点的 representation。
- FastGCN 模型将图卷积解释为 embedding 函数的积分变换，并独立采样每一层中的节点（layer-wise 采样）。
- VRGCN 是control-variate-based 方法，这种采样方法也是 node-wise，并且需要节点的历史激活值。
论文 《Adaptive Sampling Towards Fast Graph Representation Learning》 提出了一种新的layer-wise 采样方法：按照自上而下的方式逐层构建网络，其中下层的节点是根据上层的节点有条件采样而来。这种层级采样layer-wise sampling在两个技术方面是有效的：
- 首先，由于较低层中的节点是可见的visible ，并且由于它们在较高层中的不同父节点之间共享，因此我们可以复用采样邻域的信息（即低层节点）。
- 其次，很容易固定fix每一层的大小，从而避免邻域的过度扩张，因为较低层的节点是整体采样的。
和基于节点采样的 GraphSAGE 相比，论文的方法基于层级采样，因为所有邻域都被一起采样，因此可以实现邻域共享；和独立构造每一层的 FastGCN 相比，论文的方法可以捕获跨层连接。因为较低的层根据上层的条件进行采样。
论文方法的核心是为 layer-wise 采样定义合适的采样器。通常，设计采样器的目标是使得结果的方差最小化。不幸的是，由于在论文的网络中自上而下的采样和自下而上的传播的不一致，使得方差最小化的最佳采样器是无法计算的uncomputable 。为解决这个问题，作者通过使用自依赖函数代替不可计算的部分，然后将方差添加到损失函数，从而逼近最佳采样器。结果，通过共同训练模型参数和采样器，方差得到显著降低，这反过来又促进了模型的训练。
此外，论文还探索了如何使得有效的消息跨远程节点distant node 来传递。有些方法通过随机游走以生成各个stepmulti-hop $(l+1)$ $(l-1)$ skip-connection $(l-1)$ $(l+1)$ 层节点的 2-hop 邻域，因此它自然地保持了二阶邻近性，而无需进行额外的计算。
总之本文做出了以下贡献：
- 开发了一种新的 layer-wise 采样方法来加速 GCN 模型，该模型共享层间信息，并可控制采样节点的规模。
- 用于 layer-wise 采样的采样器是自适应的，并通过训练阶段显式降低方差来确定。
- 提出了一种简单而有效的方法，即通过在两层之间指定 skip-connection 来保留二阶邻近性。
最后，论文在节点分类的四个流行benchmark 上评估了新方法的性能，包括 Cora, Citeseer, Pubmed, Reddit。大量实验证明了新方法在分类准确率和收敛速度方面的有效性。
相关工作：
- 如何设计高效的图卷积网络已成为一个热门研究课题。图卷积方法通常被分为谱域卷积和空域卷积两类：
  - 谱域卷积方法首先由 《Spectral networks and locally connected networks on graphs》提出，并在傅里叶域定义卷积操作。
    后来，《Deep convolutional networks on graph-structured data》通过应用高效的频滤波器实现了局部滤波。
    《Convolutional neural networks on graphs with fast localized spectral filtering》采用图拉普拉斯矩阵的 Chebyshev 多项式来避免特征分解 eigen-decomposition 。
    最近，《Semi-supervised classification with graph convolutional networks》提出了GCN，它用一阶近似和重参数化技巧 re-parameterization trick 简化了以前的方法。
  - 空域卷积方法通过直接使用空间连接来定义图的卷积。例如：
    《Convolutional networks on graphs for learning molecular fingerprints》为每个 node degree 学习一个权重矩阵。
    《Diffusion-convolutional neural networks》通过使用转移矩阵transition matrix 的一系列幂次来定义 multiple-hop 邻域。
    《Learning convolutional neural networks for graphs》提取了包含固定数量节点的规范化的邻域。
- 最近的一个研究方向是通过利用 patch 操作和自注意力来泛化卷积。与 GCN 相比，这些方法隐含地为邻域中的节点分配不同的重要性，从而实现了模型容量的飞跃。具体而言：
  - 《Geometric deep learning on graphs and manifolds using mixture model cnns》 提出了 mixture model CNN ，使用 patch 操作在图上建立 CNN 架构。
  - 《Graph attention networks》 通过 attend 中心节点的每个邻居，按照自注意力策略计算中心节点的 hidden representation 。
- 最近有两种基于采样的方法（即，GraphSAGE 和 FastGCN 被开发出来），用于图上的 fast representation learning 。具体而言：
  - GraphSAGE 通过对每个节点的邻域进行采样，然后执行特定的信息融合聚合器来计算节点的representation（node-wise 采样）。
  - FastGCN 模型将图的卷积解释为 embedding 函数的积分变换，并对每一层的节点独立采样（layer-wise 采样）。
  虽然我们的方法与这些方法密切相关，但我们在本文中开发了一个不同的采样策略：
  - 与 GraphSAGE 以节点为单位的方法相比，我们的方法是基于 layer-wise 采样的，因为所有的邻域都是整体采样的，因此可以允许邻域共享。
  - 与独立构建每一层的 FastGCN 相比，我们的模型能够捕捉到层与层之间的联系，因为下层是以上层为条件进行采样的。
  另一项相关工作是 《Fastgcn: Fast learning with graph convolutional networks via importance sampling》的基于控制变量的方法。然而，这种方法的采样过程是 node-wise 的，需要节点的历史激活 historical activation 。

33.1 模型

$\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 为边集合。
- $\mathbf A\in \mathbb R^{n\times n}$ $A_{i,j}$ $(v_i,v_j)$ $\mathbf D$ degree $D_{i,i} = \sum_j A_{i,j}$ 。
- $\hat{\mathbf A} = \mathbf D^{-1/2}\mathbf A\mathbf D^{-1/2}$ 。
- $v_i\in \mathcal V$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $\mathbf X\in \mathbb R^{n\times d_f}$ 。
GCNrepresentation learning $l$ $\{u_j\}$ $l+1$ $\{v_i\}$ $\mathcal V$ ，只是为了表述的方便而进行区分。
GCN 的前向传播公式为：
${\vec{h}}_{i}^{(l + 1)} = σ (\sum_{j = 1}^{n} {\hat{A}}_{i, j} W^{(l)} {\vec{h}}_{j}^{(l)})$
其中：
- $\mathbf{\vec h}_i^{(l+1)}$ $l+1$ $v_i$ representation $\mathbf{\vec h}_j^{(l)}$ $l$ $u_j$ 的representation 。
- $\hat{\mathbf A} \in \mathbb R^{n\times n}$ $\hat A_{i,j}$ $\hat{\mathbf A}$ 的元素。
- $\sigma(\cdot)$ 为非线性激活函数。
- $\mathbf W^{(l)}\in \mathbb R^{d_{l+1}\times d_l}$ $l$ $d_l$ $l$ 层 representation 的维度。
GCN 的前向传播公式表明：GCN 要求邻域的完整扩张full expansion 才能对每个节点进行前向计算。这使得在包含数十万个节点的大规模图上的学习变得计算量大而且消耗内存。
为解决这个问题，本文通过自适应采样adaptive sampling 来加快前向传播。我们提出的采样器是自适应的，并且可以减少方差。
- 我们首先将 GCN 公式重写为期望的形式，并相应地引入 node-wise 采样。然后我们将 node-wise 采样推广为一个更有效的框架，称为 layer-wise 采样。
- 为了使得采样方差最小化，我们进一步提出通过显式执行方差缩减variance reduction 来学习layer-wise 采样器。
最后，我们介绍了skip-connection 的概念，通过应用skip-connection 来实现前向传播的二阶邻近性second-order proximity 。

33.1.1 自适应采样

node-wise 采样：我们首先观察到 GCN 前向传播公式可以重写为期望的形式，即：
${\vec{h}}_{i}^{(l + 1)} = σ (\sum_{j = 1}^{n} {\hat{A}}_{i, j} W^{(l)} {\vec{h}}_{j}^{(l)}) = σ_{W^{(l)}} (d_{i} \times E_{p (u_{j} ∣ v_{i})} [{\vec{h}}_{j}^{(l)}])$
其中：
- $\sigma_{\mathbf W^{(l)}}$ $\mathbf W^{(l)}$ 的非线性函数，这是为了简单起见。
- $d_i$ $v_i$ degree $d_i=\sum_{j=1}^n \hat A_{i,j}$ 。
- $p(u_j\mid v_i) = \hat A_{i,j}/d_i$ $v_i$ $u_j$ 的概率。
- $\mathbb E_{p(u_j\mid v_i)}\left[\mathbf{\vec h}^{(l)}_j\right]=\sum_{j=1}^n p(u_j\mid v_i)\times \mathbf{\vec h}^{(l)}_j$ $\mathbf{\vec h}^{(l)}_j$ 的期望。
Monte-Carlo sampling $\hat{\vec \mu}_{p}(v_i)$ $\vec\mu_{p}(v_i) =\mathbb E_{p(u_j\mid v_i)}\left[\mathbf{\vec h}^{(l)}_j\right]$ ：
${\hat{\vec{μ}}}_{p} (v_{i}) = \frac{1}{\hat{n}} \sum_{u_{j} \in {{\hat{u}}_{1}, \dots, {\hat{u}}_{\hat{n}}}} {\vec{h}}_{j}^{(l)}, {\hat{u}}_{j} \sim p (u_{j} ∣ v_{i})$
$\hat n \ll n$ $\{\hat u_1,\cdots,\hat u_{\hat n}\}$ $p(u_j\mid v_i)$ 。
GCN $O(|\mathcal E| \times d_l\times d_{l-1})$ $O(\hat n^2\times d_l\times d_{l-1})$ 。
然后我们以自顶向下的方式构造网络结构：递归地对当前层中每个节点的邻居进行采样，如下图所示。这里实线表示采样到的节点，虚线表示为未采样到的节点，红色节点表示至少有两个父节点的节点。
虽然node-wisenode-wise $L$ $O(\hat n^L)$ $L$ 较大），则会导致较大的计算负担。
graph $n$ $\hat A_{i,j}=0$ $\sum_{j=1}^n$ $\sum_{j=1}^{d_i}$ $d_i$ $v_i$ 的 degree 。
layer-wise 采样：通过应用重要性采样，我们进一步地将 GCN 前向传播公式重写为以下形式：
${\vec{h}}_{i}^{(l + 1)} = σ_{W^{(l)}} (d_{i} \times E_{p (u_{j} ∣ v_{i})} [{\vec{h}}_{j}^{(l)}]) = σ_{W^{(l)}} (d_{i} \times E_{q (u_{j} ∣ v_{1}, \dots, v_{\hat{n}})} [\frac{p (u_{j} ∣ v_{i})}{q (u_{j} ∣ v_{1}, \dots, v_{\hat{n}})} {\vec{h}}_{j}^{(l)}])$
$q(u_j\mid v_1,\cdots,v_\hat n)$ $(l+1)$ $v_1,\cdots,v_\hat n$ $l$ $u_j$ 的概率。
类似地，我们通过蒙特卡洛Monte-Carlo 方法来估计这个期望值从而加速计算：
${\hat{\vec{μ}}}_{q} (v_{i}) = \frac{1}{\hat{n}} \sum_{u_{j} \in {{\hat{u}}_{1}, \dots, {\hat{u}}_{\hat{n}}}} \frac{p (u_{j} ∣ v_{i})}{q (u_{j} ∣ v_{1}, \dots, v_{\hat{n}})} {\vec{h}}_{j}^{(l)}, {\hat{u}}_{j} \sim q (u_{j} ∣ v_{1}, \dots, v_{\hat{n}})$
我们这种方法称作 layer-wise 采样策略。
layer-wise 采样和 node-wise 采样方法不同：
- node-wise $v_i$ $l+1$ $l$ $\{\hat u_j\}_{j=1}^{\hat n}$ $p(u_j\mid v_i)$ $v_i$ ）。
  并且每个父节点的邻域（子节点集合）对于其它父节点是不可见的。
  另外采样节点数量随着网络深度指数增长。
- layer-wise $\{v_1,\cdots,v_{\hat n}\}$ 共同采样，只需要采样一轮，使用的是同一个采样分布。
  $\{\hat u_j\}_{j=1}^{\hat n}$ 由所有父节点共享。这种共享的特性能够最大程度地强化消息传递。
  $\hat n$ ，使得采样节点数量仅随网络深度线性增长。

33.1.2 显式方差缩减

layer-wise $q(u_j\mid v_1,\cdots,v_{\hat n})$ 的准确形式。确实，一个好的采样器应该减少由于采样过程引起的方差，因为高方差可能会阻碍模型的有效训练。
$q(u_j\mid v_1,\cdots,v_{\hat n})$ $q(u_j)$ 。根据《Monte Carlo theory, methods and examples》 中重要性抽样的推导，我们得出结论：
estimator $\hat{\vec\mu}_q(v_i)$ 的方差为：
${Var}_{q} ({\hat{\vec{μ}}}_{q} (v_{i})) = \frac{1}{\hat{n}} E_{q (u_{j})} [\frac{{(p (u_{j} ∣ v_{i}) ‖ {\vec{h}}_{j}^{(l)} ‖ - ‖ {\vec{μ}}_{q} (v_{i}) ‖ q (u_{j}))}^{2}}{q^{2} (u_{j})}]$
$\text{Var}_q\left(\hat{\vec \mu}_q(v_i)\right)$ 的最优采样器为：
$q^{*} (u_{j}) = \frac{p (u_{j} ∣ v_{i}) ‖ {\vec{h}}_{j}^{(l)} ‖}{\sum_{k = 1}^{n} p (u_{k} ∣ v_{i}) ‖ {\vec{h}}_{k}^{(l)} ‖}$
$q^*(u_j)$ hidden feature $\mathbf{\vec h}^{(l)}_j$ $u_j$ $l-1$ $l$ $l-1$ 层）的采样节点是未知的。
为缓解这个 “鸡和蛋” 的困境，我们学习了每个节点的自依赖函数self-dependent function，从而确定每个节点对于采样的重要性。
$\mathbf{\vec g}_j = g\left(\mathbf{\vec x}_j\right)$ $u_j$ $\mathbf{\vec x}_j$ 计算得到的自依赖函数，我们将其替换掉上式中的 hidden feature，则得到：
$q^{*} (u_{j}) = \frac{p (u_{j} ∣ v_{i}) ‖ {\vec{g}}_{j} ‖}{\sum_{k = 1}^{n} p (u_{k} ∣ v_{i}) ‖ {\vec{g}}_{k} ‖}$
$g(\cdot)$ 为一个线性函数：
$g ({\vec{x}}_{j}) = W_{g} {\vec{x}}_{j}$
$\mathbf W_g\in \mathbb R^{d\times d_f}$ $d_f$ $d$ 为 hidden feature 的维度。
node-wise $v_i$ layer-wise $\{v_i\}_{i=1}^{\hat n}$ 上的计算，因此得到：
$q^{*} (u_{j}) = \frac{\sum_{i = 1}^{\hat{n}} p (u_{j} ∣ v_{i}) ‖ {\vec{g}}_{j} ‖}{\sum_{k = 1}^{n} \sum_{i = 1}^{\hat{n}} p (u_{k} ∣ v_{i}) ‖ {\vec{g}}_{k} ‖}$
$p(u_j\mid v_i)$ $\mathbf{\vec g}_j$ $\mathbf{\vec x}_j$ 来计算，二者计算速度很快。
$p(u_j\mid v_i)$ $v_i$ $u_j$ 的概率，可以在预处理中快速处理，且仅需要处理一次即可。
$q^*(u_j)$ $\mathbf W_g$ 待学习。为了实现方差缩减，我们将方差添加到损失函数中，并通过模型训练显式最小化方差。
假设有一个mini-batchpair $\left\{(v_i,y_i)\right\}_{i=1}^{\hat n}$ $v_i$ $y_i$ 是对应的 ground-truth label。
- layer-wise $\{v_i\}_{i=1}^{\hat n}$ 的情况下对前一层的节点进行采样，然后逐层递归地调用采样过程，直到达到输入层。
- hidden feature $v_i$ $\hat {\vec \mu}_q(v_i)$ 。
- softmax $\hat {\vec \mu}_q(v_i)$ $\hat y_i$ 。
考虑分类损失和采样方差，我们将混合损失定义为：
$L = \frac{1}{\hat{n}} \sum_{i = 1}^{\hat{n}} L_{c} (y_{i}, {\hat{y}}_{i}) + λ {Var}_{q} ({\hat{\vec{μ}}}_{q} (v_{i}))$
其中：
- $\mathcal L_c$ 为分类损失（如交叉熵）。
- $\lambda$ 为trade-off 超参数，在我们的实验中固定为 0.5 。
$v_i$ 最后一层 embedding 向量的各维度方差的和（方差是跨多个采样之间来计算）。另外这里只考虑最后一层 embedding 的方差，并未考虑中间层embedding 的方差。
为了计算最后一项（方差项），需要对每个 batch 执行多次采样，从而对同一个父节点的多个估计激活值计算方差。
在损失函数中我们仅对最后一层的embedding 的方差进行惩罚以进行有效的计算，并发现它足以在我们的实验中提供有效的性能。
为了使得混合损失最小化，我们需要对混合损失进行梯度计算。
- $\mathbf W^{(l)}$ ，梯度计算非常简单，可以通过自动微分工具（如 Tensorflow）轻松得到。
- $\mathbf W_g$ ，由于采样过程是不可微的，因此计算得到的梯度是无意义的。
幸运的是，我们证明了分类损失相对于采样器的梯度为零。我们还推导出有关采样器方差项相对于采样器的梯度。详细内容在原始论文的补充材料给出。

33.1.3 Skip Connection

GCN 的更新方程仅聚合来自 1-hop 邻域的消息。为了使网络更好地利用远处节点上的信息，我们可以用类似于随机游走的方式来采样multi-hop 邻域，从而用于 GCN 更新。然而，随机游走需要额外的采样来获得远处的节点，这对于稠密图而言计算代价太高。
本文中我们提出通过 skip connectionskip connection $(l-1)$ $(l+1)$ $(l-1)$ 2-hop $(l-1)$ $(l+1)$ 层添加一个 skip connection，则聚合将涉及 1-hop 邻域和 2-hop 邻域。
具体而言，skip connection 的更新方程为：
${\vec{h}}_{skip}^{(l + 1)} (v_{i}) = \sum_{j = 1}^{\hat{n}} {\hat{A}}_{skip} (v_{i}, s_{j}) W_{skip}^{(l - 1)} {\vec{h}}^{(l - 1)} (s_{j}), i = 1, \dots, \hat{n}$
其中：
- $\mathcal S=\{s_j\}_{j=1}^{\hat n}$ $(l-1)$ 层的节点。
- $v_i$ $s_j$ $\hat A_\text{skip}(v_i,s_j)$ $\hat {\mathbf A}^2$ $\hat {\mathbf A}^2$ $l$ 层采样的节点来估计这个权重：
  ${\hat{A}}_{skip} (v_{i}, s_{j}) ≃ \sum_{k = 1}^{\hat{n}} \hat{A} (v_{i}, u_{k}) \hat{A} (u_{k}, s_{j})$
  $\hat{\mathbf A} ^2$ 的 skip connection 能提高模型效果，但是这里的近似计算带来的噪音使得最终没有效果提升。
- $\mathbf W_\text{skip}^{(l-1)}$ ，而是将其分解为：
  $W_{skip}^{(l - 1)} = W^{(l)} W^{(l - 1)}$
  $\mathbf W^{(l)}$ $l$ 层的网络参数。
skip connection 的输出可以加到 GCN layer，在非线性层之前。
考虑到 skip connection 的更新方程为：
${\vec{h}}_{i}^{(l + 1)} = σ ({\vec{h}}_{skip}^{(l + 1)} (v_{i}) + \sum_{j = 1}^{\hat{n}} \frac{p (u_{j} ∣ v_{i})}{q^{*} (u_{j})} W^{(l)} {\vec{h}}_{j}^{(l)})$
通过skip connection，无需额外的 2-hop 采样即可保持二阶邻近性。此外，skip connection 允许信息在两个远距离的层之间传递，从而实现了更有效的反向传播和模型训练。
尽管设计相似，但是我们使用 skip-connection 的动机和 ResNet 中的残差函数不同：
- 在ResNet 中，使用 skip connection 的目的是通过增加网络深度来获得更好的准确率。
- 在我们这里，使用skip connection 用于保留二阶邻近性second-order proximity 。
另外和 ResNetskip connection $\mathbf{\vec h}_\text{skip}^{(l+1)}(v_i) = \sum_{j=1}^{\hat n} \hat A_\text{skip}(v_i,s_j) \mathbf W_\text{skip}^{(l-1)}\mathbf{\vec h}^{(l-1)}(s_j)$ 。
如下图所示，使用不同采样方法来构建网络：(a) 表示 node-wise 采样方法；(b) 表示 layer-wise 方法；(c) 表示考虑 skip-connection 的采样方法。
实线表示采样节点，虚线表示未采样节点，红色圆圈表示该节点在上层至少有两个父节点。
- 在 node-wise 采样中，每个父节点的邻域都不会被其它父节点看到，因此父节点邻域和其它父节点之间的连接未被复用。
- 相反，在 layer-wise 采样中，所有邻域被上层所有父节点所共享，因此利用了所有的层间连接。

33.1.4 讨论

和其它采样方法的联系：我们的方法和 GraphSAGE、FastGCN 等方法的区别如下：
- 我们提出的 layer-wise 采样方法是新颖的。
  - GrphSAGE 对每个节点随机采样固定大小的邻域，是 node-wise 采样的。
  - FastGCN 虽然是 layer-wise 采样的，但是采样的分布对于每一层都是相同的。
  - 我们的 layer-wise 方法，较低层的节点是在较高层节点的条件下进行采样的，这能够捕获层之间的相关性。
- 我们的框架是更通用的。GraphSAGE 和 FastGCN 都可以归类为我们框架的特定变体，具体而言：
  - $\hat{\vec\mu}_{p}(v_i) = \frac {1}{\hat n}\sum_{u_j\in \{\hat u_1,\cdots,\hat u_{\hat n}\}}\mathbf{\vec h}^{(l)}_{j},\quad \hat u_j\sim p(u_j\mid v_i)$ $p(u_j\mid v_i)$ 定义为均匀分布，则 GraphSAGE 被视为一个 node-wise 采样器。
  - $\hat{\vec\mu}_q(v_i) = \frac{1}{\hat n}\sum_{u_j\in \{\hat u_1,\cdots,\hat u_{\hat n}\}}\frac{p( u_j\mid v_i)}{q(u_j\mid v_1,\cdots,v_\hat n)}\mathbf{\vec h}^{(l)}_j,\quad \hat u_j\sim q( u_j\mid v_1,\cdots,v_{\hat n})$ $q(u_j\mid v_1,\cdots,v_{\hat n})$ $\{v_i\}_{i=1}^{\hat n}$ ，则FastGCN 可以视为一个特殊的 layer-wise 方法。
- 我们的采样器是参数化的，并且可以训练来显式减少方差。
  - GraphSAGE 和 FastGCN 的采样器不包含任何参数，并且没有自适应来最小化方差。
  - 相反，我们的采样器通过自依赖函数来调整最优重要性采样分布optimal importance sampling distribution 。通过对网络和采样器进行微调，可以显著减少结果的方差。
考虑 attention 机制：GAT 将 self-attention 机制应用于图representation learning 。简而言之，它使用特定的 attention 值来取代 GCN 中的归一化邻接矩阵，即：
${\vec{h}}_{i}^{(l + 1)} = σ (\sum_{j = 1}^{n} a ({\vec{h}}_{i}^{(l)}, {\vec{h}}_{j}^{(l)}) W^{(l)} {\vec{h}}_{j}^{(l)})$
$a\left(\mathbf{\vec h}_i^{(l )},\mathbf{\vec h}_j^{(l )}\right)$ $v_i$ $u_j$ 的 hiden feature 之间的attention value 。它通常计算为：
$a ({\vec{h}}_{i}^{(l)}, {\vec{h}}_{j}^{(l)}) = softmax (LeakyRelu (W_{1} {\vec{h}}_{i}^{(l)}, W_{2} {\vec{h}}_{j}^{(l)}))$
$\mathbf W_1, \mathbf W_2$ 为两个待学习的参数。
GAT $p(u_j\mid v_i)$ attention $a\left(\mathbf{\vec h}_i^{(l )},\mathbf{\vec h}_j^{(l )}\right)$ $a\left(\mathbf{\vec h}_i^{(l )},\mathbf{\vec h}_j^{(l )}\right)$ $l$ 层的 hidden feature 来决定。如前所述，除非在采样后已经建立了网络，否则就不可能计算出较低层的 hidden feature。
为解决这个问题，我们通过应用类似于自依赖函数开发了一种新的注意力机制：
$a ({\vec{x}}_{i}, {\vec{x}}_{j}) = \frac{1}{\hat{n}} \times relu ({\vec{w}}_{1} \cdot {\vec{g}}_{i} + {\vec{w}}_{2} \cdot {\vec{g}}_{j})$
$\mathbf {\vec w}_1, \mathbf {\vec w}_2$ $\mathbf{\vec g}_j = g\left(\mathbf{\vec x}_j\right)$ $u_j$ $\mathbf{\vec x}_j$ 计算得到的自依赖函数。

33.2 实验

数据集：
- 引文网络数据集Cora,Citeseer,Pubmed：目标是对学术论文进行分类。
- Reddit 数据集：目标是预测不同的帖子属于哪个社区 community 。
Cora,Citeseer $O(10^3)$ Pubmed $10^4$ Reddit $10^5$ 个节点。
下表给出了这些数据集的统计量。
实验配置：
- 根据 FastGCN 中的监督学习场景，我们使用训练样本的所有标签进行训练。
- 我们的采样框架是 inductive learning 的。和提供了所有节点的 transductive learning 不同，我们的方法聚合来自每个节点的邻域信息，从而学到可以泛化到未见过节点的结构属性。
- 为了进行测试，可以使用全部邻域来计算新节点的 embedding，也可以像模型训练中那样通过采样进行近似。这里我们使用完整的邻域，因为它更直接、更容易实现。
- 对于所有数据集，我们使用具有两个隐层的网络。对于引文网络数据集，隐层维度为 16 ；对于Reddit 数据集，隐层维度为 256 。
- Reddit $\hat{\mathbf A} \mathbf H^{(0)}$ $\mathbf H^{(0)}=\mathbf X$ 。
- 对于所有数据集，顶层的 layer-wise采样数量为 256，非顶层的 layer-wise 采样数量为：Cora, Citeseer 数据集 128、Pubmed 数据集 256、Reddit 数据集 512 。
- 使用 Adam 优化器，初始学习率为：对于 Cora,Citeseer,Pubmed 设置为 0.001、对于 Reddit 为 0.01。
- 所有数据集的权重衰减设置为 0.0004 。
- 所有数据集采用 ReLU 激活函数，并且没有 dropout。
- 训练期间使用窗口为 30 的早停来训练所有模型，并选择最佳验证准确率的模型用于测试。
- 所有实验是在单个 Tesla P40 GPU 上进行。
baseline 方法：由于 GraphSAGE 和 FastGCN 它们作者提供的代码不一致，这里我们根据我们的框架重新实现它们，从而进行更公平的比较。
- $p(u_j\mid v_i)$ 使用均匀的采样器来应用 node-wise 采样，从而实现 GraphSAGE 方法。其中每个节点的邻域采样大小为 5 。这种重新实现命名为 Node-Wise。
- 《Fast learning with graph convolutional networks via importance sampling》 $q(u_j\mid v_1,\cdots,v_{\hat n})$ ，其中每一层采样的节点数量和我们的方法相同。这种重新实现命名为 IID。
- 我们还将 Full GCN 体系架构作为强大的 baseline 。
所有比较的方法共享相同的网络结构和训练设置，以进行公平的比较。
我们还对所有方法进行了前述介绍的注意力机制。
不同采样方法的比较：这里我们固定随机数种子，并且不进行任何早停实验。下图报告了Cora,Citeseer, Reddit 训练期间所有采样方法的收敛行为。曲线代表测试数据上的准确率曲线accuracy curve。这里一个 training epoch 意味着对所有训练样本进行一次完整的遍历。
$\lambda=0$ 来得到我们模型的变体，称作 Adapt(no vr) 。其中自依赖函数的参数被随机初始化，并且不进行训练。
可以看到：
- 我们的方法（称作 Adapt）在所有三个数据集上的收敛速度都比其它采样方法更快。
- 有趣的是，我们的方法甚至优于 Cora,Reddit 上的 Full 模型。
- 和我们的方法类似，IID 采样也是 layer-wise 的，但是它独立地构造了每一层。和IID 采样相比，由于有条件采样，我们的方法获得了更稳定的收敛曲线。
  事实证明，考虑层间信息有助于提高模型训练的稳定性stability 和准确性accuracy 。
- 移除方差缩减的损失项确实会降低我们的方法在 Cora 和 Reddit 上的准确率。对于 Citeseer 而言，移除方差缩减的损失项的效果不是很明显。我们推测这是因为 Citeseer 的平均 degree （1.4）小于 Cora （2.0）和 Reddit（492），并且由于邻域的多样性有限，因此对方差的惩罚并没有那么重要。
此外我们还给出了Pubmed 和 Reddit 数据集的训练时间，单位：second/epoch 。可以看到：
- 所有方法的训练速度都比完整模型更快。
- 和 node-wise 方法相比，我们的方法具有更紧凑的体系结构，因此具有更快的训练速度。
  $\hat n$ node-wise $25\hat n,5\hat n,\hat n$ 5 $\hat n$ 。即使使用更少的采样节点，我们的模型仍然超越了 node-wise 方法。
和其它 state-of-the-art 方法的比较：我们使用 graph kernel 方法 KLED 和 Diffusion Convolutional Network:DCN 对比了我们方法的性能。
- 我们使用 Cora 和 Pubmed 在《Diffusion-convolutional neural networks》 中报道的 KLED 和 DCN 的结果。
- 我们还通过其原始实现总结了 GraphSAGE 和 FastGCN 的结果。对于 GraphSAGE，我们报告了具有默认参数的均值聚合结果。对于 FastGCN，我们直接使用 《Diffusion-convolutional neural networks》 提供的结果。
对于 baseline 和我们的方法，我们使用随机数种子进行 20多个随机实验，并记录了测试集的平均准确率和标准差。所有结果如下表所示，可以看到：
- 我们的方法在所有数据集中都实现了最佳性能。
- 移除方差缩减将降低我们方法的性能，尤其是在 Cora 和 Reddit 上。
另外，仅对顶层进行方差缩减就能够提升性能。事实上，在我们的方法中对所有层进行方差缩减也是方便的，例如将它们都添加到损失函数中。为说明这一点，我们通过最小化第一层和顶层隐层的方差来对 Cora 进行实验，其中实验配置和下表相同。结果为 0.8780 +- 0.0014，这比下表中的 0.8744 +- 0.0034 要更好。
我们使用公开的代码重新运行了 FastGCN 实验。四个数据集的 FastGCN 的平均准确率为 0.840 +- 0.005、0.774 +- 0.004、0.881 +- 0.002、0.920 +- 0.005 。显然，我们的方法仍然超越了 FastGCN。
这里重新运行的 FastGCN 和上表给出的结果（来自于各自的原始论文）不一致。
我们观察到 GraphSAGE和 FastGCN 的官方实现之间的不一致之处，包括邻接矩阵的构造、隐层维度、mini-batch size、最大训练 epoch 数量、以及其它在论文中未提及的工程技巧。
我们评估在 Cora 数据集上 skip-connection 的有效性。我们进一步在输入层和顶层之间添加了 skip-connection。下图显式了原始 Adapt 方法以及带skip-connection 变体的收敛曲线。其中随机种子是共享的，并且没有使用早停。
可以看到：尽管就最终准确率而言，我们的 skip-connection 带来的提升并不大，但是确实可以显著增加收敛速度。添加 skip-connection 可以将收敛 epoch 数量从 150 降低到 100 。
我们在 20 个实验中使用不同的随机数种子进行实验，并在下表报告了使用早停获得的平均结果。可以看到，使用 skip-connection 可以稍微改善性能。
$\hat{\mathbf A}$ $\hat{\mathbf A} + \hat{\mathbf A}^2$ ，我们显式地将 2-hop 邻域采样包含在我们的方法中（直接计算归一化矩阵的二次幂）。如上表所示，显式 2-hop 邻域采样进一步提高了分类准确率。尽管skip-connection2-hop $\hat{\mathbf A}^2$ 的计算，这对于大型图和稠密度带来了更多的计算优势。
最后，我们评估了 Citeseer,Pubmed 数据集上 skip-connection 的有效性。
- 对于 Citeseer 数据集，skip-connection 有助于更快地收敛。
- 对于 Pubmed 数据集，添加 skip-connection 仅在训练的早期才有效果。

三十四、DGI[2018]

目前将神经网络推广到图结构数据上已经取得了长足的进步，但是大多数成功的方法都是使用监督学习，而现实很多场景中图数据是缺乏标签信息的。此外，通常希望从大型的图中挖掘新颖或有趣的结构。因此，无监督的图学习对于很多任务至关重要。
目前图的无监督学习的主要算法依赖于随机游走的目标random walk-based objective ，有时会进一步简化为重建邻域信息。背后的直觉是：训练编码器网络，使得在输入图中邻近的节点在embedding 空间中也是邻近的。
尽管随机游走的方法的能力强大，但是仍然存在一些已知的限制：
- 首先，众所周知，随机游走目标会过分强调邻近信息aproximity information，从而忽略图的结构信息structural information，并且性能高度依赖于超参数的选择。
- 此外，随着基于图卷积的更强大的编码器模型的引入，还不清楚随机游走目标是否实际上提供了任何有用的信号，因为这些图卷积编码器已经施加了inductive bias，即相邻的节点具有相似的representation。
在论文 《Deep graph infomax》 中，作者提出了一个基于互信息mutual information 而不是随机游走的无监督的图学习的目标。作者提出了 Deep Graph Infomax:DGI ，这是一种以无监督方式学习图结构化数据的节点representation 的通用方法。
DGI 依赖于最大化图的 patch representation （即节点 embedding ）和相应的 high-level summary 之间的互信息mutual information ，二者均使用已构建的图卷积网络体系结构得到。学到的 path representation 总结了目标节点为中心的子图，因此可复用于下游的 node-wise 学习任务。
和大多数以前的使用 GCN 进行无监督学习的方法相比，DGI 不依赖于随机游走目标，并且很容易应用于 transductive learning 和 inductive learning 。该方法在各种节点分类benchmark 上表现出有竞争力的性能，有时甚至超越了监督学习的性能。
最近 Mutual Information Neural Estimation:MINE 使得互信息的可扩展估计scalable estimationMINE $X,Z$ ，则它们之间的互信息定义为：
$I (X; Z) = \sum_{x \in X} \sum_{z \in Z} \log \frac{p (x, z)}{p (x) p (z)} p (x, z) = H (X) - H (X ∣ Z)$
$H(X) = \sum_x p(x)\log \frac{1}{p(x)}$ $X$ $H(X\mid Z)=H(X,Z)-H(Z)$ $Z$ $X$ 的熵。
$I(X;Z) = D_{KL}(p(x,z)||p(x)p(z))$ $D_{KL}$ 为 KL 散度。MINE 利用了 KL 散度的对偶表示，并依赖于训练一个统计网络作为样本的分类器，而样本来自于两个随机变量的联合分布（类别一）及其边际概率的乘积（类别二）。
继MINE 之后，Deep InfoMax: DIM 训练编码器模型，从而最大化 high-level 全局representation 和局部的部分输入（如图像的 patch）的局部representation 之间的互信息。这鼓励编码器携带在所有位置location都存在的信息类型（因此是全局相关的），例如图像类别标签。
DIM 在图像数据场景中严重依赖于卷积神经网络结构。据我们所知，目前还没有工作将互信息最大化应用于图结构数据。这里我们将DIM 的思想应用到图数据，因而提出了称之为Deep Graph Infomax:DGI 的方法。
相关工作：
- 对比方法contrastive method：无监督学习 representation 的一种重要方法是训练编码器，使得编码器在捕获感兴趣的representation和不感兴趣的representation 之间形成对比。例如，可以使得编码器对于 real 输入增加评分、对于 fake 输入降低评分。评分函数有很多种，但是在图数据相关论文中，常见的是分类的得分。
  DGI 也使用了对比学习，因为我们的目标是基于真实 local-global pair 对、以及负采样的 local-global pair 对进行分类。
- 采样策略：对比学习的关键是如何采样正样本和负样本。
  - 关于无监督的 graph representation learning的先前工作依赖于局部对比损失，即强制相邻的节点具有相似的 representation 。正样本通常对应于图的short random walk 中共现的 pair 对。从语言模型的观点来看，这是将随机游走视为句子、将节点视为word 。
  - 最近的工作采用 node-anchored 采样方法，该方法的负样本主要基于随机采样。例如：有一些curriculum-based 负采样方法，它逐渐采样更靠近closer 的负样本。或者，引入对抗方法来选择负样本。
- 预测编码predictive coding：对比预测编码contrastive predictive coding: CPC 是另一种基于互信息最大化的深度学习表示方法。和我们方法不同，CPC 和上述的图方法都是预测性的 predictive：对比目标有效地在输入的结构之间训练了一个 predictor，如相邻节点pair 对或者节点和它的邻域。而我们的方法同时对比了图的 global 部分和 local 部分，其中 global 变量是根据所有 local 变量计算而来。

34.1 模型

$\mathcal G=(\mathbf X,\mathbf A)$ ，其中：
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $\mathbf X\in \mathbb R^{n\times d_f}$ $n$ 为节点数量。
- $\mathbf A\in \mathbb R^{n\times n}$ $A_{i,j}$ $v_i,v_j$ $A_{i,j}=0$ $v_i$ $v_j$ 之间不存在连接。
  $A_{i,j}\in \{0,1\}$ 。
encoder $\mathcal E:\mathbb R^{n\times d_f}\times \mathbb R^{n\times n}\rightarrow \mathbb R^{n\times d}$ $\mathcal E(\mathbf X,\mathbf A) = \mathbf H\in \mathbb R^{n\times d}$ $\mathbf H$ representation $i$ $\mathbf{\vec h}_i\in \mathbb R^d$ $v_i$ representation $d$ 为 representation 向量的维度。
$\mathbf H$ ，那么representation 向量就可以用于下游的任务，如节点分类任务。
这里我们重点介绍图卷积编码器，它是一种灵活的node embedding 架构，并且通过在局部邻域上反复聚合从而生成节点representation 。
embedding $\mathbf{\vec h}_i$ summarize $v_i$ patch $v_i$ $\mathbf{\vec h}_i$ 来表示 patch representation 来强调这一点。
我们学习编码器的方法依赖于最大化局部互信息local mutual information，即：我们寻求节点的 representationsummary vector $\mathbf{\vec s}$ 来表示）。
- 为了获得graph-levelsummary vector $\mathbf{\vec s}$ readout $\mathcal R:\mathbb R^{n\times d}\rightarrow \mathbb R^d$ ，并通过该函数将获得的 patch representationgraph-level representation $\mathbf{\vec s}=\mathcal R\left(\mathcal E(\mathbf X,\mathbf A)\right)$ 。
- 作为最大化局部互信息的代理proxydiscriminator $\mathcal D:\mathbb R^d\times \mathbb R^d\rightarrow \mathbb R$ $\mathcal D\left(\mathbf{\vec h}_i,\mathbf{\vec s}\right)$ 代表了patch-summary 的 pair 对之间的概率得分。如果 summary 包含这个 patch，则会返回一个更高的得分。
  - $\mathcal G=(\mathbf X,\mathbf A)$ 的patch representation 和 summary vectorpair $\left\{\left(\mathbf{\vec h}_i,\mathbf{\vec s}\right)\right\}$ 。
    $p\left(\mathbf{\vec h}_i,\mathbf{\vec s}\right)$ 。
  - $\tilde{\mathcal G} = \left(\tilde{\mathbf X},\tilde{\mathbf A}\right)$ patch representation $\mathcal G=(\mathbf X,\mathbf A)$ 的 summary vectorpair $\left\{\left(\tilde{\mathbf{\vec h}}_j,\mathbf{\vec s}\right)\right\}$ $\tilde{\mathbf H}= \mathcal E\left(\tilde{\mathbf X},\tilde{\mathbf A}\right)$ 。
    $\tilde{\mathcal G} = \left(\tilde{\mathbf X},\tilde{\mathbf A}\right)$ $\mathcal C:\mathbb R^{n\times d_f}\times \mathbb R^{n\times n}\rightarrow \mathbb R^{m\times d_f}\times \mathbb R^{m\times m}$ $\left(\tilde{\mathbf X},\tilde{\mathbf A}\right)=\mathcal C(\mathbf X,\mathbf A)$ 。
    $p\left(\mathbf{\vec h}_i\right)p\left(\mathbf{\vec s}\right)$ 。
  负样本的选择将决定特定类型的结构信息，这些结构信息是作为这种互信息最大化的副产品而希望捕获的。
- 我们遵循 Deep InfoMax:DIM 的直觉，使用对比噪音类型的目标函数noise-contrastive type objective：在联合分布（正样本）和边际概率乘积（负样本）之间应用标准的二元交叉熵binary cross-entropy:BCE 损失。遵从DIM 的工作，我们使用以下目标函数：
  $L = \frac{1}{n + m} (\sum_{i = 1}^{n} E_{(X, A)} [\log D ({\vec{h}}_{i}, \vec{s})] + \sum_{j = 1}^{m} E_{(\tilde{X}, \tilde{A})} [\log (1 - D ({\tilde{\vec{h}}}_{j}, \vec{s}))])$
  JS $\mathbf{\vec h}_i$ $\mathbf{\vec s}$ 之间的互信息。
由于迫使所有得到的 patch representation 都保持全局graph summary 的互信息，这使得可以保留 patch-level 的相似性。例如，具有相似结构角色structural role 的距离遥远的节点（众所周知，这些节点是很多节点分类任务的强力的 predictor ）。
假设在单图环境下，DGI 的过程如下图所示：
- $\mathcal C(\cdot,\cdot)$ $\left(\tilde{\mathbf X},\tilde{\mathbf A}\right)\sim \mathcal C(\mathbf X,\mathbf A)$ 。
  $\mathbf X$ $\mathbf A$ 而保留节点特征、也可以二者同时扰动。
- $\mathcal G$ patch representation $\mathbf H = \mathcal E(\mathbf X,\mathbf A)$ 。
- $\tilde{\mathcal G}$ patch representation $\tilde{\mathbf H}=\mathcal E\left(\tilde{\mathbf X},\tilde{\mathbf A}\right)$ 。
- readout $\mathcal G$ summary vector $\mathbf{\vec s} = \mathcal R(\mathbf H)$ 。
- $\mathcal L$ $\mathcal E,\mathcal R,\mathcal D$ 的参数。

34.2 定理

$\mathcal D$ 的分类误差和graph representation 上的互信息最大化联系起来。
$\left\{\mathbf X^{(k)}\right\}_{k=1}^K$ $p(\mathbf X)$ $K$ node representation $K$ $\mathcal R(\cdot)$ readout $\mathbf{\vec s}^{(k)}=\mathcal R\left(\mathbf X^{(k)}\right)$ $k$ summary vector $p\left(\mathbf{\vec s}\right)$ $p\left(\mathbf X,\mathbf{\vec s}\right)$ $p(\mathbf X)p\left(\mathbf{\vec s}\right)$ 之间的最优分类器的错误率的上限为：
${Err}^{*} = \frac{1}{2} \sum_{k = 1}^{K} p {({\vec{s}}^{(k)})}^{2}$
$\mathcal R(\cdot)$ 是一个单射函数时可以达到该上限。
证明见原始论文。
可以证明：
$\frac{1}{2 K} \leq {Err}^{*} \leq \frac{1}{2}$
其中：
- 第一个不等式可以通过 Jensen 不等式来证明。
- 第二个不等式当 readout 函数是一个常量时成立，此时没有任何分类器表现得比随机分类更好。
readout $\mathcal R$ $\mathbf{\vec s}$ $S$ $K$ summary vector $S\ge K$ summary $\mathbf{\vec s}^*$ $S =K$ 。
证明见原始论文。
MI $\mathbf{\vec s}^* = \arg\max_{\mathbf{\vec s}} \text{MI}\left(\mathbf X;\mathbf{\vec s}\right)$ 。
证明见原始论文。
该定理表明：对于有限的输入集和合适的确定性函数，可以通过最小化判别器中的分类误差来最大化输入和输出之间的互信息。
$\mathbf X_i^{(k)}=\left\{\mathbf{\vec x}_j\right\}_{j\in \mathcal N_{k,i}}$ $k$ $v_i$ $\mathcal N_{k,i}$ $k$ $v_i$ $\mathcal E$ $k$ $v_i$ high-level $\mathbf{\vec h}_i=\mathcal E\left(\mathbf X_i^{(k)}\right)$ 。
$|\mathbf X_i| = |\mathbf X| =\left |\mathbf{\vec s}\right|\ge \left|\mathbf{\vec h}_i\right|$ $|\cdot|$ $\mathbf{\vec h}_i$ $p\left(\mathbf{\vec h}_i,\mathbf{\vec s}\right)$ $p\left(\mathbf{\vec h}_i\right)p\left(\mathbf{\vec s}\right)$ $\text{MI}\left(\mathbf X_i^{(k)},\mathbf{\vec h}_i\right)$ 。
证明见原始论文。
这激发了我们在联合分布和边际概率乘积的样本之间使用分类器，并且在神经网络优化的上下文下，使用binary cross-entropy:BCE 损失来优化该分类器。

34.3 实验

我们评估了 DGI 编码器在各种节点分类任务（transductive learning 和 inductive learning ）上学到的 representation 的优势。
在每种情况下，都是用 DGI 以完全无监督方式学到了patch representation ，然后用简单的线性（逻辑回归）分类器来进行node-level 分类。分类器的输入就是节点的 representation 。
数据集：
- 引文网络 Cora, Citeseer, Pubmed：它们是 transductive learning 数据集。在这些数据集中，节点表示论文，边表示论文之间的引用关系，节点特征对应于论文的 bag-of-word 。每个节点都有一个类别标签。
  我们对每个类别仅允许使用 20 个节点进行训练。但是，为了遵循transductive learning，无监督学习算法可以访问所有节点的特征向量。
  我们在 1000 个测试节点上评估了学到representation 的预测能力。
- Reddit 数据集：它是大图上的 inductive learning 数据集。我们使用 2014 年9 月期间创建的 Reddit 帖子作为数据集，每个帖子代表节点，如果同一个用户对两个帖子都发表了评论则这两个帖子之间存在边。
  数据集包含 231443 个节点、11606919 条边。节点特征是帖子内容和评论的 GloVe embedding 向量、以及帖子的评分或者评论数量等指标。我们的目标是预测帖子所属的社区。
  我们将前20 天发布的帖子用于训练、剩余帖子用于验证或测试。并且训练期间，验证集和测试集是不可见的。
- PPI 数据集：它是多图的 inductive learning 数据集。该数据集由不同人体组织对应的graph 组成，其中包含 20 个图用于训练、2 个图用于验证、2 个图用于测试。注意，在训练过程中，测试图完全未被观察到。
  每个节点具有 50 个特征，这些特征由 positional gene sets, motif gene sets, immunological signatures 等组成。一个节点可能具有多个标签，这些标签是从分子本体数据库收集的基因本体标签，共有 121 个。
所有数据集的统计信息如下表。

34.3.1 配置

我们对于 transductive learning、单图inductive learning、多图 inductive learning 使用不同的编码器和扰动函数。
transductive learning：我们使用单层GCN 作为编码器，即：
$E (X, A) = σ ({\hat{D}}^{- 1 / 2} \hat{A} {\hat{D}}^{- 1 / 2} X W)$
其中：
- $\hat{\mathbf A} = \mathbf A + \mathbf I$ $\hat{\mathbf D}$ $\hat D_{i,i} = \sum_j\hat A_{i,j}$ ）。
- $\sigma(\cdot)$ 为非线性激活函数，这里我们使用参数化的 ReLU （即 parametric ReLU: PReLU）。
- $\mathbf W\in \mathbb R^{d_f\times d}$ $d = 512$ Pubmed $d = 256$ 。
representation $\mathcal C$ $\tilde{\mathbf A} = \mathbf A$ $\tilde{\mathbf X}$ $\mathbf X$ 进行按行混洗得到的。即扰动的图由原始图中完全相同的节点组成，但是节点位于图中的不同位置，因此接收不同的 patch representation 。
论文证明了DGI 对于其它扰动函数是稳定的（参考原始论文），但是我们发现：保留图结构的那些扰动函数效果最好。
单图inductive learning：这里我们不再使用单层 GCN 作为编码器，因为这种编码器依赖于固定且已知的邻接矩阵。相反，我们使用 GraphSAGE-GCN，并选择均值池化：
$MP (X, A) = {\hat{D}}^{- 1} \hat{A} X W$
$\hat{\mathbf D}$ 进行了归一化，实际上也可以通过 GAT 模型来编码。
我们的编码器采用三层GraphSAGE-GCN，并使用 skip connection ：
$\begin{matrix} \tilde{MP} (X, A) = σ (X W^{'} | | MP (X, A)) \\ E (X, A) = {\tilde{MP}}_{3} ({\tilde{MP}}_{2} ({\tilde{MP}}_{1} (X, A), A), A) \end{matrix}$
$||$ 表示特征拼接。
- $d = 512$ $\sigma(\cdot)$ 为 PReLU 激活函数。
- 考虑到Reddit 数据集规模较大，无法完全放入GPU 内存。这里我们采用 GraphSAGE 中的采样方法：分别在第一层、第二层、第三层对邻域采样 10/10/25 个邻居节点。因此每个中心节点将采样 1+10+100+2500=2611 个3-hop 邻域节点（称作一个 patch）。
- 在整个训练过程中，我们使用了 batch-size=256 的 mini-batch 随机梯度下降。
- 我们使用和 transductive learning 中类似的扰动函数，但是将每个采样的 patch 视为要扰动的子图。注意，这可能导致中心节点的特征被替换为采样邻居的特征，从而进一步促进了负样本的多样性。然后将中心节点的 patch representation 馈入到判别器。
多图 inductive learning ：我们的编码器是一个三层的GraphSAGE 均值池化模型，并且带skip connection：
$\begin{matrix} H_{1} = σ ({MP}_{1} (X, A)) \\ H_{2} = σ ({MP}_{2} (H_{1} + X W_{skip}, A)) \\ E (X, A) = σ ({MP}_{3} (H_{2} + H_{1} + X W_{skip}, A)) \end{matrix}$
$\mathbf W_{\text{skip}}$ 为待学习的参数矩阵。这里和单图inductive learning 区别在于：这里的 skip connection 是sum 融合，而前述的 skip connection 是 concate 融合。
- $d = 512$ $\sigma(\cdot)$ 为 PReLU 激活函数。
- 在多图环境下，我们选择使用随机采样的训练graph 来作为负样本。即我们的扰动函数只是从训练集中采样了不同的图。考虑到该数据集中 40% 以上的节点包含全零的特征，因此这种方法最为稳定。
- 为进一步扩大负样本的范围，我们还对采样的graph 的输入特征应用 dropout 。
- 我们还发现将学到的embedding 馈入到逻辑回归模型之前，对包括训练集上的embedding 进行标准化是有益的。
在所有的配置下，我们使用统一的readout 函数、判别器架构：
- 我们使用简单的均值函数来作为readout 函数：
  $R (H) = σ (\frac{1}{n} \sum_{i = 1}^{n} {\vec{h}}_{i})$
  $\sigma(\cdot)$ 为 sigmoid 非线性函数。
  尽管我们发现该readout 函数在所有实验中表现最佳，但是我们假设其能力会随着graph size 的增加而降低。此时，可能需要使用更复杂的readout 架构，如 set2vec 或者 DiffPool 。
- 判别器通过应用简单的双线性评分函数对 summary-patch 进行评分：
  $D ({\vec{h}}_{i}, \vec{s}) = σ ({\vec{h}}_{i}^{⊤} W_{D} \vec{s})$
  $\mathbf W_D$ $\sigma(\cdot)$ 为 sigmoid 非线性激活函数。
所有模型都使用 Glorot 初始化，并使用 Adam SGD 优化器进行训练，初始学习率为 0.001Reddit $10^{-5}$ ）。
在 transductive 数据集上，我们在training loss 上应用早停策略，patience epoch = 20 。在 inductive 数据集上，我们训练固定数量的 epoch，对于 Reddit 为 150、对于 PPI 为 20 。

34.3.2 结果

baseline 方法：
- transductive learning：我们进行了 50 次实验并报告测试集上的平均准确率和标准差。然后将我们的结果和 DeepWalk, GCN, Label Propagation:LP, Planetoid 等方法进行比较。
  另外我们还提供了对原始特征进行逻辑回归分类、将原始特征和 DeepWalk 特征拼接进行逻辑回归分类的结果。
- inductive learning：我们进行了 50 次实验并报告了测试集上的 micro-F1 得分的均值。我们直接复用 GraphSAGE 论文中的结果进行比较。
  由于我们的方法是无监督的，因此我们对比了无监督的 GraphSAGE 方法。
  我们还提供了两种监督学习的方法比较：FastGCN 和 Avg. pooling 。
实验结果如下表所示，其中第一列中我们给出每种方法在训练过程中可用的数据类型：X 为特征信息，A 为邻接矩阵，Y 为标签信息。GCN 对应于以监督方式训练的两层 DGI 编码器。
结论：
- DGI 在所有五个数据集上均实现了出色的性能。尤为注意的是，DGI 方法和监督学习的 GCN 模型相比具有竞争力，并且在 Cora 数据集和 Citeseer 数据集上甚至超越了监督学习的 GCN 。
  我们认为这些优势源自事实：DGI 方法间接地允许每个节点都可以访问整个图的属性，而监督学习的 GCN 仅限于两层邻域（由于训练信号的极其稀疏，因此可能会遭受过拟合的风险）。
  应当指明的是，尽管我们能够超越同等编码器架构的监督学习，但是我们我们的性能仍然无法超越 state-of-the-art 的 transductive 架构。
- DGI 方法在 Reddit 和 PPI 数据集上成功超越了所有竞争的无监督 GraphSAGE 方法，从而验证了 inductive learning 节点分类任务中，基于局部互信息最大化方法的潜力。
  DGI 在 Reddit 上的结果和监督学习的 state-of-the-art 相比具有竞争力，而在 PPI 上差距仍然很大。我们认为这可以归因于节点可用特征的极度稀疏：在 PPI 数据集上超过 40% 的节点具有全零特征。而我们的 DGI 方法中的编码器非常依赖于节点特征。
- 我们注意到，随机初始化的图卷积网络（不需要经过训练）可能已经提取了非常有用的特征，并代表了强大的 baseline。这是众所周知的事实，因为它和 WL test 图同构测试有关。这已被GCN 和 GraphSAGE 等论文所研究过。
  为此，我们提供了 Random-Init 这个 baseline，它是从随机初始化的编码器（不需要训练）获取节点 embedding，然后馈入逻辑回归分类器。
  - DGI 可以在这个强大的 baseline 上进一步提升。
  - 在 inductive 数据集上的结果表明：以前基于随机游走的负采样方法可能对于学习分类任务是无效的。
  这个编码器其实就是 GCN/GraphSAGE 等常用架构。
- 最后，应该注意的是，更深的编码器减少了我们正负样本之间的有效变异性。我们认为这就是为什么浅层架构在某些数据集上表现更好的原因。虽然我们不能说这个趋势普遍存在，但是通过 DGI 损失函数我们发现，通常采用更wider 的模型而不是更 deeper 的模型可以带来收益。
定性分析：我们给出 Cora 数据集的 embedding 经过 t-SNE 可视化结果（因为该数据集节点数最少）。左图为原始特征的可视化，中间为Random-Init 得到 embedding 的可视化，右图为训练好的 DGI 得到 embedding 的可视化。
可以看到：DGI 得到的embedding 的投影表现出明显的聚类。
在t-SNE 可视化之后，我们关注Cora 数据集上判别器的得分。我们对于正样本和负样本（随机采样的）可视化了每个节点的判别器得分：左图为正样本（真实的图）、右图为负样本（负采样的图）。
可以看到：
- 在正样本学到的 embedding 的簇上，只有少数 hot 节点得到较高的判别器得分。这表明用于判别和分类的 embedding 各维度之间可能存在明显的差异。
- 正如预期的那样，模型无法在负样本中找到任何强大的结构。
- 一些负样本种的节点获得了较高的判别器得分，这是由于 Cora 中的一些 low-degree 节点引起的。
  正样本的平均分高于负样本的平均分。
我们将判别器打分 top-score 的正样本和负样本的 embedding 进行可视化。如下图所示：上半部分为 highest-scored 正样本，下半部分为 lowerst-scored 负样本。
可以看到：在某些维度上，正样本和负样本都存在着严重的 bias。
shuffle $\mathbf X$ 的情况下，负样本的平均预期激活值为零，因此需要强大的bias 需要将负样本的判别器得分拉下来。对于正样本，可以使用其它维度来抵消这些维度上的 bias ，同时编码 patch 相似度。
为证明这一假设，我们根据正样本和负样本之间的可区分性对 512embedding $p\uparrow$ $p\downarrow$ ），然后检测分类器和判别器的性能，结果如下图所示。
biased $p\downarrow$ ），则分类效果会保持更长的时间（允许我们删除一半以上的 embedding 维度，同时仍保持对监督 GCN 的竞争优势）。正样本仍然能够保持正确的判别，直到移除了一半以上的维度为止。
注意：biased 维度指的是正样本和负样本都存在着严重的 bias的维度，因此无法区分正样本和负样本。

三十五、DIFFPOLL[2018]

当前GNN 架构的主要局限性在于它们本质上是平的 flat，因为它们仅仅跨图的边来传播信息，并且无法以层次hierarchical 的方式推断和聚合信息。这种缺乏层次结构的情况对于graph 分类任务尤其成为问题。当GNN 应用到图分类时，标准方法是为图中的所有节点生成 embedding，然后将所有这些节点 embedding 执行全局池化。这种全局池化忽略了图中可能存在的任何层次结构，并阻碍了人们为 graph-level 预测任务建立有效的 GNN 模型。
论文 《Hierarchical Graph Representation Learning with Differentiable Pooling》 提出了 DIFFPOOL，这是一种可微分的graph pooling 模块，可以通过层次的、端到端的方式适应各种 GNN 架构，如下图所示。DIFFPOOL 允许开发更深的、可以学习操作图的层次表示hierarchical representation 的 GNN模型。
下图中，在每个层次的 layer 上运行一个 GNN 模型来获取节点 embedding。然后，DIFFPOOL 使用这些学到的 embeddingGNN layer $L$ 次，并使用最终的输出 representation 来对图进行分类。
DIFFPOOL 类似于 CNN 的空间池化。和标准的 CNN 相比，GNN 面临的挑战是：
- 首先，graphgraph $n\times n$ 的 patch 上的所有节点进行池化，因为图的复杂拓扑结构使得无法定义 patch 。
- 其次，和图像数据不同，图数据集通常包含数量变化的节点和边的图，这使得定义图池化运算更具挑战性。
为解决上述挑战，我们需要一个模型，该模型学习如何将节点聚类在一起从而在底层图之上搭建一个层次的 multi-layer 结构。
DIFFPOOL 方法在GNN 的每一层上学习可微的 soft assignment，并根据其学到的 embedding 将节点映射到簇。在 DIFFPOOL 框架中，我们通过以层次的方式堆叠 GNN layerdeep GNN $l$ $l-1$ 层学到的簇。因此，DIFFPOOL 的每一层都将输入图越来越粗化，并且 DIFFPOOL 能够在训练后生成任何输入图的hierarchical representation。
实验表明：DIFFPOOL 可以和各种 GNN 方法结合使用，从而使得平均准确率提高 7%，并且在五个benchmark 中的四个达到了 state-of-the-art 性能。
最后，论文证明 DIFFPOOL 可以学习和输入图中定义明确的社区相对应的、可解释的层次聚类。
相关工作：
- 通用的图神经网络：近年来提出了各种各样的图神经网络模型。这些方法大多符合 《Neural message passing for quantum chemistry》提出的 "neural message passing"的框架。在消息传递框架中，GNN 被看作是一种消息传递算法，其中 node representation 是使用可微聚合函数从其邻居节点的特征中反复计算出来的。
  《Representation learning on graphs: Methods and applications》对该领域的最新进展进行了回顾， 《Geometric deep learning:Going beyond euclidean data》概述了图神经网络与谱图卷积 spectral graph convolution 的联系。
- 基于图神经网络的图分类：图神经网络已经被应用于各种任务，包括节点分类、链接预测、图分类、和化学信息学。在图分类的背景下应用 GNN 的一个主要挑战是如何从 node embedding 到整个图的 representation 。解决这个问题的常见方法包括：
  - 在网络最后一层简单地求和或平均所有的 node embedding 。
  - 引入一个与图中所有节点相连的 "virtual node"。
  - 使用一个能够操作集合的深度学习架构来聚合 node embedding。
  然而，所有这些方法都有一个局限性，即它们不学习 hierarchical representation （即所有的 node embedding 都在单个 layer 中被全局地池化），因此无法捕捉到许多现实世界中图的自然结构。最近的一些方法也提出了将 CNN 架构应用于所有node embedding 的拼接，但这需要指定（或学习）节点的典型排序（一般来说这非常困难，相当于解决图的同构性graph isomorphism ）。

35.1 模型

DIFFPOOL 的关键思想是：通过提供可微的模块来层次地池化图节点，从而构建深度的 multi-layer GNN 模型。
$\mathcal G=(\mathbf X,\mathbf A)$ ，其中：
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d }$ $\mathbf X\in \mathbb R^{n\times d }$ $n$ $d$ 为特征相邻维度。
  embedding $d$ ，实际应用中可以采用不同的维度。
- $\mathbf A\in \mathbb R^{n\times n}$ $A_{i,j}$ $v_i,v_j$ $A_{i,j}=0$ $v_i$ $v_j$ 之间不存在连接。
  $A_{i,j}\in \{0,1\}$ 。
注意：这里我们未考虑边特征。
$\mathcal D=\left\{(\mathcal G_1,y_1),\cdots,(\mathcal G_N,y_N)\right\}$ $y_i\in \mathcal Y$ $i$ $\mathcal G_i\in \mathcal G$ 的标签。图分类任务的目标是学习graphlabel $f:\mathcal G\rightarrow \mathcal Y$ 。
和标准的监督学习任务相比，这里的挑战是：我们需要一种从这些输入图中抽取有用的特征向量的方法。即，我们需要一个过程来将每个图转换为一个有限维的向量。
本文我们以GNN 为基础，以端到端的方式学习图分类的有用representation。具体而言，我们考虑采用以下的 message-passing 架构的 GNN：
$H^{(k)} = M (A, H^{(k - 1)}; θ^{(l)})$
其中：
- $\mathbf H^{(k)}\in \mathbb R^{n\times d}$ $k$ embedding $\mathbf H^{(0)}=\mathbf X$ 为输入特征矩阵。
- $\mathcal M(\cdot)$ $\mathbf A$ $k-1$ embedding $\mathbf H^{(k-1)}$ $\theta^{(k)}$ 。
GNN $\mathcal M(\cdot)$ 的细节是不可知的。
$\mathcal M(\cdot)$ 有多种可能的形式，例如 GCN 中采用一个线性映射和一个 ReLU 非线性激活函数来实现：
$H^{(k)} = M (A, H^{(k - 1)}; θ^{(k)}) = ReLU ({\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} H^{(k - 1)} W^{(k)})$
其中：
- $\tilde{\mathbf A} = \mathbf A + \mathbf I$ $\tilde{\mathbf D}$ $\tilde D_i=\sum_j \tilde A_{i,j}$ 。
- $\mathbf W^{(k)}\in \mathbb R^{d\times d}$ 为可训练的权重矩阵。
GNN $K$ embedding $\mathbf Z=\mathbf H^{(K)}\in \mathbb R^{n\times d}$ $K$ 通常为2~6 层。
GNN $\mathbf Z=\text{GNN}(\mathbf A, \mathbf X)$ GNN $\mathbf A$ $\mathbf X$ $K$ 轮消息传递。
上述GNN 的本质上是 flat 的，因为它们仅在图的边之间传播信息。我们的目标是定义一种通用的、端到端的可微策略，该策略允许人们以层次化的方式堆叠多个 GNN 模块。
$\mathbf A\in \mathbb R^{n\times n}$ GNN $\mathbf Z=\text{GNN}(\mathbf A, \mathbf X)$ $m\lt n$ $\mathbf A^\prime\in \mathbb R^{m\times m}$ embedding $\mathbf Z^\prime \in \mathbb R^{m\times d}$ 。
GNN layer $K$ $K$ 个 GNN layer 的模型，该模型对输入图的一系列越来越粗的版本进行操作。因此，我们的目标是学习如何使用 GNN 的输出将节点聚类在一起，以便我们可以将这个粗化图用作另一个 GNN layer 的输入。
和常规的图粗化任务相比，为 GNN 设计这样的池化层尤其具有挑战性的原因是：我们的目标不是简单地将一个图中的节点聚类，而是提供一个通用的方法对输入图的一组广泛的节点进行层次池化hierarchically pool 。即，我们需要模型来学习一种池化策略，该策略将在具有不同节点、边的图之间进行泛化，并且在推断过程中可以适配各种图结构。

35.1.1 DIFFPOOL 方法

DIFFPOOL 方法通过使用 GNNcluster assignment $L$ GNN $l-1$ 层的 GNNembedding $l$ 层的簇。
因此，我们不仅使用 GNN 来抽取对graph 分类有用的节点 embedding，也使用 GNN 来抽取对层次池化有用的节点 embedding 。通过这种方式，DIFFPOOL 中的 GNN 学会编码一种通用的池化策略。
我们首先描述 DIFFPOOL 模块如何在给定assignment 矩阵的情况下在每一层上池化节点，接下来我们讨论如何使用 GNN 架构生成assignment 矩阵。
assignment $l$ cluster assignment $\mathbf S^{(l)}\in \mathbb R^{n_l\times n_{l+1}}$ $\mathbf S^{(l)}$ $l$ $l+1$ $\mathbf S^{(l)}$ $l$ soft assignment $l+1$ 层中的簇。
$\mathbf S^{(l)}$ $l$ assignment $l$ $\mathbf A^{(l)}$ $l$ embedding $\mathbf Z^{(l)}$ 。给定这些输入，DIFFPOOLcoarsen $\mathbf A^{(l+1)}$ embedding $\mathbf X^{(l+1)}$ 。即：
$\begin{matrix} (A^{(l + 1)}, X^{(l + 1)}) = DIFFPOOL (A^{(l)}, Z^{(l)}) \\ X^{(l + 1)} = S^{(l)^{⊤}} Z^{(l)} \in R^{n_{l + 1} \times d} \\ A^{(l + 1)} = S^{(l)^{⊤}} A^{(l)} S^{(l)} \in R^{n_{l + 1} \times n_{l + 1}} \end{matrix}$
其中：
- DIFFPOOLcluster assignment $\mathbf S^{(l)}$ embedding $\mathbf Z^{(l)}$ $l+1$ $n_{l+1}$ 个簇的 embedding 。
  $l+1$ 层的每个簇的 embedding 等于它包含的子节点的 embedding 的加权和，权重为子节点属于这个簇的可能性（由 assignment 矩阵给出）。
- DIFFPOOLcluster assignment $\mathbf S^{(l)}$ $\mathbf A^{(l)}$ 来生成粗化的邻接矩阵，这个粗化的邻接矩阵表示 cluser pair 对之间的连接强度。
  $l+1$ 层的任意两个簇之间的距离等于各自包含的子节点之间距离的加权和，权重为子节点属于各自簇的可能性（由 assignment 矩阵给出）。
DIFFPOOL $\mathbf A^{(l+1)}$ $n_{l+1}$ 个节点或簇点cluster nodecluster node $l$ 层中的一个簇中所有的节点。
$\mathbf A^{(l+1)}$ $A^{(l+1)}_{i,j}$ $i$ $j$ $\mathbf X^{(l+1)}$ $i$ $i$ 的 embedding 。
$\mathbf A^{(l+1)}$ embedding $\mathbf X^{(l+1)}$ 一起可以用于另一个 GNN layer 的输入。我们接下来详述。
学习 assignment 矩阵：现在我们描述DIFFPOOLassignment $\mathbf S^{(l)}$ embedding $\mathbf Z^{(l)}$ 。我们使用两个独立的 GNN 来生成这两个矩阵，这两个GNNcluster node $\mathbf X^{(l)}$ $\mathbf A^{(l)}$ 上。
- $l$ 层的 embedding GNN 是标准的 GNN 模块：
  $Z^{(l)} = {GNN}_{l, embed} (A^{(l)}, X^{(l)})$
  $l$ 层簇点的邻接矩阵和特征矩阵，并用标准的 GNNembedding $\mathbf Z^{(l)}$ 。
- $l$ 层的 pooling GNN 使用簇点的邻接矩阵和特征矩阵来生成 assignment 矩阵：
  $S^{(l)} = softmax ({GNN}_{l, pool} (A^{(l)}, X^{(l)}))$
  其中 softmax 是逐行进行。
  $\text{GNN}_{l,\text{pool}}$ $l$ 层中预定义的最大簇数，并且是模型的超参数。
注意：
- 这两个 GNN 采用相同的输入数据，但是具有不同的参数化parameterizationembedding GNN $l$ 层输入节点生成新的 embeddingpooling GNN $l$ $n_{l+1}$ 个簇的分配概率。
- $l=0$ $\mathbf A^{(0)} = \mathbf A$ $\mathbf X^{(0)} = \mathbf X$ 为原始的输入特征矩阵。
- $(L-1)$ assignment $\mathbf S^{(L-1)}$ 1 $L$ 中所有节点都分配给单个簇，从而生成对应于整个图的 final embedding 向量。
  然后可以将这个final embedding 向量用于可微分类器（如 softmax 层）的特征输入，并使用随机梯度下降来端到端地训练整个系统。
排列不变性permutation invariance：注意，为了对图分类有用，池化层应该是节点排列不变的。对于 DIFFPOOL，我们得到以下正面的结论，这表明：只要GNN 的组件component 是排列不变的，那么任何基于 DIFFPOOL 的 deep GNN 模型都是排列不变的。
$\mathbf P\in \{0,1\}^{n\times n}$ permutation matrix $\text{GNN}(\mathbf A,\mathbf X) = \text{GNN}\left(\mathbf P\mathbf A\mathbf P^\top,\mathbf X\right)$ $\text{DIFFPOOL}(\mathbf A,\mathbf Z) = \text{DIFFPOOL}\left(\mathbf P\mathbf A\mathbf P^\top,\mathbf P\mathbf X\right)$ 。
GNN $\mathbf Z^{(l)}, \mathbf S^{(l)}$ $\mathbf P$ $\mathbf P^\top\mathbf P=\mathbf I$ $\mathbf X^{(l+1)},\mathbf A^{(l+1)}$ 的计算公式，则得证。

35.1.2 辅助链接预测和熵正则化

在实践中，仅使用来自图分类任务的梯度信号来训练 pooling GNN 可能会很困难。直观地讲，我们有一个非凸优化问题，在训练初期很难将 pooling GNN 推离局部极小值。
为缓解该问题，我们使用辅助的链接预测目标auxiliary link prediction objectivepooling GNN $l$ ，我们最小化目标：
$L_{LP} = {‖ A^{(l)} - S^{(l)} S^{(l)^{⊤}} ‖}_{F}$
$||\cdot||_F$ 为Frobenius 范数。
$\mathbf S^{(l)}\mathbf S^{(l)^\top}$ 给出任意两个节点位于相同簇中的可能性，如果它等于邻接矩阵那么表明：pooling GNN 将相连的节点分配到相同的簇、将不相连的节点分配到不同的簇。
$\mathbf A^{(l)}$ 是低层 assignment 矩阵的函数，并且在训练期间会不断改变。
pooling GNN 的另一个重要特点是：每个节点的输出cluster assignment 通常应该接近一个one-hot 向量，从而清楚地定义节点属于哪个cluster 。因此，我们通过最小化以下目标来对cluster assignment 的熵进行正则化：
$L_{E} = \frac{1}{n} \sum_{i = 1}^{n} H ({\vec{s}}_{i})$
$H(\cdot)$ $\mathbf{\vec s}_i$ assignment $\mathbf S$ $i$ 行。
$\mathcal L_\text{LP},\mathcal L_{E}$ 都添加到分类损失中。实践中我们观察到：带有这些额外目标的训练花费更长的时间才能收敛，但是获得了更好的性能以及更可解释的cluster assignment 。

35.2 实验

我们针对多个state-of-the-art 图分类方法评估了 DIFFPOOL 的优势，目的是回答以下问题：
- Q1：DIFFPOOL 对比其它 GNN 中的池化方法（如 sort pooling 或者 Set2Set 方法）相比如何？
- Q2：结合了 DIFFPOOL 的 GNN 对比图分类任务中的 state-of-the-art 方法（包括 GNN 方法和 kernel-based 方法）相比如何？
- Q3：DIFFPOOL 是否在输入的图上计算得到有意义且可解释的聚类？
数据集：蛋白质数据集，包括ENZYMES, PROTEINS, D&D；社交网络数据集 REDDIT-MULTI-12K ；科学协作数据集COLLAB 。
对这些数据集，我们执行 10-fold 交叉验证来评估模型性能，并报告 10 个 fold 的平均分类准确率。
模型配置：在我们的实验中，用于 DIFFPOOL 的 GNN 模型是建立在 GraphSAGE 架构之上的，因为我们发现GraphSAGE 比标准的 GCN 效果更好。
- 我们使用 GraphSAGE 的 mean 变体，并在我们的体系架构中每隔两个 GraphSAGE layer 之后应用一个 DIFFPOOL layer 。在每个 DIFFPOOL 层之后、下一个DIFFPOOL 层（或者 readout 层）之前，我们添加3 层图卷积层。
  这里感觉前后矛盾，就是是 3 层图卷积层还是 2 层图卷积层？要看代码。
- 数据集一共使用 2 个 DIFFPOOL 层。对于小型数据集（如 ENZYMES, COLLAB），1 个 DIFFPOOL 层就可以实现相似的性能。
- embedding 矩阵和 assignment 矩阵分别由两个单独的 GraphSAGE 模型计算。
- 在 2 个 DIFFPOOL 层的体系架构中，cluster 数量设置为 DIFFPOOL 之前节点数量的 25% ；在 1 个 DIFFPOOL 层的体系架构中，cluster 数量设置为 DIFFPOOL 之前节点数量的 10% 。
- 在GraphSAGE 的每一层之后都应用了 batch normalization 。
- embedding $l_2$ 正则化可以使得训练更加稳定。
- 所有模型都训练最多 3000 个 epoch，并基于验证损失来执行早停策略。
- 我们还评估了 DIFFPOOL 的两个简化版本：
  - DIFFPOOL-DET：是一个DIFFPOOL 的变体，其中使用确定性的图聚类算法来生成 assignment 矩阵。
  - DIFFPOOL-NOLP：是一个 DIFFPOOL 的变体，其中移除链接预测的辅助目标。
另外，我们还将在 Structure2Vec 架构上测试了 DIFFPOOL 的类似变体，从而演示如何将 DIFFPOOL 应用于其它 GNN 模型。
baseline 方法：这里我们考虑使用不同了池化的 GNN方法，以及 state-of-the-art 的 kernel-based 方法。
- GNN-based 方法：
  - 带全局均值池化的 GraphSAGE。其它GNN 变体被忽略，因为根据经验，GraphSAGE 在任务中获得更高性能。
  - Structure2Vec:S2V 是一种state-of-the-art 的graph representation learning方法，它将一个潜在变量模型latent variable model 和 GNN 相结合，并使用全局均值池化。
  - ECC 将边信息融合到 GCN 模型中，并使用一个图粗化算法来执行池化。
  - PATCHYSAN 对每个节点定义一个感受野，并使用规范化的节点顺序，从而对节点embedding 的序列应用卷积。
  - SET2SET 使用 Set2Set 方法来代替传统 GNN 架构中的全局均值池化。这里我们使用 GraphSAGE 作为 base GNN model 。
  - SORTPOOL 应用GNN 架构，然后执行单层 soft pooling 层，然后对排序的节点 embedding 执行一维卷积。
  对于所有 GNN baseline，我们尽可能使用原始作者报告的 10-fold 交叉验证的结果。如果作者没有公开结果，则我们从原始作者获取代码运行模型，并根据原始作者的准则执行超参数搜索。
  对于 GraphSAGE 和 SET2SET，我们像 DIFFPOOL 方法一样使用基本的实现和超参数择优。
- kernel-based 算法：我们使用 GRAPHLET、SHORTEST-PATH 、WEISFEILERLEHMAN kernel:WL、 WEISFEILER-LEHMAN OPTIMAL ASSIGNMENT KERNEL:WLOA 等方法。
  对于每个kernel ，我们计算归一化的 gram 矩阵。我们使用 10-fold 交叉验证，并使用 LISVMC $\{10^{-3},10^{-2},\cdots,10^2,10^3\}$ 。WL 和 WL-OA 的迭代范围从 0 到 5。
下表给出了实验结果，这为 Q1 和 Q2 给出了正面的回答。最右侧的 Gain 列给出了相对于GraphSAGE 方法在所有数据集上的平均性能提升。
可以看到：
- DIFFPOOL 方法在 GNN 的所有池化方法中获得了最好的性能，在 GraphSAGE 体系结构上平均提升 6.27% ，并且在 5 个 benchmark 上的 4 个达到了 state-of-the-art 。
- 有趣的是，我们的简化模型变体 DIFFPOOLDET 在 COLLAB 数据集上达到了 state-of-the-art 性能。这是因为 COLLAB 的很多协作图仅显示了单层社区结构，这些结构可以通过预先计算的图聚类算法很好地捕获。
有一个现象是：尽管性能有了显著提升，但是 DIFFPOOL 可能无法稳定训练。并且即使采用相同的超参数设置，不同运行之间的准确率也存在着差异。可以看到添加链接预测目标可以使得训练更加稳定，并减少不同运行之间准确率的标准差。
除了 GraphSAGE 之外，DIFFPOOL 也可以应用于其它GNN 架构，从而捕获图数据中的层次结构。为此我们在 Structure2Vec:S2V 上应用了 DIFFPOOL。
我们使用三层的 S2V 架构：
- 在第一个变体中，在S2V 的第一层之后应用一个 DIFFPOOL 层，并在 DIFFPOOL 的输出的顶部堆叠另外两个S2V 层。
- 在第二个变体中，在S2V 的第一层、第二层之后分别应用一个 DIFFPOOL 层。
在这两个变体中，S2V 模型用于计算 embedding 矩阵，而 GraphSAGE 模型用于计算assignment 矩阵。
实验结果如下所示。可以看到： DIFFPOOL 显著改善了 ENZYMES 和 D&D 数据集上 S2V 的性能。
在其它数据集上也观察到类似的趋势。结果表明：DIFFPOOL 是一个可以提升不同 GNN 架构的通用池化策略。
尽管DIFFPOOL 需要对 asignment 矩阵进行额外的计算，但我们观察到 DIFFPOOL 实际上并不会带来大量的额外运行时间。这是因为每个 DIFFPOOL 层都通过粗化来减小了图的大小，从而加快了下一层中图的卷积操作。
具体而言，我们发现带有 DIFFPOOL 的 GraphSage 模型要比带有 SET2SET 池化的 GraphSage 模型快 12 倍，并且仍能实现明显更高的准确率。
为回答问题Q3，我们通过可视化不同层中的 cluster assignment 来调研 DIFFPOOL 是否学习有意义的节点聚类。下图给出 COLLAB 数据集中，第一层和第二层的节点分配的可视化，其中：
- 节点颜色表示cluster 成员关系。节点的 cluster 成员关系是通过对cluster assignment 的概率取argmax 来确定的。
- 虚线表示簇关系。
- 下图是三个样本的聚类（每个样本代表一个 graph），图 (a) 给出两层的层次聚类，图 (b),(c) 给出一层的层次聚类。
- 注意，尽管我们将簇的数量设置为前一层节点的 25% ，但是 assignment GNN 可以自动学习适当数量的、且有意义的簇，从而分配给这些不同的图。（即大量的簇没有分配到任何节点）。
可以看到：
- 即使仅基于图分类目标，DIFFPOOL 仍可以捕获层次的社区结构。我们还通过链接预测辅助目标观察到cluster assignment 质量的显著提升。
- 稠密的子图结构 vs 稀疏的子图结构：我们观察到 DIFFPOOL 学会了以非均匀方式将所有节点折叠collapse 为 soft cluster，并且倾向于将稠密的子图折叠为簇。
  - 由于 GNN 可以有效地对稠密的、clique-like 的子图执行消息传递（由于较小的直径），因此在这种稠密的子图中将节点池化在一起不太可能导致结构信息的丢失。这直观地解释了为什么折叠稠密子图是 DIFFPOOL 的有效池化策略。
  - 相反，稀疏子图可能包含许多有趣的结构，包括路径、循环、树状结构，并且由于稀疏性导致的大直径，GNN 消息传递可能无法捕获这些结构。因此，通过分别池化稀疏子图的不同部分，DIFFPOOL 可以学习捕获稀疏子图中存在的有意义的结构。
- 相似representation 节点的分配：由于assignment network 基于输入节点及其邻域特征来计算 soft cluster assignment，因此具有相似的输入特征和邻域结构的节点将具有相似的cluster assignment。
  实际上，可以构造一个人工case：其中两个节点尽管相距很远，但是它们具有相同的节点特征和邻域特征。这种情况下，pooling GNN 迫使它们分配到同一个cluster 中。这和其它体系结构中的池化概念完全不同。在某些情况下，我们确实观察到不相连的节点被池化到一起。
  另外，我们观察到辅助链接预测目标有助于阻止很远的节点池化到一起。并且，可以使用更复杂的 GNN 聚合函数（诸如高阶矩）来区分结构相似和特征相似的节点，总体的框架保持不变。
- assignment $C$ $C$ ，则 pooling GNN 可以对更复杂的层次结构进行建模，但是会导致更大的噪声和更低的训练效率。
  $C$ 是一个预定义的参数，但是pooling GNN 通过端到端训练来学习使用适当数量的 cluster。具体而言，assignment 矩阵可能不会用到某些簇。对于未被使用的 cluster 对应的矩阵列，它在所有节点上都具有较低的值。例如图2(c) 中，节点主要分配到 3 个簇上。

三十六、DCNN[2016]

与结构化数据打交道是一种挑战。一方面，找到正确的方式来表达和利用数据中的结构可以改善预测性能；另一方面，找到这样的 representation 可能是困难的，而且在模型中添加结构会大大增加预测的复杂性。
论文 《Diffusion-Convolutional Neural Networks》 的目标是为通用的结构化数据设计一个灵活的模型，在提高预测性能的同时避免复杂性的增加。为了实现这一目标，作者引入 "diffusion-convolution"操作，将卷积神经网络扩展到通用的图结构数据。简而言之，diffusion-convolution 操作不是像标准卷积操作那样在网格结构的输入中扫描一个 "正方形"，而是通过在图结构的输入中扫描每个节点的diffusion process 来建立一个 latent representation 。
这个模型的动机是这样的：封装了 graph diffusion 的 representation 可以为预测提供一个比 graph 本身更好的 basis 。 graph diffusion 可以表示为一系列的矩阵幂次从而包含上下文信息，并且可以在多项式时间内计算，以及可以在 GPU 上有效实现。
在论文 《Diffusion-Convolutional Neural Networks》 中，作者提出了 diffusion-convolutional neural network: DCNN ，并探讨了它们在图数据的各种分类任务中的表现。许多技术在分类任务中包括结构信息，如概率关系模型 probabilistic relational model 和核方法 kernel method 。DCNN 提供了一种补充方法，在节点分类任务的预测性能上有了明显的改善。
DCNN 的主要优势：
- 准确性：在实验中，DCNN 在节点分类任务中的表现明显优于其他方法，在图分类任务中的表现与baseline方法相当。
- 灵活性。DCNN提供了一种灵活的图数据表示方法，可以编码节点特征、边特征、以及单纯的结构信息，只需进行少量的预处理。DCNN 可用于图数据的各种分类任务，包括节点分类和图分类。
- 速度快。DCNN 的预测可以表示为一系列的多项式时间的张量运算，并且该模型可以使用现有的库在GPU上有效地实现。
相关工作：
- 其它 graph-based 神经网络方法：其他研究者已经研究了如何将 CNN 从网格结构扩展到更普遍的图结构数据。
  - 《Spectral networks and locally connected networks on graphs》 提出了一种与层次聚类 hierarchical clustering 相联系的空间方法，其中网络的层是通过节点集合的 hierarchical partitioning 来定义的。在同一篇论文中，作者提出了一种谱方法，将卷积的概念扩展到 graph spectra 。
  - 后来，《Deep Convolutional Networks on Graph-Structured Data》将这些技术应用于这样的数据：图并不是立即出现但是必须被推断。
  属于空间类别的 DCNN 与这项工作不同，因为 DCNN 的参数化 parameterization 使模型可以迁移：在一个图上学习的 DCNN 可以应用于另一个图。
- 概率关系模型：DCNN 也与概率关系模型 probabilistic relational model: PRM 有着密切的联系。概率关系模型是一族 graphical model ，能够代表关系数据的分布（《Probabilistic Graphical Models: Principles and Techniques》）。与概率关系模型相比，DCNN 是确定性的，这使得 DCNN 能够避免指数爆炸（指数爆炸阻碍了概率关系模型的学习和推断）。
  我们的研究结果表明：DCNN的表现优于部分观察的条件随机场conditional random field: CRF ，即半监督学习的 SOTA 概率关系模型。此外，DCNN 以相当低的计算成本提供这种性能。学习DCNN 和部分观测的 CRF 的参数需要数值上最小化一个非凸目标：对于 DCNN 来说是反向传播误差，对于 CRF 来说是负的边际对数似然。
  - 在实践中，部分观测的 CRF 的边际对数似然是使用对比分区函数 contrast-of-partition-function 方法来计算的，这需要运行两次循环的信念传播belief propagationstep $O(|\mathcal E_t|\times n_t^{C_t})$ $C_t$ $\mathcal G_t$ 中最大团 maximal clique 的大小。
  - 相比之下，DCNNgraph definition matrix $\mathbf A$ graph design matrix $\mathbf V$ $O(n_t^2\times d)$ 。
  $n_t$ $t$ $\mathcal G_t$ $|\mathcal E_t|$ $\mathcal G_t$ $d$ 为输入特征维度。
- 核方法：核方法kernel method 定义了节点之间（即 kernel on graph ）或图之间（即 graph kernel ）的相似性度量，这些相似性可以作为通过核技巧 kernel trick 进行预测的基础。graph kernel 的性能可以通过将图分解为子结构，将这些子结构视为句子中的一个词，并拟合一个 word-embedding 模型来获得矢量化来提高。
  DCNN 与kernel on graph 的 exponential diffusionexponential diffusion graph kernel $\mathbf K_\text{ED}$ 是一个矩阵幂级数的和：
  $K_{ED} = \sum_{j = 0}^{\infty} \frac{α^{j} A^{j}}{j!} = \exp (α A)$
  $\mathbf Z_t = f\left(\mathbf W^{(c)}\odot\left(\mathbf P_t^{(*)}\mathbf X_t\right)\right)$ diffusion-convolution activation $\mathbf K_\text{ED}$ 有几个重要的区别：
  - $\mathbf Z_t$ 中的权重是通过反向传播学习的，而 kernel representation 不是从数据中学习的。
  - 其次，diffusion-convolution representation是由节点特征和图结构来建立的，而 exponential diffusion kernel 则仅由图结构来建立。
  - representation $\mathbf K_\text{ED}$ $n_t\times n_t$ kernel matrix $\mathbf Z_t$ $n_t\times K\times d$ kernel $K$ 为最大的 K-hop 邻域。

36.1 模型

DCNN 模型建立在扩散核 diffusion kernel 的思想上：基于两个节点之间的所有路径来衡量两个节点的邻近关系，其中路径越短权重越高。
术语 “扩散卷积” 表明网络的三个思想：特征学习feature learning、参数共享、不变性。
- DCNN 的核心是抽取图结构数据的特征。
- DCNN 也用到参数共享，其中共享是发生在扩散搜索深度上diffusion search depth，而不是CNN 的网格位置上。
- DCNN 关于节点索引不变，即两个同构输入图的扩散卷积的 representation 将是相同的。
和CNN 不同，DCNN 没有池化操作。
$T$ $\mathbb G=\{\mathcal G_t\}_{t=1}^T$ $t$ $\mathcal G_t=(\mathcal V_t,\mathcal E_t)$ ，它可以是有向图也可以是无向图、可以是带权重也可以是不带权重的图。其中：
- $\mathcal V_t=\{v_{t,1},\cdots,v_{t,n_t}\}$ $t$ $n_t$ $\mathcal E_t$ $t$ 个图的边集合。
- $\mathbf A_t\in \mathbb R^{n_t\times n_t}$ $t$ $\mathbf D_t=\text{diag}(D_{t,i})$ degree $D_{t,i} = \sum_{j}A_{t,i,j}$ 。
- $\mathbf P_t=\mathbf D_t^{-1}\mathbf A_t$ $P_{t,i,j}$ $t$ $v_{t,i}$ $v_{t,j}$ 的概率。
- $v_{t,i}\in \mathcal V_t$ $\mathbf{\vec x}_{t,i}\in \mathbb R^{d}$ $t$ $\mathbf X_t\in \mathbb R^{n_t\times d}$ 。
- $v_{t,i}$ $y_{t,i}$ $\mathcal G_t$ $y_t$ 。
$K$ $\mathbf P_t^{(K)}\in \mathbb R^{n_t\times n_t}$ $\mathbf P_t$ $K$ 次幂：
$P_{t}^{(K)} = \underset{K}{\underset{⏟}{P_{t} \dots P_{t}}}$
$\mathbf P_t^{(K)}$ $P_{t,i,j}^{(K)}$ $v_{t,i}$ $K$ $v_{t,j}$ 的概率。
$\mathbf P_t^{(*)}\in \mathbb R^{n_t\times K\times n_t}$ $1\cdots K$ $P^{(*)}_{t,i,k,j}=P^{(k)}_{t,i,j}$ $\mathbf P_t^{(*)}$ $v_{t,i}$ $v_{t,j}$ $K$ 步的随机游走概率。
定义扩散卷积为：
$Z_{t, i, k, s} = f (W_{k, s}^{(c)} \times \sum_{j = 1}^{n_{t}} P_{t, i, k, j}^{(*)} X_{t, j, s})$
$i$ $v_{t,i}$ $j$ $v_{t,j}$ $k$ k-hop $s$ 表示特征维度。
$v_{t,i}$ representation $\mathcal G_t$ 中所有节点、所有维度上加权和得到，加权的权重由两部分组成：
- $P^{(k)}_{t,i,j}$ ，它刻画了两个节点之间路径的重要性。
- $W^{(c)}_{k,s}$ ，它在相同维度且相同路径长度的所有位置上共享，即在扩散搜索深度上共享。
以张量形式表示为：
$Z_{t} = f (W^{(c)} ⊙ (P_{t}^{(*)} X_{t}))$
其中：
- $\mathbf W^{(c)}\in \mathbb R^{K\times d}$ 为待学习的参数矩阵。
- $\odot$ 为逐元素的乘积。
- $\mathbf Z_t\in \mathbb R^{n_t\times K\times d}$ 为学到的节点 representation 张量。
$O(K\times d)$ 个参数，与输入图的规模无关。并且学到的参数可以迁移：在一个图上学到的 DCNN 可以应用到另一个图。
$\mathbf W^{(c)}\in \mathbb R^{K\times d}$ $k$ 阶转移概率矩阵来决定。
DCNN 可以用于节点分类或者图分类。
- $\mathbf Z_t$ ，则我们可以后续接 dense 层和 softmax 输出层来进行节点分类。
- $\mathcal G_t$ 中所有节点的激活值取平均，则得到 graph-level 的 representation：
  $R_{t} = f (W^{(c)} ⊙ (\frac{{\vec{1}}^{⊤} P_{t}^{(*)} X_{t}}{n_{t}}))$
  $\mathbf{\vec 1}^\top\in \mathbb R^{1\times n_t}$ 1 $\mathbf R_t\in \mathbb R^{ K\times d }$ $\mathcal G_t$ 的 representation 张量。
  $\mathbf R_t$ ，则我们可以后续接 dense 层和 softmax 输出层来进行图分类。
$\mathbf Z_t,\mathbf R_t$ $K$ 个 hop 的 representationdense $K$ 个 representation 拼接或者相加从而得到 final representation 。
对于没有节点特征的图，可以人工构造节点特征：
- 可以为每个节点构造一个取值为 1.0 的 bias feature。
- 可以使用节点的结构统计信息，如pagerank 值、节点degree 等。
DCNN 局限性：
- 可扩展性scalabilityDCNN $\mathbf P^{(*)}$ $O(n_t^2K)$ 的内存，对于较大的图（如百万级甚至更大的图）可能会导致 out-of-memory:OOM 错误。
  $k$ 阶转移概率矩阵从而降低计算复杂度和内存需求。
- 局部性locality：DCNN 旨在捕获图结构数据中的局部行为。我们是从每个节点开始的、最高 K 阶的扩散过程来构建representation，因此可能无法对长程依赖或者其它非局部行为进行编码。
DCNN 的训练：通过 mini-batch 随机梯度下降来学习。
$\mathcal G_1,\mathcal G_2$ diffusion-convolutional representation $\mathcal G_1,\mathcal G_2$ 是非同构的，则它们的 diffusion-convolutional representation 是不同的。
证明见原始论文。

36.2 实验

实验配置：
- 使用 AdaGrad 算法进行梯度提升，学习率为 0.05 。
- 从均值为0、方差为 0.01 的正态分布随机采样来初始化所有权重。
- tanh $f(\cdot)$ 。
- hinge loss $C$ $i$ $y_i$ $\mathbf{\vec p}_i\in \mathbb R^C$ $i$ 的损失为：
  $\begin{matrix} L_{i} = \sum_{c \neq y_{i}, 1 \leq c \leq C} {\begin{cases} 0, & if (p_{y_{i}} - p_{c}) \geq ϵ \\ ϵ - (p_{y_{i}} - p_{c}), & if (p_{y_{i}} - p_{c}) < ϵ \end{cases} = \sum_{c \neq y_{i}, 1 \leq c \leq C} max (0, ϵ - (p_{y_{i}} - p_{c})) \end{matrix}$
  $\epsilon\gt0$ 为间隔阈值。

36.2.1 节点分类

数据集：Cora,Pubmed 论文引用数据集，每个节点代表一篇论文，边代表论文之间的引用关系，标签为论文的主题subject 。这里我们将引文网络视为无向图。
- Cora 数据集包含 2708 篇论文、5429 条边。每篇论文都分配一个标签，标签来自 7 个可能的机器学习主题。每篇论文都由一个向量表示，向量的每一位对应于是否存在从词典中抽取的 1433 个术语是否存在。
- Pubmed 数据集包含关于糖尿病的 19717 篇论文、44338 条边。论文被分配到三个类别之一。每篇论文都由一个 TFIDF 向量来表示，其中词典大小为 500 （即论文的特征向量维度为 500）。
$\mathbb G$ $\mathcal G$ 组成，输入图的节点随机划分为训练集、验证集、测试集，每个集合具有相同数量的节点。在训练期间，模型可以看到所有节点的特征、所有边、以及训练集和验证集的标签。
我们报告了测试集分类准确率以及 micro-F1 和 macro-F1 ，每个指标为多次实验计算得到的均值。
我们还提供了 CORA 和 Pubmed 数据集的 learning curve，其中验证集和测试集分别包含 10% 的节点，训练集包含剩余节点的 10% ~ 100% 。
baseline 方法：
- l1logistic 和 l2logistic：分别代表 L1 正则化的逻辑回归、L2 正则化的逻辑回归。逻辑回归模型的输入仅仅是节点的特征（并未使用图结构），并使用验证集对正则化参数进行调优。
- KED 和 KLED：分别代表图上的 exponential diffusion kernel 和 Laplacian exponential diffusion kernel 。这些 kernel model 将图结构作为输入（并未使用节点特征）。
- CRF-LBP：表示使用循环信念传播loopy belief propagation:LBP进行推断的、部分观测partially-observed 的条件随机场conditional random field:CRF。该模型的结果来自前人论文的实验结果。
下表给出了实验结果，可以看到：DCNN （K=2 ）提供了最佳性能。
- 下图的 (a),(b) 给出了learning curve，可以看到：在 Cora 数据集上，无论可用的训练数据量如何，DCNN 通常都优于baseline 方法。
- 图(c) 给出 hop 数量的影响。可以看到：随着 hop 数从 0-hop 逐渐增加的过程中，性能先增加然后稳定，在 3-hop 达到收敛。

36.2.2 图分类

数据集：我们采用 NCI1、NCI109、MUTAG、PTC、ENZYMES 等标准的图分类数据集。
- NCI1、NCI109 数据集由代表化合物的 4100 和 4127 个图组成，每个图都标有它是否具有抑制一组人类肿瘤细胞系生长的能力。图中每个节点分类有 37 个（对于 NCI1 ）或 38 个（对于 NCI109）可能的标记之一。
- MUTAG 数据集包含 188 个硝基化合物，被标记为芳族或非芳族化合物。节点包含7 个特征。
- PTC 包含 344 个化合物，被标记为是否对于大鼠致癌。节点包含 19 个特征。
- ENZYMES 包含 600 个蛋白质的图，每个节点包含3 个特征。
输入的图集合随机拆分为训练集、验证集、测试集，每个集合包含数量相等的图，我们报告测试集的准确率、micro-F1 和 macro-F1 。每个指标为多次实验计算得到的均值。
baseline 方法：
- l1logistic 和 l2logistic：分别代表 L1 正则化的逻辑回归、L2 正则化的逻辑回归，它们仅利用节点特征。
- deepwl ：表示 Weisfeiler-Lehman (WL) subtree deep graph kernel ，它仅利用图结构。
下表给出了实验结果，可以看到：和节点分类实验相反，没有明确的最佳模型在所有数据集、所有指标上最优。
我们还提供了 MUTAG（图 (a)）和 ENZYMES（图 (b)）数据集的learning curve ，其中验证集和测试集都分别包含 10% 的图、训练集包含剩余图的 10% ~ 100% 。从下图 (c) 可以看到：扩大hop 数量并没有明显的好处。
这些结果表明：尽管扩散卷积可以得到节点的有效表示，但是它们在 summarize 整个图的representation 方面做得很差。可以寻找一种方法来更有效地聚合节点来改善graph-level 的 representation，这留待以后工作。

三十七、IN[2016]

关于对象object、关系relation、物理physic 的推理reasoning 是人类智能的核心，也是人工智能的主要目标。论文 《Interaction Networks for Learning about Objects, Relations and Physics》 提出了交互网络interaction network:IN模型，该模型可以推理复杂系统中的对象如何交互、支持动态预测dynamical prediction、以及推断系统的摘要属性abstract property（即系统的整体属性，如物理系统的势能）。
IN 结合了三种强大的方法：结构化模型structured model、仿真simulation、深度学习deep learning。
- 结构化模型可以利用对象之间关系的丰富的、显式的知识，这种知识与对象本身无关，从而支持跨各种上下文的通用推理。
- 仿真是近似approximating 动态系统，预测复杂系统中的元素如何受到彼此的交互影响、以及系统动态影响的有效方法。
- 深度学习将通用架构和高效的优化算法结合在一起，可以在具有挑战性的现实环境中提供高可扩展的学习和推断能力。
IN 明确地将对关系的推理与对对象的推理分开，每个任务分配不同的模型，即：以对象为中心的推理object-centric reasoning 、以关系为中心的推理 relation-centric reasoning。这使得 IN 可以自动地将学习泛化到任意数量的、任意顺序的对象和关系，并且还可以通过新颖的、组合的方式重新组合IN学到的、关于对象和关系的知识。
IN 模型将关系作为显式的输入，使得模型可以针对不同的输入数据有选择地处理不同的潜在交互，而不必被迫考虑每种可能的交互，也不必由固定的架构fixed architecture施加特定的交互。
论文评估了IN 在推理几个物理领域的能力：n 体问题n-body problem 、刚体碰撞问题rigid-body collision 、非刚体动力学问题non-rigid dynamics。实验结果表明：可以训练IN 模型从而精确模拟数千个 time step 上数十个对象的物理轨迹。
IN 是第一个通用的、可学习的物理引擎，并且是强大的通用框架，可用于在各种复杂的现实世界领域中进行对象和关系的推理。

37.1 模型

为描述我们的模型，我们以物理系统的推理为例（如下图所示），并从简单的模型构建完整的interaction network:IN 。
- 为了预测单个对象的动力学dynamicsobject-centric function $f_O$ $t$ $\mathbf{\vec o}_t$ $\mathbf{\vec o}_{t+1}$ 。
  $f_O$ 可以独立地应用到每个对象，从而预测它们各自的、未来的状态。
  $f_O$ $f_O$ sender $o_1$ receiver $o_2$ ）。
  如下图所示，一个固定的物体、一个自由移动的质点通过弹簧连接，则固定物体（sender）通过弹簧影响自由质点（receiver）的动力学。
- relation-centric function $f_R$ effect $\mathbf{\vec e}_{t+1}$ $f_R$ $o_1,o_2$ $\mathbf{\vec r}$ $f_O$ $\mathbf{\vec e}_{t+1}$ 。即：
  ${\vec{e}}_{t + 1} = f_{R} ({\vec{o}}_{1, t}, {\vec{o}}_{2, t}, \vec{r}), {\vec{o}}_{2, t + 1} = f_{O} ({\vec{o}}_{2, t}, {\vec{e}}_{t + 1})$
$\mathcal G=(\mathcal O,\mathcal R)$ ，可以将上述公式扩展到更大、更复杂的系统，其中节点对应于对象、边对应于关系。
multigraph $\mathcal G=(\mathcal O,\mathcal R)$ 。多图意味着两个对象之间可以存在多种不同的关系，如刚性作用rigid interaction、磁性作用magnetic interaction。
- $\mathcal O=\{o_1,\cdots,o_n\}$ $n$ 为对象数量。
- $o_i$ $\mathbf{\vec o}_{i } \in \mathbb R^{d_s}$ $\mathbf O\in \mathbb R^{n\times d_s}$ 。
- $o_i$ external effect $\mathbf{\vec x}_i\in \mathbb R^{d_x}$ $\mathbf O\in \mathbb R^{n\times d_x}$ 。
- $\mathcal R=\{R_1,\cdots,R_m\}$ $m$ $j$ $R_j=<o_{j_1},o_{j_2},\mathbf{\vec r}_j>$ sender $o_{j_1}$ receiver $o_{j_2}$ $\mathbf{\vec r}_j\in \mathbb R^{d_r}$ 。
basic IN 模型定义为：
$\begin{matrix} f_{m} (G) = B \in R^{m \times (2 d_{s} + d_{r})}, ϕ_{R} (B) = E \in R^{m \times d_{e}} \\ f_{a} (G, X, E) = C \in R^{n \times d_{c}}, ϕ_{O} (C) = P \in R^{n \times d_{p}} \\ IN (G) = ϕ_{O} (f_{a} (G, X, ϕ_{R} (f_{m} (G)))) \end{matrix}$
其中：
- $f_m(\cdot)$ 为编组函数marshalling function，它将对象及其它们之间的关系重排为三元组向量：
  ${\vec{b}}_{j} = [{\vec{o}}_{j_{1}} | | {\vec{o}}_{j_{2}} | | {\vec{r}}_{j}] \in R^{2 d_{s} + d_{r}}$
  其中 || 表示向量拼接。
  $\mathbf B\in \mathbb R^{m\times (2d_s+d_r)}$ 。
- $\phi_R(\cdot)$ relational model $R_j$ $\mathbf{\vec b}_j$ $f_R(\cdot)$ interaction effect $\mathbf{\vec e}_j$ ：
  ${\vec{e}}_{j} = f_{R} ({\vec{b}}_{j}) \in R^{d_{e}}$
  $\mathbf E\in \mathbb R^{m\times d_e}$ 。
- $f_a(\cdot)$ receiver $o_{i}$ receiver $\left\{\mathbf{\vec e}_j\right\}_{j_r = i}$ $\mathbf{\vec o}_i$ $\mathbf{\vec x}_i$ $\mathbf{\vec c}_i$ :
  ${\vec{c}}_{i} = f_{a} ({{\vec{e}}_{j}}_{j_{r} = i} | | {\vec{o}}_{i} | | {\vec{x}}_{i}) \in R^{d_{c}}$
  $\mathbf{C}\in \mathbb R^{n\times d_c}$ 。
- $\phi_O(\cdot)$ object model $o_i$ $\mathbf{\vec c}_i$ $f_O(\cdot)$ $\mathbf{\vec p}_i$ ：
  ${\vec{p}}_{i} = f_{O} ({\vec{c}}_{i}) \in R^{d_{p}}$
  $\mathbf P\in \mathbb R^{n\times d_p}$ 。
IN $\mathbf P$ $\mathbf O_{t+1}$ 。
还可以使用其它组件来扩展 INabstract inference $\mathbf P$ $g(\cdot)$ $\phi_A(\cdot)$ $\mathbf{\vec q}\in \mathbb R^{d_q}$ 。我们将在实验中使用 IN 预测系统的整体势能从而探索这种变体。
IN $\mathbf{\vec b}_j$ $\mathbf{\vec c}_i$ $f_R$ $f_O$ $f_a$ 函数必须在对象上和关系上是可交换的commutative和关联的associative。使用sum 操作可以满足这个要求，但是除法操作不行。
IN 模型的通用定义和函数、算法的选择无关，这里我们描述了一种易于学习的实现，该实现能够对具有非线性关系和动态的复杂系统进行推理。
$\mathbf R_r\in \mathbb R^{m\times n}$ $m$ 个关系中 receiverone-hot $\mathbf R_s\in \mathbb R^{m\times n}$ $m$ 个关系中 senderone-hot $\mathbf R_a\in \mathbb R^{m\times d_r}$ $m$ $\left\{\mathbf{\vec r}_j\right\}$ 组成的矩阵。
- $f_m(\mathcal G) = \mathbf B=[(\mathbf R_r\mathbf O)||(\mathbf R_s\mathbf O)||\mathbf R_a]\in \mathbb R^{m\times (2d_s+d_r)}$ 。
  即，每个关系的三元组由 receiver 状态、sender 状态、关系属性而组成。
- $\mathbf B$ $f_R$ MLP $\mathbf E$ ：（每一行代表一个关系）
  $\begin{matrix} E = [\begin{matrix} f_{R} ({\vec{b}}_{1}) \\ ⋮ \\ f_{R} ({\vec{b}}_{m}) \end{matrix}] \in R^{m \times d_{e}} \end{matrix}$
- $f_a$ receiver $o_{i}$ receiver $\left\{\mathbf{\vec e}_j\right\}_{j_r = i}$ $\mathbf{\vec o}_i$ $\mathbf{\vec x}_i$ ，即：
  $f_{a} (G, X, E) = C = [O | | X | | (R_{r}^{⊤} E)] \in R^{n \times (d_{c})}$
- $\mathbf C$ $f_O$ MLP $\mathbf P$ ：（每一行代表一个对象）
  $\begin{matrix} P = [\begin{matrix} f_{O} ({\vec{c}}_{1}) \\ ⋮ \\ f_{O} ({\vec{c}}_{n}) \end{matrix}] \in R^{n \times d_{p}} \end{matrix}$
- $\mathbf P$ $\mathbf{\vec p}$ ：
  $\vec{p} = \sum_{i = 1}^{n} {\vec{p}}_{i} \in R^{d_{p}}$
  $\mathbf{\vec p}$ $\phi_A$ MLP $\mathbf{\vec q}\in \mathbb R^{d_q}$ ，它代表系统的一个abstract 的、全局的属性。
IN $\phi_R$ $\phi_O$ $f_m$ $f_a$ 涉及的是不包含可训练参数的矩阵运算。
$\phi_R$ $\phi_O$ 分别在所有关系和所有对象之间共享，因此训练它们是高效的。这类似于 CNN ，由于 CNN 的参数共享使得 CNN 非常高效。
CNN 将局部邻域的像素视为相关的交互实体，每个像素实际上是 receiversender $\phi_R$ $f_R$ 是作用于每个邻域的局部的非线性核函数。skip connectionIN $\mathbf O$ $\phi_R$ $\phi_O$ 的输入。

37.2 实验

我们探索了两种类型的物理推理任务：预测系统的未来状态、估计系统的 abstract 属性（尤其是势能）。
我们在三个复杂的物理领域中进行实验：
- nn-body system $n$ $n(n-1)$ 个关系输入到我们的模型中。
  - 在整个模型过程中，对象的质量各不相同，而所有其它固定属性均保持常量。
  - 训练是在包含 6 个 body 的训练集上进行的，但是测试时我们分别测试了 3-body、6-body、12-body 。
- 弹跳球bouncing ballinverse-mass $n$ $n(n-1)$ 个关系输入到我们的模型中。
  - 碰撞比万有引力更难模拟，并且数据分布更具有挑战性：每个球只有在不到 1% 的时间发生碰撞，其它所有时间都遵循直线运动。因此，该模型必须了解：尽管两个对象之间存在刚性关系，但是仅在它们接触时才存在有意义的、碰撞的相互作用。
  - 对象的属性之间也各不相同，包括形状shape、质量等，以及恢复系数restitution coefficiency （关系的一种属性）。
  - 训练是在装有 6 个球的盒子的训练集上进行的，其中盒子有四种不同尺寸。但是测试时我们分别测试了 3 个球、6 个球、9 个球。
- string $n$ $2(n-1)$ $n$ $2n$ 个关系。
  - 重力加速度是外部输入。
  - 训练是在 15 个质点的线条上进行的。但是测试时我们分别测试了 5 个质点的线条、15 个质点的线条、30 个质点的线条。
  - 在训练时，随机选择线条一端的质点始终保持静止，就好像固定在墙上一行，而其它质点可以自由移动。但是测试时，我们还测试了两端都固定的线条、两端都未固定的线条，从而评估泛化能力。
2D $\{\mathbf O_t\}$ $\mathcal G$ $\mathbf O$ $\mathcal R$ $\mathbf X$ 作为输入。每个对象状态进一步分解为动态状态（如位置、速度），以及静态属性（如质量、大小、形状）。关系属性表示弹簧常数或恢复系数之类的量。输入为当前时刻的系统。
- 预测实验prediction experiment的目标是输出对象在随后 time step 的速度。
- 势能估计实验energy estimation experiment 的目标是当前time step 的势能。
我们还为 prediction experiment 生成了包含未来多个时间步的 rolloutvisually realistic simulation $t$ $v_t$ $t+1$ $v_{t+1}$ 和位置。如下图所示，每一列包含三个 panel，分别代表三个视频帧，每帧代表 1000 个 rollout step。
- 前两列表示n 体系统的真实情况和模型预测、中间两列表示弹跳球的真实情况和模拟预测、最后两列表示线条的真实情况和模拟预测。
- 上方的 pannel 表示对系统进行训练的结果、中间和底部的 pannel 表示模型对于不同大小、结构的系统的泛化：
  - 对于 n 体系统，训练针对 6-body、泛化针对 3-body,12-body。
  - 对于弹跳球，训练针对 6-ball、泛化针对 3-ball,12-ball 。
  - 对于线条，训练针对 15 个质点且固定线条的一端、泛化针对 20 个质点且固定线条的 0 个末端或 2 个末端。
训练集：每个训练、验证、测试数据集都是通过在 1000 个 time step 上仿真 2000 个场景，并随机采样 100万、200k、200k 个单步的 (输入, 目标) 的 pair 对组成。我们报告模型在测试集的性能。
- 模型训练 2000 个 epoch，在每个 epoch 对数据进行随机混洗。
- 我们使用mini-batch 随机梯度下降，batch size = 100，并且数据分布保持平衡使得对象之间有相似的目标统计分布。
- 我们尝试在训练的初始阶段，将少量高斯噪声添加到20%数据的输入位置、速度，然后在 epoch 的 50~250 期间降低到 0% 。噪音的标准差是验证集每个对象相应位置、速度标准差的 0.05 倍。
  它使得模型能够体验物理上不可能由物理引擎生成的状态，并学会将其投影回附近的可能的状态。
  我们报告的误差结果并没有看出有噪音、无噪音结果的明显差异，但是经过噪音训练的模型的 rollout 在视觉上更逼真，并且静态对象在很多step 上的漂移 drift 也较小。
模型架构：
- $f_R,f_O,f_A$ 都使用 MLP，我们通过对隐层维度、层数进行网格搜索从而选择最佳的模型结构。
- 所有训练目标和评估结果都采用预测值和真实直之间的均方误差 MSE 。
baseline：很少有文献可以和我们的模型进行比较。我们考虑几种 baseline：
- 常量速度的 baseline：输出速度和输入速度相同。
- MLP 的 baseline：具有两层的 300 维隐层，将所有输入数据展平为向量从而作为输入。
- $\phi_R$ IN $\mathbf E$ 设置为零矩阵（因此只有对象的状态）。
实验结果：
- prediction experiment：实验结果表明，IN 可以在训练后非常准确地预测下一步动态，其测试误差要比 baseline 低几个量级。每个物理领域的动力学主要取决于对象之间的交互，因此 IN 能够学习利用这些关系进行预测。
  - 没有交互的 IN 变体，其执行方式和效果与恒定速度的baseline 相似。
  - 全连接的基准MLP 理论上可以学习对象之间的交互，但是它不会受益于关系和对象之间的共享学习，而是被迫为每个对象并行地学习交互。
- energy estimation experiment ：实验结果表明，IN 的准确性要高得多。IN 总体上学习了重力势能和弹簧势能函数，并将它们应用于各自物理领域的关系中。