图的表达2

十七、PTE[2015]

学习有意义且有效的文本（例如word、document）的 representation ，是许多机器学习任务（例如文本分类、文本聚类、文本检索）的关键前提条件。传统上，每个word都相互独立地表示，并且每个document都表示为 bag-of-words。然而，这两种representation 都存在数据稀疏、多义性polysemy 、同义性synonymy 等问题，因为在这两种representation 中不同word之间的语义相关性semantic relatedness 通常被忽略。
word和document的分布式representation 通过在低维空间中表达word和document，从而有效地解决了这个问题。在这个低维空间中，相似的word/document彼此紧密地嵌入。这些方法的基本思想来自于分布式假设 distributional hypothesis ：一个单词的意义是由它的使用环境所形成的（you shall know a word by the company it keeps ）。 《Distributed representations of words and phrases and their compositionality》 提出了一种简单而优雅的 word embedding 模型，称作 SkipGram。SkipGram 使用 target word 的 embedding 来预测局部窗口 local window 中每个单独的 context word 的 embedding 。《Distributed representations of sentences and documents》 进一步扩展了这一思想，并提出了 Paragraph Vector 从而嵌入任意的文本片段，例如sentence 和document。其基本思想是：使用 sentence/document 的embedding 来预测 sentence/document 中word的 embedding 。和也利用 word context 的分布式相似性distributional similarity 的其它经典方法（如布朗聚类 Brown clustering、最近邻法）相比，这些 text embedding 方法已被证明是非常有效的，可以在单台机器上扩展到数百万个 document 。
由于采用无监督学习，通过这些 text embedding 模型学到的 representation 足够通用，可以应用于分类classification 、聚类clustering、以及排序ranking 等各种任务。然而，和端到端的复杂的深度学习方法（如卷积神经网络）相比时，text embedding 的性能通常在特定任务上达不到要求。这毫不奇怪，因为深度神经网络在学习数据 representation 时充分利用了可用于任务的 label 信息。大多数 text embedding 方法在学习 representation 时都无法考虑 label 信息。只有在使用训练好的 representation 作为特征来训练分类器时，label 才会被使用。换句话讲，无监督的 text embedding 对于不同的任务是可泛化generalizable 的，但是对于特定任务的预测能力较弱。
尽管存在这一缺陷，但是和深度神经网络相比，text embedding 方法仍有相当大的优势。
- 首先，深度神经网络（尤其是卷积神经网络）的训练是计算密集型的，在处理大量数据的时候通常需要多个 GPU 或 CPU 集群。
- 其次，卷积神经网络通常假设大量的标记样本可用，这在许多任务中是不现实的。对于容易获取的未标记数据，卷积神经网络通常使用预训练的方式来间接利用。
- 第三，卷积神经网络的训练需要多许多超参数进行详尽的调优，即使对于专家而言也是非常耗时的，而对于非专家而言是不可行的。
另一方面，像 SkipGram 这样的 text embedding 方法效率更高、更容易调优、并且天然地适应于未标记数据。
在论文 《PTE:Predictive Text Embedding through Large-scale Heterogeneous Text Networks》 中，作者通过提出 predictive text embedding: PTE 来填补这一空白。PTE 具有无监督 text embedding 的优点，但是在 representation learning 过程中自然地利用了标记信息。通过 PTE，我们可以从有限的标记样本和大量的未标记样本中联合学习有效的低维 representation 。与无监督 embedding 相比，这种 representation 针对特定任务进行了优化，就像卷积神经网络所作的那样。即，PTE 学到的 representation 对特定的分类任务具有很强的预测能力。
PTE 自然地扩展了作者之前的无监督信息网络 embedding 工作（《Line: Large-scale information network embedding》），并首先提出通过异质文本网络heterogeneous text networt 学习word 的低维 embedding 。该网络对 word-word、word-document、word-label 之间不同 level 的共现信息co-occurrence information 进行编码。该网络被嵌入到一个低维向量空间中，该空间保留了网络中顶点之间的二阶邻近性second-order proximity 。任意一段文本（例如 sentence 或 document）的 representation 可以简单地推断为 word representation 的均值，结果证明这是非常有效的。整个优化过程仍然非常高效，在单台机器上可以扩展到数百万个 document 和数十亿个 token 。
论文对现实世界的文本语料库进行了广泛的实验，包括 long document 和 short document 。实验结果表明：PTE 在各种文本分类任务中显著优于 state-of-the-art 的无监督 embedding。与用于文本分类的端到端卷积神经网络相比，PTE 在 long document 上表现更好、在 short document 上表现相当。与卷积神经网络相比，PTE 具有各种优势，因为它更高效、有效地利用大规模未标记数据，并且对模型超参数不太敏感。作者相信PTE 的探索指向了一个学习 text embedding 的方向，该方向可以在特定任务中与深度神经网络进行正面竞争。
总而言之，论文的贡献如下：
- 论文提出以半监督的方式学习 predictive text embedding。未标记数据和标记信息被集成到一个异质文本网络中，该网络包含不同 level 的文本共现信息。
- 论文提出了一种高效的算法 PTE，它通过将异质文本网络嵌入到低维空间中来学习文本的分布式 representation 。该算法非常有效，几乎没有需要调优的超参数。
- 论文使用各种真实世界的数据集进行了广泛的实验，并将 PTE 与无监督 text embedding、卷积神经网络进行了比较。
相关工作：我们的工作主要涉及分布式文本 representation learning 和信息网络 embedding 。
- Distributed Text Embedding：文本的分布式 representation 已被证明在许多自然语言处理任务中非常有效，例如单词类比 word analogy、词性标注 POS tagging、parsing、语言建模 language modeling 、以及情感分析sentiment analysis 。现有的方法通常可以分为两类：无监督方法、监督方法。
  - 最近提出的无监督方法通常通过在局部上下文 local context （例如 SkipGram）或者 document 级别（例如 Paragraph Vector ），利用 word co-occurrence 来学习 word/document 的 embedding 。这些方法非常有效，可以扩展到数百万个 document。
  - 监督方法通常基于深度神经网络架构，例如 recursive neural tensor network: RNTN、convolutional neural network: CNN。在 RNTN 中，每个 word 都嵌入到一个低维向量中，并且通过在 parse tree 中的子短语 sub-phrase 或者 word 上应用相同的、基于张量tensor-based 的组合函数composition function 来递归学习短语 phrase 的 embedding 。在 CNN 中，每个 word 也用一个向量来表示，并且在 sentence 的不同位置的上下文窗口上应用相同的卷积核，然后是一个最大池化层和一个全连接层。
  这两类方法之间的主要区别在于它们如何在 representation learning 阶段利用标记信息和未标记信息。无监督方法在 representation learning 时不包含标记信息，仅在将数据转换为学到的 representation 之后，才使用 label 来训练分类器。RNTN 和 CNN 将 label 直接结合到 representation learning 中，因此学到的 representation 特别针对分类任务进行了调优。然而，为了融合未标记的样本，这些神经网络通常必须使用间接方法，例如使用无监督方法预训练 word embedding 。和这两类方法相比，PTE 以半监督方式学习 text embedding，representation learning 算法直接利用标记信息和大量的未标记数据。
  与 predictive word embedding 类似的另一项工作是 《Learning word vectors for sentiment analysis》，该工作学习特别针对情感分析调优的 word embedding 。然而，他们的方法无法扩展到数百万个 document，也无法推广到其它分类任务。
- Information Network Embedding：我们的工作还与 network/graph embedding 问题有关，因为 PTE 的 word representation 是通过异质文本网络 heterogeneous text network 学到的。
  将 network/graph 嵌入到低维空间，这在各种应用中非常有用，例如节点分类、链接预测。MDS、IsoMap、Laplacian eigenmap 等经典 graph embedding 算法不适用于嵌入包含数百万个顶点、数十亿条边的大型网络。
  最近有一些工作试图嵌入非常大的现实世界网络。《Deepwalk: Online learning of social representations》 提出了一种叫做 DeepWalk 的 network embedding 模型，该模型在网络上使用截断的随机游走，并且仅适用于具有二元边的网络。我们先前的工作提出了一种新的大规模网络嵌入模型，称作 LINE。LINE 适用于任意类型的信息网络，无向或有向、二元边或者带权边。LINE 模型优化了一个目标函数，该目标函数旨在保持局部网络结构 local network structure 和全局网络结构 global network structure 。DeepWalk 和 LINE 都是无监督的，只能处理同质网络homogeneous network 。PTE 使用的 network embedding 算法扩展了 LINE 从而处理异质网络（网络中存在多种类型的顶点和边）。

17.1 模型

17.1.1 基本概念

让我们从正式定义 predictive text embedding 问题（通过异质文本网络）来开始。与学习文本的通用语义representation 的无监督 text embedding 方法（包括 SkipGram 和 Paragraph Vector ）相比，我们的目标是学习针对给定文本分类任务优化的文本 representation 。换句话讲，我们期待 text embedding 对给定任务的性能具有很强的预测能力。基本思想是：在学习 text embedding 时结合标记信息和未标记信息。为了实现这一点，首先需要有一个统一的 representation 对这两类信息（标记的和未标记的）进行编码。在本文中，我们提出了不同类型的网络来实现这一点，包括 word-word co-occurrence network、word-document network、word-label network 。
word-word co-occurrence networkword-word $G_{w,w} = (\mathcal V, \mathcal E_{w,w})$ ，它捕获了未标记数据的局部上下文local contextword $\mathcal V$ 为 wordvocabulary $\mathcal E_{w,w}$ 为 wordword $v_i$ $v_j$ $w_{i,j}$ 定义为：这两个word 在给定窗口大小的上下文窗口中同时出现的次数。
word-word 网络捕获局部上下文中的 word 共现，这是现有 word embedding 方法（如 SkipGram ）使用的基本信息。除了局部上下文之外，document level 的 word 共现也在经典的文本 representation 中被广泛探索，例如统计主题模型 statistical topic model（如 latent Dirichlet allocation: LDA）。为了捕获 document level 的 word 共现，我们引入了另一个网络，即 word-document 网络。
word-document networkword-document $G_{w,d} = ( \mathcal V\cup \mathcal D , \mathcal E_{w,d})$ $\mathcal D$ document $\mathcal V$ word $\mathcal E_{w,d}$ 为 word 到 documentword $v_i$ document $d_j$ $w_{i,j}$ word $v_i$ document $d_j$ 中的频次。
word-word 网络和 word-document 网络对大规模语料库中的未标记信息进行编码，在局部上下文 level 和 document level 捕获 word 共现。为了对标记信息进行编码，我们引入了 word-label 网络，该网络在 category-level 捕获 word 共现。
word-label networkword-label $G_{w,l} = (\mathcal V\cup \mathcal L,\mathcal E_{w,l})$ $\mathcal L$ class $\mathcal V$ word $\mathcal E_{w,l}$ 为 wordclass $G_{w,l}$ 捕获了 category-level 的 wordword $v_i$ class $c_j$ $w_{i,j}$ $w_{i,j} = \sum_{(d:l_d = j)} n_{d,i}$ $n_{d,i}$ document $d$ word $v_i$ $l_d$ document $d$ 的 class label 。
上述三种网络可以进一步融合为一个异质文本网络heterogeneous text network （如下图所示）。
Heterogeneous Text Network：异质文本网络是由标记文本数据和未标记文本数据共同构建的 word-word 网络、word-document 网络、word-label 网络的组合。它捕获不同 level 的 word 共现，并同时包含标记信息和未标记信息。
注意，异质文本网络的定义可以推广到融合其它类型的网络，例如 word-sentence 网络、word-paragraph 网络、document-label 网络等等。在这项工作中，我们使用三种类型的网络（word-word、word-document、word-label）作为说明性示例。我们特别关注 word 网络，以便首先将 word 表示为低维空间。然后可以通过聚合 word representation 来计算其它文本单元（如 stentence 或 paragraph）的 representation 。
子网的构建需要结合具体任务，并且对任务性能产生重大影响。但是论文并未给出子网构建的原则。可以借鉴的是：这里的 word-word 捕获局部共现、word-document 捕获全局共现。
最后，我们正式定义 predictive text embedding 问题如下：
Predictive Text Embedding：给定具有标记信息和未标记信息的大量文本数据，predictive text embedding 问题旨在通过将由文本数据构建的异质文本网络嵌入到低维向量空间中从而学习 word 的低维 representation 。
接下来我们将介绍通过异质文本网络学习 predictive text embedding 的方法。我们的方法首先将异质文本网络嵌入到低维空间来学习 word 的向量 representation ，然后根据学到的 word embedding 推断 text embedding 。由于异质文本网络由三个二部图组成，我们首先介绍一种嵌入单个二部图的方法。

17.1.2 二部图 Embedding

在我们之前的工作中，我们引入了 LINE 模型来学习大规模信息网络的 embedding。LINE 主要是为同质网络而设计的，即具有相同类型节点的网络。LINE 无法直接应用于异质网络，因为不同类型边的权重不具有可比性。在这里，我们首先将 LINE 模型用于嵌入二部图。基本思想是：利用顶点之间的二阶邻近性，假设具有相似邻域的顶点彼此相似，因此应该在低维空间中紧密地表示。
$A$ $B$ $A$ $B$ 的顶点类型相同。
$G=(\mathcal V_A\cup \mathcal V_B, \mathcal E)$ $\mathcal V_A$ $\mathcal V_B$ $\mathcal E$ $\mathcal V_B$ $v_j$ $\mathcal V_A$ $v_i$ 的条件概率定义为：
$p (v_{i} ∣ v_{j}) = \frac{\exp ({\vec{u}}_{i} \cdot {\vec{u}}_{j})}{\sum_{v_{i}^{'} \in V_{A}} \exp ({\vec{u}}_{i^{'}} \cdot {\vec{u}}_{j})}$
$\mathbf{\vec u}_i$ $\mathcal V_A$ $v_i$ embedding $\mathbf{\vec u}_j$ $\mathcal V_B$ $v_j$ 的 embedding 向量。
$\mathcal V_B$ $v_j$ $\mathcal V_A$ $p(\cdot\mid v_j)$ $\mathcal V_B$ $v_j,v_{j^\prime}$ second-order proximity $p(\cdot\mid v_j)$ $p(\cdot\mid v_{j^\prime})$ $p(\cdot\mid v_j)$ $\hat p (\cdot\mid v_j)$ ，这可以通过最小化以下目标函数来实现：
$O = \sum_{v_{j} \in V_{B}} λ_{j} dist (\hat{p} (\cdot ∣ v_{j}), p (\cdot ∣ v_{j}))$
其中：
- $\text{dist}(\cdot,\cdot)$ 为两个分布之间的距离函数，这里采用 KL-divergence 函数。
- $\lambda_j$ $v_j$ degree $\text{deg}_j = \sum_i w_{i,j}$ 。
- $\hat p (\cdot\mid v_j)$ $\hat p (v_i\mid v_j) = \frac{w_{i,j}}{\text{deg}_j}$ 。
忽略常数项，则上述目标函数重写为：
$O = - \sum_{(v_{i}, v_{j}) \in E} w_{i, j} \log p (v_{i} ∣ v_{j})$
我们可以采用带边采样edge sampling 和负采样 nagative sampling 的随机梯度下降法来求解该最优化问题。在梯度下降的每一步：
- $w_{i,j}$ binary edge $e=(v_i,v_j)$ ，即 edge sampling 。
- noise distribution $p_n(j)$ 来随机采样若干条负边，即 nagative sampling 。
采样过程解决了学习 network embedding 中随机梯度下降的重大缺陷。详细的优化过程可以参考 LINE 的原始论文。
word-word 网络、word-document 网络、word-label 网络的 embeddingword-word $\mathcal V_A$ $\mathcal V_B$ $p(v_i\mid v_j), p(v_i\mid d_j),p(v_i\mid l_j)$ ，然后通过优化目标函数来学习 embedding 。

17.1.2 异质文本网络 Embedding

异质文本网络由三个二部图组成：word-word 网络、word-document 网络、word-label 网络，其中 word 顶点在三个网络之间共享。为了学习异质文本网络的 embedding，一种直观的方法是共同嵌入三个二部图，这可以通过最小化以下目标函数来实现：
$\begin{matrix} O_{pte} = O_{w, w} + O_{w, d} + O_{w, l} \\ O_{w, w} = - \sum_{(v_{i}, v_{j}) \in E_{w, w}} w_{i, j} \log p (v_{i} ∣ v_{j}) \\ O_{w, d} = - \sum_{(v_{i}, v_{j}) \in E_{w, d}} w_{i, j} \log p (v_{i} ∣ d_{j}) \\ O_{w, l} = - \sum_{(v_{i}, v_{j}) \in E_{w, l}} w_{i, j} \log p (v_{i} ∣ l_{j}) \end{matrix}$
上述目标函数可以通过不同的方式进行优化，具体取决于如何使用标记信息（即 word-label 网络）。
- 一种解决方案是同时使用未标记数据（word-word 网络和 word-document 网络）和标记数据训练模型。我们称这种方法为联合训练 joint training 。
- 另一种解决方案是首先使用未标记数据来学习 embedding，然后使用 word-label 网络来微调 embedding 。这是受到深度学习文献中预训练和微调 pre-training and fine-tuning 思想的启发。
$O_\text{pte}$ $\mathcal E_{w,w},\mathcal E_{w,d},\mathcal E_{w,l}$ 中的所有边，然后执行边采样 edge sampling （在每个 step 中对边进行采样从而进行模型更新，采样概率与边的权重成正比）。然而，当网络是异质的时候，不同类型顶点之间的边的权重是不可比的。更合理的解决方案是从三组边中交替采样。
PTE 联合训练算法：
- 输入：
  - $G_{w,w},G_{w,d},G_{w,l}$
  - $T$
  - $K$
- embedding $\mathbf U$
- 算法步骤：
  $T$ 个 step 。迭代过程为：
  - $\mathcal E_{w,w}$ $K$ 个负边，更新 word embedding 。
  - $\mathcal E_{w,d}$ $K$ 个负边，更新 word embedding 和 document embedding 。
  - $\mathcal E_{w,l}$ $K$ 个负边，更新 word embedding 和 label embedding 。
PTE 预训练和微调算法：
- 输入：
  - $G_{w,w},G_{w,d},G_{w,l}$
  - $T$
  - $K$
- embedding $\mathbf U$
- 算法步骤：
  $T$ 个 step 。迭代过程为：
  - $\mathcal E_{w,w}$ $K$ 个负边，更新 word embedding 。
  - $\mathcal E_{w,d}$ $K$ 个负边，更新 word embedding 和 document embedding 。
  $T$ 个 step 。迭代过程为：
  - $\mathcal E_{w,l}$ $K$ 个负边，更新 word embedding 和 label embedding 。
Text Embedding：异质文本网络对不同 level 的 word co-occurrence 进行编码，这些编码是从未标记数据和特定分类任务的标记信息中提取的。因此，通过嵌入异质文本网络学习的 word representation 不仅更加鲁棒，而且针对该特定任务进行了优化。一旦学到了 word vector，就可以通过简单地对这段文本中 wordrepresentation $d=\{w_1,w_2,\cdots,w_n\}$ 的向量 representation 可以计算为：
$\vec{d} = \frac{1}{n} \sum_{i = 1}^{n} {\vec{u}}_{i}$
$\mathbf{\vec u}_i$ word $w_i$ 的 embedding 向量。
事实上，word embedding 的均值是最小化以下目标函数的最优解：
$O = \sum_{i = 1}^{n} loss ({\vec{u}}_{i}, \vec{d})$
$\text{loss}(\cdot,\cdot)$ 为 word embedding 和 text embedding 之间的、欧式距离的损失函数。
与之相关的是 paragraph vector 的推断过程，它的目标函数相同但是具有不同的损失函数：
$loss ({\vec{u}}_{i}, \vec{d}) = \frac{1}{1 + \exp (- {\vec{u}}_{i} \cdot \vec{d})}$
然而这个损失函数对应的目标函数没有闭式解close form solution ，因此必须通过梯度下降算法来优化。

17.2 实验

数据集：我们选择了长文document、短document两种类型的数据集：
- 长document数据集：
  - 20newsgroup 数据集：广泛使用的文本分类数据集，包含 20 个类别。
  - wiki 数据集：2010年 4 月的维基百科数据集，包含大约 200 万篇英文文章。我们仅保留 2010 年维基百科中出现的常见词汇。我们选择了七种不同类别，包括 Art, History, Human, Mathematics, Nature, Technology, Sports 。每种类别我们随机选择 9000 篇文章作为标记的document 来训练。
  - Imdb 数据集：一个情感分类数据集。为避免训练数据和测试数据之间的分布偏差，我们随机混洗了训练数据和测试数据。
  - RCV1 数据集：一个大型文本分类基准语料库。我们从数据集中抽取了四个子集，包括 Corporate, Economics, Government, Market 。在 RCV1 数据集中，文档已经被处理为 bag-of-word: BOW 的格式，因此 word 的顺序已经被丢失。
- 短document数据集：
  - DBLP 数据集：包含来自计算机科学领域论文的标题。我们选择了六个领域的论文，包括 database, articial intelligence, hardware, system, programming languages, theory 等。对于每个领域，我们选择该领域具有代表性的会议并收集该会议中发表的论文作为标记的 document 。

MR 数据集：一个电影评论数据集，每条评论仅包含一个 sentence 。
- Twitter 数据集：用于情感分类的 Tweet 语料库。我们从中随机抽取了 120 万 Tweets 然后拆分为训练集和测试集。

我们并没有在原始数据上执行进一步的文本归一化text normalization ，如删除停用词或者词干化。下表给出了数据集的详细统计信息。

baseline 方法：我们将 PTE 算法和其它的文本数据 representation learning 算法进行比较，包括经典的 BOW 算法、 state-of-the-art 的无监督 text embedding 、以及 state-of-the-art 的监督 text embedding 方法。
- BOWBOW $|\mathcal V|$ $i$ word $v_i$ 的 TFIDF 值。
- SkipGram：根据 SkipGram 训练得到 word embedding，然后我们使用word embedding 的均值来作为 document embedding 。
- PVDBOW：一种 paragraph embedding 模型，其中document内word 的顺序被忽略。
- PVDM ：另一种paragraph embedding 模型，其中document内word 的顺序被考虑。
- LINE：我们之前的工作提出的大规模信息网络 embedding 模型。我们使用 LINE 模型分别学习 word-wordword-dococument $\text{LINE}(G_{w,w}),\text{LINE}(G_{w,d})$ 。另外，我们也考虑联合学习 word-wordword-document $\text{LINE}(G_{w,w},G_{w,d})$ 。
- CNN：基于卷积神经网络 CNN 模型来监督学习 text embedding。尽管原始论文用于建模sentence，我们这里将其改编为适用于长文本在内的一般word 序列。尽管CNN 通常适用于完全标记的 documnet，但是它也可以通过无监督的 word embedding 从而对模型进行预训练来利用未标记数据，这被记作 CNN(pretrain)。
- PTE：我们提出的、学习predictive text embedding 的方法。PTE 有多种变体，它们使用 word-word、word-document、word-label 的不同组合。
  - $\text{PTE}(G_{w,l})$ 为仅使用 word-label 的版本。
  - $\text{PTE}(G_{w,w}, G_{w,l})$ 为使用 word-word 和 word-label 的版本。
  - $\text{PTE}(G_{w,d},G_{w,l})$ 为仅使用 word-document 和 word-label 的版本。
  - $\text{PTE(pretrain)}$ 为使用 word-word 、word-document 进行无监督训练，然后使用 word-label 来微调的版本。
  - PTE(joint) 为联合训练异质文本网络的版本。
实验配置：
- SkipGram, PVDBOW, PVDM, PTE, PTE 模型：
  - 随机梯度下降的 mini-batch size 设为 1。
  - $\rho_t = \rho_0(1-t/T)$ T $\rho_0 = 0.025$ 。
  - 负采样次数为 K=5。
- SkipGram, PVDBOW, PVDM, PTE 模型：word-word 网络共现窗口大小为 5 。
- CNN 模型：我们使用 《Convolutional neural networks for sentence classication》 中的 CNN 结构。该结构使用一个卷积层，然后是最大池化层和全连接层。卷积层的窗口大小设为 3，feature map 数量设为 100，随机选择训练集的 1% 作为验证集来执行早停。
- 所有embedding 模型的词向量维度为 100 。
PTE $T$ ，它可以较为安全地设为较大的值。
评估方式：一旦构建或学习了 document 的向量representation，我们就会使用相同的训练数据集应用相同的分类过程。具体而言，训练集中的所有文档都用于 representation learning 阶段和classifier learning 阶段。
- 如果使用无监督 embedding 方法，则在 representation learning 阶段不使用 document 的类别标签，仅在classifier learning 阶段使用类别标签。
- 如果使用 predictive embedding 方法，则同时在这两个阶段都使用类别标签。
对于测试数据集，我们在这两个阶段都留出 hold-out 标签数据和 document 文本。
注意：在 representation learning阶段保留所有测试数据，即这一阶段模型看不到测试数据的标签、也看不到测试数据的文本。
在分类阶段，我们使用 LibLinear package 中的 one-vs-rest 逻辑回归模型，并评估 micro-F 和 macro-F1 指标。每一种配置我们都执行十次，并报告指标的均值和方差。

17.2.1 实验结果

我们在 20NG,Wiki,IMDB 数据集上的长文本效果对比如下。
首先我们比较无监督 text embedding 方法，可以看到：
- 具有 document-levelword $\text{LINE}(G_{w,d})$ 的效果，在无监督 embedding 中表现最好。
- PVDM 性能不如 PVDBOW，这和原始论文中的结论不同。不幸的是我们始终无法得出他们的结论。
然后我们比较 predictive embedding 方法，可以看到：
- $\text{PTE}(G_{w,d},G_{w,l})$ 或者PTE(joint) 效果最好。
- 所有带 word-label 网络PTE 方法都超越了对应的无监督方法（即 LINE 模型），这表明了在监督学习下 predictive text embedding 的强大能力。
- PTE(joint) $\text{PTE}(G_{w,l})$ ，这表明了使用未标记数据可以显著改善监督学习的质量。
- PTE(joint) 也超越了PTE(pretrain)，这表明联合训练未标记数据和标记数据，要比将它们分别独立训练并微调更有效。
- $\text{LINE}(G_{w,l} + G_{w,d})$ 学到的单词 embedding 来对 CNN进行预训练，然后使用 label 信息对其进行微调。出乎意料的是：预训练 CNN 在 20NG 和 IMDB 数据集上显著提高，并且在 Wiki 上几乎保持不变。这意味着训练良好的无监督 embedding 对 CNN 进行预训练非常有用。
- 但是，即使是预训练的 CNN，其性能仍然不如 PTE(joint) 。这可能的因为 PTE 模型可以联合训练标记数据和未标记数据，而 CNN 只能通过预训练和微调两阶段来各自独立的使用标记数据和未标记数据。
- PTE(joint) 也始终优于经典的 BOW 模型，尽管 PTE(joint) 的 embedding 向量维度远小于 BOW 的向量维度。
我们在 RCV1 数据集上的长文本效果对比如下。由于word 之间的顺序丢失，因此要求保留word 顺序信息的 embedding 方法不适用。这里我们观察到了类似的结论：
- predictive embedding 方法超越了无监督 embedding 。
- PTE(joint) 方法比 PTE(pretrain) 方法更有效。
我们比较了 CNN 和 PTE(joint) 在 IMDB 数据集上的训练实践。我们采用异步随机梯度下降算法，在 1T 内存、2.0G HZ的 40 核 CPU 上执行。平均而言 PTE(joint) 要比 CNN 快 10 倍以上。当使用 pretrain 时，CNN 虽然训练速度加快，但是仍然比 PTE(joint) 慢 5倍以上。
我们在短文本上比较了模型性能如下。
首先我们比较无监督 text embedding 方法，可以看到：
- 结合了 document-level 和local-context levelword $\text{LINE}(G_{w,w},G_{w,d})$ 效果最好。
- word $\text{LINE}(G_{w,w})$ 要优于使用documentword $\text{LINE}(G_{w,d})$ 。这和长文本实验中结论相反。这是因为在短文本中，document 级别的 word 共现非常稀疏。我们在主题模型中也观察到了类似的结果。
- PVDM 性能仍然不如 PVDBOW 性能，这和长文本中结论一致。
然后我们比较 predictive embedding 方法，可以看到：
- PTE 在 DBLP,MR 数据集上性能最佳，CNN 在 Twitter 数据集上性能最好。
- 融合了word-label 网络的 PTE 方法超越了对应的无监督embedding 方法(即 LINE 模型)，这和长文本中结论一致。
- PTE(joint) $\text{PTE}(G_{w,l})$ ，这证明了融合未标记数据的有效性。
- PTE(joint) 超越了 PTE(pretrain)，这证明了对标记数据和未标记数据联合训练的优势。
- 我们观察到 PTE(joint) 并不能始终超越 CNN。原因可能是单词歧义 ambiguity 问题，这类问题在短文本中更为严重。
  CNN 通过在卷积核中使用局部上下文的word 顺序来减少单词歧义问题，而 PTE 抛弃了word 顺序。我们相信：如果利用了word 顺序，则 PTE 还有很大提升空间。

17.2.2 标记数据 & 未标记数据

我们考察标记样本规模的变化对 CNN 和 PTE 的影响。我们考虑两种模式：
- $\text{PTE}(G_{w,l})$ 、CNN 。
- 半监督学习：包含未标记数据。如 PTE(joint)、CNN 等。
在半监督学习中，我们还比较了经典的半监督方法：带 EM 的朴素贝叶斯NB+EM、标签传播算法 label propagation:LP 。
可以看到：
- CNN 和 PTE 随着标记数据规模的增加，性能持续改善。
- CNN $\text{PTE}(G_{w,l})$ $\text{PTE}(G_{w,l})$ 均优于CNN 或可与 CNN 媲美。
- 在半监督学习的 CNN(pretrain) 和 PTE(joint) 之间，PTE(joint) 始终优于 CNN(pretrain)。
- PTE(joint) 还始终优于经典的 NB+EM 和 LP 方法。
另外我们还注意到：
- 当标记数据规模不足时，使用无监督 embedding 的预训练 CNN非常有效，尤其是在短文本上。当训练样本太少时，它甚至优于所有的 PTE 。
- 当标记数据规模增加时，预训练 CNN 并不总是能够改善其性能，如 DBLP 和 MR 数据集。
- 对于 SkipGram 模型，增加标记数据规模几乎不会进一步改善其性能。
- 在 DBLP 数据集上，当标记样本太少时 PTE 性能甚至不如 SkipGram 。原因是当标记数据太少时，word-label 网络的噪音太多。PTE 将 word-label 网络与噪音较少的 word-word, word-document 网络同等对待。一种解决办法是：在标签数据不足时，调整 word-label, word-word, word-document 网络的采样概率。
我们考察未标记数据规模的变化对 CNN(pretrain) 和 PTE 的影响。由于篇幅有限，这里我们仅给出 20NG 和 DBLP 数据集的效果。对于 CNN，未标记数据可用于预训练。对于 PTE，未标记数据可用于预训练或联合训练。
在 20NG 数据集上，我们使用 10% 文档作为标记数据，剩余文档作为未标记数据；在 DBLP 数据集上，我们随机抽取其它会议发表的 20 万篇论文的标题作为未标记数据。
$\text{LINE}(G_{w,w},G_{w,d})$ 作为 CNN 的预训练模型。可以看到：
- 当未标记数据规模增加时，CNN 和 PTE 性能都有改善。
- 对于 PTE 模型，未标记数据和标记数据联合训练的效果要优于“预训练和微调”的方式。

17.2.3 参数敏感性与可视化

PTE 模型除了训练步数 T 之外，大多数超参数对于不同训练集都是不敏感的（如学习率、batch size ），所以可以使用默认配置。
我们在 20NG 和 DBLP 数据集上考察了 PTE(joint) 对于参数 T 的敏感性。可以看到：当 T 足够大时，PTE(joint) 性能会收敛。
实际应用中，我们可以将 T 的数量设置称足够大。经验表明：T 的合理范围是异质文本网络中所有边的数量的几倍。
embedding $\text{LINE}(G_{w,d})$ predictive embedding $\text{PTE}(G_{w,l})$ 为代表）在 20NG 数据集上采用 tSNE 可视化的结果。
我们对训练集和测试集的文档均进行了可视化，其中 document embedding 为document 内所有word embedding的均值。可以看到：在训练集和测试集上，predictive embedding 均比无监督 embedding 更好地区分了不同的类别。这直观表明了 predictive embedding 在文本分类任务中的强大能力。

17.2.4 讨论

无监督 embedding 使用的基本信息是局部上下文级别或者document级别的word 共现。
- 在长文本中，我们可以看到document级别的word 共现比局部上下文级别的word 共现效果更好，并且二者的结合并不能进一步改善效果。
- 在短文本中，局部上下文级别的word 共现比document级别的word 共现效果更好，并且二者的结合可以进一步改善效果。这是因为document级别的word 共现受到文本长度太短的困扰，即文本太稀疏。
predictive embedding 中：
- 与 PTE 相比， CNN 模型可以更有效地处理标记信息，尤其是在短文本上。这是因为 CNN 的模型结构比 PTE 复杂得多，尤其时 CNN 可以在局部上下文中利用词序从而解决word 的歧义问题。因此，在标记数据非常稀疏的情况下，CNN 可以超越 PTE，尤其是在短文本上。但是这个优势是以大量的计算、详尽的超参数调优为代价的。
- 与 CNN 相比，PTE 训练速度更快、超参数调整更容易（几乎没有需要调整的超参数）。当标记数据更为丰富时，PTE 的性能至少和 CNN 一样好并且通常更好。
  PTE 模型的一个明显优势是它可以联合训练标记数据和未标记数据。相比之下 CNN 只能通过预训练来间接利用未标记数据。当标记数据非常丰富时，这种预训练并不总是有帮助的。
实践指南：基于上述讨论，我们提供以下实践指南。
- 当没有标记数据时：
  - $\text{LINE}(G_{w,d})$ 来学习无监督 text embedding 。
  - $\text{LINE}(G_{w,w},G_{w,d})$ 来学习无监督 text embedding 。
- 当只有少量标记数据时：
  - 在长文本上使用 PTE 来学习text embedding 。
  - CNN(pretrain) $\text{LINE}(G_{w,w},G_{w,d})$ 。
- 当有大量标记数据时：
  - 在长文本上使用 PTE(joint) 来学习 text embedding 。
  - 在短文本上从 PTE(joint)、CNN 或者 CNN(pretrain) 三者之间选择，其中主要考虑训练效率和模型效果之间的平衡。
未来方向：PTE 中考虑 word 的词序。

十八、HNE[2015]

向量化的 data representation 经常出现在许多数据挖掘 application 中。向量化的 data representation 更容易处理，因为每个数据都可以被视为驻留在欧式空间中的一个 point 。因此，可以通过一个合适的指标来直接衡量不同 data point 之间的相似性，从而解决分类、聚类、检索等传统任务。如 《Data Classification: Algorithms and Applications》 所示，学习良好的 representation 是数据挖掘和 web 搜索中的基本问题之一。与设计更复杂的模型相比，学习良好的 representation 对任务效果的影响通常更大。
不幸的是，许多network 数据源（如 Facebook, YouTube, Flickr, Twitter）无法自然地表示为向量化的输入。这些社交网络和社交媒体数据通常以图数据 graph data 和关系数据 relational data 二者组合的形式来表示。当前的研究集中在预定义pre-defined 的特征向量、或者复杂的 graph-based 的算法来解决底层任务。人们在各种主题上完成了大量的研究，例如协同分类 collective classification、社区检测community detection 、链接预测link prediction 、社交推荐social recommendation 、定向广告targeted advertising 等等。对于内容和链接而言，网络数据network data 以 embedding 形式开发的 unified representation 非常重要。 unified representation 的基本假设是：一旦获得向量化的 representation，网络挖掘任务就可以很容易地通过现有的机器学习算法来解决。
然而，网络数据的 feature learning 并不是一项简单的任务，因为网络数据具有许多特有的特性，例如网络的规模、动态性、噪声、以及异质性heterogeneity 。首先，社交网站上的多媒体数据量呈指数级增长。到 2011 年年中，Facebook 上的照片估计数量已达 1000 亿张，并且每天上传的新照片数量高达 3.5 亿张。其次，鉴于用户的不同背景background ，社交媒体往往噪音很大。而且研究人员注意到，垃圾邮件发送者产生的数据比合法用户更多，这使得网络挖掘更加困难。最后，社交媒体数据包含多样diverse 的、异质的信息。例如，当事件发生时，不同类型的媒体数据都会进行报道。如下图所示，当在谷歌中搜索 “马航 MH17” 时，相关结果中不仅包含文本文档，还包含图像和视频。
此外，社交媒体数据不是孤立存在的，而是由各种类型的数据组合而成的。这些交互可以通过它们之间的链接显式或隐式地形成。例如，在同一网页中同时出现的图像和文本提供了它们之间的显式链接，而文本到文本的链接是通过不同 web document 之间的超链接显式形成的。另一方面，用户的交互活动可以被视为隐式反馈，它链接了不同的社交媒体部分social media component 。如果用户以相似的标签tag 描述多张图像，那么一个合理的假设是：这些图像之间存在语义关系。很明显，如此庞大的数据量导致了复杂的异质网络，这给学习 uniform representation 带来了巨大的挑战。
为了应对上述挑战，论文 《Heterogeneous Network Embedding via Deep Architectures》 提出了一种关于 network representation learning 的新思想，称作 Heterogeneous Network Embedding: HNE 。HNE 同时考虑了内容信息 content information 和关系信息relational information 。HNE 将不同的异质对象映射到一个统一unified 的潜在空间中，以便可以直接比较来自不同空间的对象。
与传统的线性 embedding 模型不同，HNE 将 feature learning 过程分解为深层的多个非线性层。HNE 通过迭代求解关于 feature learning 和 objective minimization 的问题，从而协调并相互加强这两个部分。HNE 同时建模了底层网络的全局链接结构global linkage structure 和局部链接结构local linkage structure，这使得它在捕获网络链接方面比浅层 embedding 方案更强大，特别是当链接信息在揭示不同对象之间的语义相关性方面起关键作用时。沿着这个研究方向，论文利用网络链接来设计一个损失函数，从而迫使网络中存在链接的不同对象在 embedding 空间是相似的。network-preserved embedding 的思想如下图所示。
事实上根据 HNE 的模型公式，HNE 仅建模了局部链接结构（即，保留一阶邻域），并未建模全局链接结构。
HNE 框架的主要优点如下：
- 鲁棒性：HNE 探索不同异质对象之间的全局一致性 global consistency ，从而学习由网络结构指导 guide 的unified feature representation 。
- 无监督：HNE 是无监督并且独立于任务的，这使其适用于许多面向网络的数据挖掘 application 。
- out-of-sample：HNE 能够处理 out-of-sample 问题（即 unseen 顶点）。这解决了动态网络相关的挑战，其中随着时间的推移可能会在网络中添加新顶点。
相关工作：
- Network Embedding：feature embedding 的一个分支是由网络中的协同过滤和链接预测等 application 所推动的。这些 application 根据潜在属性对实体之间的关系进行建模。这些模型通常将问题迁移 transfer 为学习实体的 embedding，这在数学上对应于对观察到的关系矩阵的矩阵分解问题。
  - 《Combining content and link for classification using matrix factorization》 提出了一种在链接邻接矩阵linkage adjacency matrix 和 document-term frequency 矩阵上联合分解的方法，从而用于网页分类。
  - 此外，《Structure preserving embedding》 提出了一种 structure preserving 的 embedding 框架，该框架将图嵌入到低维欧式空间中，并保持了全局拓扑属性。
  - 此外，DeepWalk 从截断的随机游走中学习网络中顶点的潜在 representation。
  然而，这些模型仅关注单一关系single relation，这无法应用于异质网络。而且这些模型中的大多数很难泛化到 unseen sample （即训练期间未见过的顶点）。
  这些方法对异质网络的自然扩展是将多个关系矩阵堆叠在一起，然后应用传统的张量分解。这种 multi-relational embedding 的缺点是不同 term 之间共享参数，这无法扩展到大型网络。《Latent feature learning in social media network》 提出的非线性 embedding 模型使用 Restricted Boltzmann Machine: RBM 进行跨模型链接分析 crossmodel link analysis 。但是，它没有利用原始数据中的所有社交信息，这导致了次优的解决方案。此外，计算机视觉和语音方面的工作表明，与 DNN 和 CNN 相比，layer-wise 的 RBM 训练对于大规模数据而言效率低下。
- 深度学习：近年来，机器学习研究已经从基于人工制作的特征显著转向为基于原始数据学到的特征，这主要归功于深度学习的成功。深度学习模型在语音识别、图像识别/检测、以及最近的自然语言处理中变得越来越重要。深度学习技术是通用函数的逼近器approximator。然而，从历史上来看，训练具有两层以上隐层的深度神经网络很难成功。困难在于高维的参数空间、以及高度非凸的目标函数，这使得基于梯度的方法受到局部极小值的困扰。
  深度学习的最新进展得益于多种因素的推动，例如大规模数据集的使用、算力的增长、以及无监督和监督训练算法的进步。
  - 无监督深度学习（通常被称为预训练 pre-training），借助大量可用的未标记数据来提供鲁棒的初始化和正则化。例如，《Reducing the dimensionality of data with neural networks》 首次使用 RBM 对深度神经网络进行 layer-wise 初始化。《Greedy layer-wise training of deep network》 也提出了类似的方法，采用自编码器来进行权重初始化。
  - 最近，多层神经网络的监督学习已经成为可能。dropout 的方法已经展示出特别的前景。《Imagenet classification with deep convolutional neural networks》 提出的七层卷积神经网络在 ImageNet 大规模视觉识别挑战赛上取得了 state-of-the-art 的性能。该挑战赛是计算机视觉中最具挑战性的任务之一。来自这个七层卷积神经网络的中间层的特征，后来被证明是其它计算机视觉任务（如对象检测object detection ）的良好的 feature representation 。
  在深度学习架构的背景下，人们对利用来自多模态multiple modalities 的数据越来越感兴趣。自编码器和 RBM 等无监督深度学习方法被部署并联合重建（部分共享的网络partially shared network）音频和视频来执行 feature learning，从而成功应用于多模态任务multimodal task 。另一种方案，也有人努力学习具有多个任务的联合 representation 。对于图像和文本，一种特别有用的场景是通过将语义上有意义的 embedding 空间与图像 label 相结合，从而实现对 unseen 的 label 进行图像分类的 zero-shot learning 。
  据我们所知，之前很少有人尝试利用网络中的链接结构进行 representation learning 。在《A deep learning approach to link prediction in dynamic network》 中，它使用条件conditional 的动态 temporary的 RBM 对网络链接的动态性进行建模，主要任务是使用历史数据预测未来的链接。与我们最相似的工作是 《Latent feature learning in social media network》，其中它在多媒体链接数据上训练一个 content RBM 。我们在几个方面与他们的工作不同：我们在无监督环境中使用监督学习的方案，我们的方法可以扩展到大规模数据集，我们执行多任务学习从而融合来自不同模态的形式。

18.1 模型

heterogeneous network $G =(\mathcal V,\mathcal E)$ $\mathcal V = \{v_1,\cdots,v_n\}$ $\mathcal E$ $e_{i,j}\in \mathcal E$ $v_i$ $v_j$ 之间存在无向链接。
$G$ $f_v:\mathcal V\rightarrow \mathcal O$ $f_e:\mathcal E\rightarrow \mathcal R$ $\mathcal O$ $\mathcal R$ $v_i\in \mathcal V$ $f_v(v_i)\in \mathcal O$ $e_{i,j}\in \mathcal E$ $f_e(e_{i,j})\in \mathcal R$ 。值得一提的是，边的链接类型自动地定义了其端点的顶点类型。
$\mathcal O$ $\mathcal R$ $|\mathcal O|=|\mathcal R| = 1$ 的情况下，网络是同质heterogeneous 的。否则网络是异质heterogeneous 的。下图说明了一个异质网络的示例，其中包含两种对象类型和三种链接类型。为了进一步便于理解，我们将假设对象类型为 image: Itext: T $\mathcal R$ 包含 image-to-image（红色点虚线）、text-to-text （绿色短虚线）、image-to-textRII, RTT, RIT $|\mathcal O| = 2, |\mathcal R| = 3$ 。虽然在文本域和图像域的这种简单抽象仅仅是为了便于在本文中进一步讨论，但是这个假设并未失去一般性，因为这些思想很容易推广到任意数量的类型。
$v_i\in \mathcal V$ $\mathcal V_I$ $\mathcal V_T$ $\mathcal V_I\cup \mathcal V_T = \mathcal V$ $\mathcal V_I\cap \mathcal V_T = \phi$ $\mathcal E$ $\mathcal E_{I,I},\mathcal E_{T,T},\mathcal E_{I,T}$ 。此外，每个顶点都聚合了 unique 的内容信息。具体而言：
- $v_i\in \mathcal V_I$ $\mathbf X_i\in \mathbb R^{d_I\times d_I\times 3}$ $d_I$ 为图像的尺寸。
- $v_i\in \mathcal V_T$ $\mathbf{\vec z}_j\in \mathbb R^{d_T}$ $d_T$ 为文本的长度。
例如，图像的内容是 RGBTerm Frequency - Inverse Document Frequency: TF-IDF $\mathbf A\in \mathbb R^{n\times n}$ $e_{i,j}\in \mathcal E$ $A_{i,j} = 1$ $A_{i,j}=-1$ （为了模型简单）。
注意，这里的邻接矩阵元素取值为 {+1, -1}，这和经典的 {+1, 0} 不同。这是为了后面的损失函数服务，给 “负边”（即，未链接的顶点对）一个非零值可以在损失函数中引入 “负边” 的信息。虽然这种邻接矩阵是完全稠密的矩阵，但是我们可以仅存储“正边”，从而仍然存储一个稀疏版本的邻接矩阵。
接下来，我们首先引入一种新的损失函数来衡量跨网络的相关性，并以数学方式展示我们的 HNE 框架。本质上，embedding 过程为每个对象同时将异质内容和异质链接编码到一个 representation 中。
然后我们提出了一种 linkage-guided 的深度学习框架，从而同时对潜在空间 embedding 和 feature learning 进行联合建模。这可以通过使用反向传播技术有效地求解。
最后，我们讨论了将 HNE 算法直接扩展到多于两种对象类型的一般情况。

18.1.1 线性 HNE

embedding $\mathbf X_i\in \mathbb R^{d_I\times d_I\times 3}$ representation $\mathbf{\vec x}_i\in \mathbb R^{d_I^\prime}$ $\mathbf{\vec x}_i$ feature machine $d_I^\prime$ $d_T$ 不必相同，因为图像和文本是完全不同领域的特征。
$\mathbf U\in \mathbb R^{d_I^\prime \times r}$ $\mathbf V\in \mathbb R^{d_T\times r}$ $\mathbf U$ $\mathbf V$ represetnation $\tilde{\mathbf{\vec x}}\in \mathbb R^r,\tilde{\mathbf{\vec z}}\in \mathbb R^r$ 。因此我们有：
$\tilde{\vec{x}} = U^{⊤} \vec{x}, \tilde{\vec{z}} = V^{⊤} \vec{z}$
$\mathbf U$ $\mathbf V$ $r$ 维空间。相同类型的两个 data point 之间的相似性可以表示为投影空间中的内积，即：
$\begin{matrix} s ({\vec{x}}_{i}, {\vec{x}}_{j}) = {\tilde{\vec{x}}}_{i}^{⊤} {\tilde{\vec{x}}}_{j} = {(U^{⊤} {\vec{x}}_{i})}^{⊤} U^{⊤} {\vec{x}}_{j} = {\vec{x}}_{i}^{⊤} M_{I, I} {\vec{x}}_{j} \\ s ({\vec{z}}_{i}, {\vec{z}}_{j}) = {\tilde{\vec{z}}}_{i}^{⊤} {\tilde{\vec{z}}}_{j} = {(V^{⊤} {\vec{z}}_{i})}^{⊤} V^{⊤} {\vec{z}}_{j} = {\vec{z}}_{i}^{⊤} M_{T, T} {\vec{z}}_{j} \end{matrix}$
注意，由于嵌入到公共空间，不同类型对象（如文本和图像）之间也可以进行相似度计算，即：
$\begin{matrix} s ({\vec{x}}_{i}, {\vec{z}}_{j}) = {\tilde{\vec{x}}}_{i}^{⊤} {\tilde{\vec{z}}}_{j} = {(U^{⊤} {\vec{x}}_{i})}^{⊤} V^{⊤} {\vec{z}}_{j} = {\vec{x}}_{i}^{⊤} M_{I, T} {\vec{z}}_{j} \\ = {\tilde{\vec{z}}}_{j}^{⊤} {\tilde{\vec{x}}}_{i} = {(V^{⊤} {\vec{z}}_{j})}^{⊤} U^{⊤} {\vec{x}}_{i} = {\vec{z}}_{j}^{⊤} M_{I, T}^{⊤} {\vec{x}}_{i} \end{matrix}$
$\mathbf M_{I,I}=\mathbf U\mathbf U^\top\in \mathbb R^{d_I^\prime \times d_I^\prime}$ $\mathbf M_{T,T}=\mathbf V\mathbf V^\top\in \mathbb R^{d_T\times d_T}$ $\mathbf M_{I,T}=\mathbf U\mathbf V^\top\in \mathbb R^{d_I^\prime \times d_T}$ 。
潜在 embedding 与文献 《Learning locally-adaptive decision functions for person verification》 中已被广泛研究的相似性学习 similarity learning和度量学习 metric learningcorrelation $\mathbf U$ $\mathbf V$ $\mathbf M_{I,I},\mathbf M_{T,T},\mathbf M_{I,T}$ 定义的双线性函数进行参数化。这提供了 application-specific 的方式来建模异质关系的灵活性。
对象之间的交互被表示为网络中的异质链接。我们假设：如果两个对象是连接的，则它们之间的相似性应该比孤立对象之间的相似性更大，从而反映这一事实（即，对象是连接的）。
注意，这里仅考虑一阶邻近性，即直接连接关系。
$\mathbf{\vec x}_i$ $\mathbf{\vec x}_j$ pairwise $d\left(\mathbf{\vec x}_i ,\mathbf{\vec x}_j\right)$ ：
$\begin{matrix} d ({\vec{x}}_{i}, {\vec{x}}_{j}) {\begin{cases} > 0, & if A_{i, j} = 1 \\ < 0, & else \end{cases} \end{matrix}$
$d(\cdot,\cdot)$ $\mathbf A$ 的相应元素值，也不要求异质顶点为 in-sample 。这意味着该方法具有泛化能力从而嵌入 unseen 顶点。
$d(\cdot,\cdot)$ $\mathbf{\vec x}_i$ $\mathbf{\vec x}_j$ unseen $d(\cdot,\cdot)$ ，从而预测它与其它顶点之间是否存在链接。
$v_i,v_j\in \mathcal V_I$ $d\left(\mathbf{\vec x}_i ,\mathbf{\vec x}_j\right) = s\left(\mathbf{\vec x}_i ,\mathbf{\vec x}_j\right) - t_{I,I}$ $t_{I,I}$ 为基于关系的 bias 值。则损失函数可以定义为：
$L ({\vec{x}}_{i}, {\vec{x}}_{j}) = \log (1 + \exp (- A_{i, j} \times d ({\vec{x}}_{i}, {\vec{x}}_{j})))$
这可以视为由网络链接引导 guided 的二元逻辑回归。text-textimage-text $s(\cdot)$ $t_{T,T}$ $t_{I,T}$ 表示相应的、基于关系的 bias 值。
该损失函数仅捕获一阶邻近性（即局部网络结构），没有捕获高阶邻近性（既全局网络结构）。
该损失函数迫使相连的顶点之间的 embeddingembedding $A_{i,j}$ $\{+1,-1\}$ ，和传统邻接矩阵不同的原因。
最终我们的目标函数如下：
$\begin{matrix} min_{U, V} \frac{1}{N_{I, I}} \sum_{v_{i}, v_{j} \in V_{I}} L ({\vec{x}}_{i}, {\vec{x}}_{j}) + \frac{λ_{1}}{N_{T, T}} \sum_{v_{i}, v_{j} \in V_{T}} L ({\vec{z}}_{i}, {\vec{z}}_{j}) + \frac{λ_{2}}{N_{I, T}} \sum_{v_{i} \in V_{I}, v_{j} \in V_{T}} L ({\vec{x}}_{i}, {\vec{z}}_{j}) \\ + λ_{3} (| | U | |_{F}^{2} + | | V | |_{F}^{2}) \end{matrix}$
其中：
- $N_{I,I}$ image-image $|\mathcal E_{I,I}|$ $N_{T,T }$ text-text $|\mathcal E_{T,T}|$ $N_{I,T}$ image-text $|\mathcal E_{I,T}|$ 。
- $\lambda_1,\lambda_2,\lambda_3$ $||\cdot||_F^2$ 为矩阵的 F 范数。
- $t_{I,I},t_{T,T},t_{I,T}$ 等bias 值既可以从数据中学习得到，也可以设为固定值。为简单考虑，我们都设置为固定值。
coordinate descent $\mathbf V$ $\mathbf U$ $\mathbf U$ $\mathbf V$ 。

18.1.2 深度 HNE

目前为止，我们已经证明了我们的损失函数融合了网络结构，从而将不同异质成分heterogeneous component 映射到统一的潜在空间。然而，这种 embedding 函数仍然是线性的，可能缺乏建模复杂网络链接的能力。接下来我们引入深度学习框架。
前面部分我们的解决方案可以分为两个步骤：
- 手动构造顶点的feature representation ：对于文本顶点使用其 TF-IDF 向量，对于图像顶点使用其原始 RGB 像素点拼接而成的向量。
- 将不同的feature representation 嵌入到公共的低维空间中。
这里我们通过深度学习将 feature representation 的 learning 和 embedding 合并在一起。
feature representation learning：
- $p_{\mathcal D_I}(\cdot)$ $\mathcal D_I$ 。通常我们使用 CNN 来抽取图像特征。下图为一个图像特征抽取模型，它由五个卷积层、两个全连接层组成。所有层都采用 ReLU 非线性激活函数。该模块称作 deep image 模块。
- $q_{\mathcal D_T}(\cdot)$ $\mathcal D_T$ 。由于文本是非结构化的，不包含空间信息，因此通常使用全连接层FC 对文本的 TF-IDF 输入来抽取特征。该模块称作 deep text 模块。
则我们的损失函数变为：
$\begin{matrix} min_{U, V, D_{I}, D_{T}} \frac{1}{N_{I, I}} \sum_{v_{i}, v_{j} \in V_{I}} L (p_{D_{I}} (X_{i}), p_{D_{I}} (X_{j})) + \frac{λ_{1}}{N_{T, T}} \sum_{v_{i}, v_{j} \in V_{T}} L (q_{D_{T}} ({\vec{z}}_{i}), q_{D_{T}} ({\vec{z}}_{j})) \\ + \frac{λ_{2}}{N_{I, T}} \sum_{v_{i} \in V_{I}, v_{j} \in V_{T}} L (p_{D_{I}} (X_{i}), q_{D_{T}} ({\vec{z}}_{j})) + λ_{3} (| | U | |_{F}^{2} + | | V | |_{F}^{2}) \end{matrix}$
feature representation embedding：我们可以通过一个额外的线性embedding layer 来级联deep image 模块和 deep text 模块。
$\tilde p_{\mathcal D^\prime_I}(\mathbf X) = \mathbf U^\top p_{\mathcal D_I }(\mathbf X)$ $\mathcal D_I^\prime = \mathcal D_I\cup \{\mathbf U\}$ $\tilde q_{\mathcal D^\prime_T}(\mathbf{\vec z}) = \mathbf V^\top q_{\mathcal D _T}(\mathbf {\vec z})$ $\mathcal D_T^\prime = \mathcal D_T\cup \{\mathbf V\}$ 。则目标函数变为：
$\begin{matrix} min_{D_{I}^{'}, D_{T}^{'}} \frac{1}{N_{I, I}} \sum_{v_{i}, v_{j} \in V_{I}} L^{'} ({\tilde{p}}_{D_{I}^{'}} (X_{i}), {\tilde{p}}_{D_{I}^{'}} (X_{j})) + \frac{λ_{1}}{N_{T, T}} \sum_{v_{i}, v_{j} \in V_{T}} L^{'} ({\tilde{q}}_{D_{T}^{'}} ({\vec{z}}_{i}), {\tilde{q}}_{D_{T}^{'}} ({\vec{z}}_{j})) \\ + \frac{λ_{2}}{N_{I, T}} \sum_{v_{i} \in V_{I}, v_{j} \in V_{T}} L^{'} ({\tilde{p}}_{D_{I}^{'}} (X_{i}), {\tilde{q}}_{D_{T}^{'}} ({\vec{z}}_{j})) \end{matrix}$
其中：
- dropout $L_2$ $\lambda_3$ 对应的项
- 我们使用新的损失函数：
  $L^{'} (\vec{a}, \vec{b}) = \log (1 + \exp (- A_{i, j} \vec{a} \cdot \vec{b}))$
  $L(\cdot,\cdot)$ 相比，这里的损失函数移除了bias 项。
该目标函数可以通过随机梯度下降SGD 来求解。
为进行端到端的 HNE 学习，我们将deep image 模块和 deep image 模块连接起来。我们以 text-text 链接为例，另外两种类型的链接也是类似的。下图包含两个deep text 模块，它们构成了pairwise 的 text-text 模块。
- deep text 模块包含两个FC 全连接层，然后是一个线性 embedding 层。
  这里有些违反直觉。主流的 DNN 模型都是先通过一个 embedding 层，然后再通过 FC 层。
- 线性 embedding 层的输出是公共潜在空间中的低维向量，该低维向量进一步送到预测层 prediction layer 来计算损失函数。
- text-text 模块是对称的，下图中相同颜色的神经元共享相同的权重和偏差，箭头表示前向传播的方向。
HNE 的整体架构如下图所示，图中展示了三个模块，从左到右依次为 image-image 模块、image-text 模块、text-text 模块。这些模块分别连接到prediction layer 来计算损失函数。下图中，相同的颜色代表共享权重。箭头表示前向传播和反向传播的方向。
讨论：
- 目前为止我们仅展示了两种类型顶点的异质网络embedding 方法。事实上，我们的框架也支持多种类型顶点的异质网络 embedding 。
- 由于深度学习是高度非线性和非凸的，因为无法保证全局最优解。参数的初始化对模型性能至关重要。文献表明，即使最终任务与 pre-training 任务不同，精心设计的 pre-training 也可以显著提高最终任务的表现。
- 值得一提的是，我们提出的方法是无监督学习方法，因此可以作为下游fine-tuning 微调阶段的预训练pretraining 步骤来使用。换句话讲，如果我们想对网络顶点进行分类，那么我们可以从 embedding layer 获得最终特征并应用相应的机器学习算法。或者我们也可以将prediction layer 替换为 softmax 层，然后进行微调为 task-specific 的端到端监督学习深度神经网络。

18.2 实验

数据集：我们使用来自现实世界社交网络的两个公开数据集。所有实验结果均在五次不同的运行中取均值。
- BlogCatalog：一个社交博客网络，博主可以在预定义的类别下对其博客进行分类。这样的分类用于定义类标签，而 following（即，关注）行为用于构建博主之间的链接。我们使用每个博主的所有博客内容的 TF-IDF 向量作为博主的内容特征。最终我们得到一个无向、同质图，每个顶点代表一个博主，顶点的特征为TF-IDF 向量。最终该图包含 5196 个顶点、171743 条边、类别数量 6、内容向量维度 8189，并且该数据集各类别是平衡的。
- NUS-WIDE：Flickr 上的图像和文本数据，包含 269648 张关联有 tag 的图像，其中 tag 集合大小为 5018 。每一组image-tag 标记有一个 label ，一共 81 个类别。
  由于原始数据中包含很多不属于任何类别的噪音样本，因此这些样本被删除。另外，我们将频次最高的 1000 个 tag 作为文本并抽取其 TF-IDF 向量作为特征。我们进一步删除了不包含任何这 1000 个 tag 中单词的样本。最终我们分别随机抽样了 53844 和 36352 个样本进行训练和测试。
  我们将图像和文本分别视为独立的顶点来构建异质网络，训练网络包含 107688 个顶点、测试网络包含 72704 个顶点。如果两个顶点共享至少一个概念 concept30 $\mathbf A$ 。
  值得一提的是，我们以 out-of-sample 方式来评估不同的算法。即，训练样本绝对不会出现在测试数据集中。
网络重建Network Reconstruction：在分类、聚类或检索任务之前，我们首先对网络链接重建的质量进行基本的、直观的评估，从而验证我们的假设。我们从 BlogCatalog 数据集中随机选择 500 个顶点，然后可视化其链接，其中每个顶点的颜色代表其类别。可以看到：
- 相对而言，社交“关注” 关系倾向于将具有相似属性的用户聚合在一起。
- 绝对而言，这种聚合之中存在大量噪音，其中59.89% 的链接连接到了不同类别的顶点。
  这是可以理解的，因为即使 HNE 百分之百地重建了网络，但是原始网络本身就存在大量的、不同类别的顶点链接在一起的情况。
我们评估了算法学习 embedding 过程中，训练集每个 mini-batch 的链接重建准确率：预估正确的 pair 对的数量，除以所有的 pair 对的数量。其中 mini-batch = 128 。结果如下图所示，其中横轴表示 epoch ，每个 epoch 包含 500 个 step 。红线表示每个 epoch 重建准确率的均值。可以看到：随着学习的推进，算法能够正确地重建 80% 以上的链接，而一开始的准确率只有 55%。
注意，这里是训练集的重建准确率，而不是测试集的。

18.2.1 BlogCatalog 数据集

分类任务：在 BlogCatalog 数据集上，我们将我们的 feature learning 方法和以下 feature learning 方法进行比较：
- Content：基于原始空间的内容特征，即用户所有博主的 TF-IDF 特征向量。
- Links：基于原始空间的链接特征，即用户的邻接关系作为特征。
- Link-Content：将内容和邻接关系都视为特征。
- LUFS：针对内容和链接的无监督特征抽取框架。
- LCMF：基于链接和内容的矩阵分解方法。
- HNE：我们提出的异质网络特征抽取方法。
对于这些抽取出来的特征，我们使用标准的 kNN 分类器来评估特征的分类效果。为确保公平比较，所有方法的 embedding 维度固定为 100 。对于 Content/Links/Link-Content 方法抽取的特征，我们使用 PCA 算法投影到 100 维的空间。
这些模型的分类准确率如下所示。可以看到：
- 在不同规模的训练集中，HNE 始终优于其它的 baseline 方法。这是因为网络链接可以编码很多有用的信息。
- 如果将 embedding 视为预训练步骤，并通过将多类 softmax 替换掉 predict layer 来微调整个模型，则我们的效果会进一步提升。这表明了无监督的 embedding 学习对于有监督分类任务提供了很好的初始化，并能进一步提升性能。
聚类任务：我们还比较了BlogCatalog 数据集上不同方法得到的 embedding 的聚类表现。与分类任务相比，聚类任务是完全无监督的，并很大程度上依赖于相似性度量函数。这里我们采用最常见的余弦相似度。我们根据聚类后的结果以及label 信息，同时给出了准确率和互信息 normalized mutual information :NMI 作为评估指标。
结果表明：
- 类似分类任务，仅使用链接会带来最差的结果。这可能是因为：在没有全局内容信息指导的条件下，相似性往往是局部的，并且对噪音非常敏感。
- 仅内容相似性不足以捕获关系信息。
- 通过链接和内容的简单组合，这可以提供与其它 baseline 相当的性能。
- 我们的 HNE 模型优于所有其它 baseline 模型并达到 state-of-the-art 的水平。

18.2.2 NUS-WIDE 数据集

与 BlogCatalog 相比，NUS-WIDE 数据集构成了一个包含图像、文本的异质网络。我们将在分类任务、跨模态检索cross-modal retrieval 任务中评估 HNE 的性能。注意，跨模态检索任务在前一个数据集的同质场景中是不可行的。
分类任务：鉴于 BlogCatalog 的异质场景，我们将我们的方法和以下无监督的、能够处理多模态输入的 baseline 进行比较：
- Canonical Correlation Analysis: CCA：根据输入的多个数据源的关系将它们嵌入到共同的潜在空间。
- DT：一种迁移学习方法，通过潜在 embedding 来减少图像和文本之间的语义距离。
- LHNE：HNE 的线性版本。
我们为所有其它baseline 方法抽取了 4096 维的特征，但是由于我们的HNE 方法是端到端的，因此不需要为图像手动抽取特征。由于 NUS-WIDE 数据集是类别不平衡的，因此我们用平均精度 average precsision:AP 来评估每种可能的标签结果的分类性能。
AP 就是P-R 曲线下的面积，mAP 就是所有类别的 AP 的均值。事实上，APrecall $\{0,0.1,\cdots,0.9,1.0\}$ 一共 11 个水平（也可以划分更小的单位），然后取对应的 Precision 的平均值。在 P-R 曲线上这等价于曲线的线下面积。
为了方便比较，所有方法的公共嵌入空间的维度为 400 维，并且使用线性支持向量机 SVM 来作为所有方法产出的 embedding 的通用分类器。之所以用 SVM 是因为计算 AP 需要预估一个概率值，而这不方便从深度神经网络分类器中取得。
我们比较了三种配置：
- image only：仅在图像顶点上学习 embedding，然后训练 SVM、执行分类测试。
- text only：仅在文本顶点上学习 embedding，然后训练 SVM、执行分类测试。
- image + text：同时使用图像顶点和文本顶点学习 embedding，然后后训练 SVM、执行分类测试。
可以看到：
- 对于所有方法，仅使用文本数据进行分类效果最差。这可能是由于：和图像输入相比，文本输入非常稀疏。
- 仅使用线性的 HNE ，我们就可以获得与 DT 相当的结果，并且优于 CCA。
- 非线性HNE 在所有三种配置中进一步提高性能，这表明使用非线性函数同时优化feature learning 和潜在 embedding 的优势。
跨模态检索：为进一步验证 HNE 的能力，我们在跨模态检索任务中将我们的方法和 baseline 进行比较。我们的目标是希望通过文本 query 来召回对应的图片。在所有 81 个 label 中，有 75 个出现在 TF-IDF 文本向量中。因此我们基于这 75 个label word 来构建 query 向量：
${query}_{i} = (0, 0, \dots, 0, 1, 0, \dots, 0)^{⊤}$
其中query1000 $i$ 个 label 对应的位置为 1，其它所有位置为零。query 向量一共有 75 个。
根据学到的 embedding 函数，我们将这些 query 向量都映射到公共潜在空间中，并通过欧式距离来检索测试集中的所有图像。我们报告了 average precision at rank k: p@k （top k 结果中的平均precision 值）的结果。可以看到：HNE 明显优于其它 baseline 。
然后我们给出一些检索的案例。可以看到：
- Mountain 的第三个检索结果不正确，这可能是由于其它Mountain 图像和带有牛的Mountain图像之间存在极大的视觉相似性。
- Cow 的检索结果中包含三只鹿，这是因为这些图像具有多个tag，并通过“动物” 概念进行链接。
  由于我们的方法以及 ranking 函数完全是无监督的，因此 cow 和 deer 等对象之间的联系会混淆我们的 embedding 学习。我们预期使用监督 ranking 可以提升性能。

18.2.3 其它

训练收敛性：我们展示了HNE 在 BlogCatalog 数据集上目标函数的变化，从而验证模型的收敛性。其中 x 轴代表 epoch 。可以看到：目标函数经过 60 个 epoch 的持续性降低之后趋向于平稳，这表明算法可以收敛到稳定结果。

十九、AANE[2017]

网络分析已经成为许多实际应用中的有效工具，例如精准营销 targeted marketing 和基因分析。识别有效特征对于这些任务至关重要，但是这涉及大量的人力和大规模的工程实验。作为替代方案，network embedding 将每个节点的拓扑结构topological structure 映射为低维的向量represetnation ，从而可以很好地保留原始网络邻近性proximity 。已有工作表明，network embedding 可以使各种任务收益，例如节点分类、链接预测、网络聚类。
虽然现有的 network embedding 算法专注于纯网络 pure network，但是现实世界网络中的节点通常关联一组丰富的特征或属性，这称作属性网络attributed network 。像同质性 homophily 和社交影响 social influence 等社会科学理论表明：节点属性与网络结构高度相关，即一方的形成取决于并影响了另一方。例如，微博中用户帖子和“关注” 关系之间的强关联，论文主题和引用关系的高度相关性。在各种应用中，已有工作表明联合利用这两个信息源（即节点拓扑结构和节点属性）可以提高学习性能。受到这些的启发，论文《Accelerated Attributed Network Embedding》提出研究节点特征是否可能有助于学到更好的 embedding representation 。
此外，现实世界的网络通常是大规模的，具有大量节点和高维特征。例如，截至 2016 年，美国每月有超过 6500 万活跃的 Twitter 用户，每个用户可以发布数千条推文。这对 embedding 算法的可扩展性提出了更高的要求。属性网络 embedding 在以下三个方面具有挑战性：
- 高的时间复杂度可能是限制算法在实践中应用的瓶颈。一些工作致力于利用网络结构和属性信息来寻找低秩low-rankrepresentation $O(n^3)$ eigen-decomposition $n$ 为节点的总数），要么采用通常收敛速度较慢的梯度下降。
- 由于异质信息heterogeneous information 的各种组合，在网络和属性的联合空间中评估节点邻近性node proximity 具有挑战性。另外，随着网络规模的扩大，节点属性邻近性node attribute proximity 矩阵往往太大，无法存储在单机上，更不用说对它的操作了。因此，如果 embedding 算法也是可扩展的，那么将很有吸引力。
- 两个信息源都可能不完整incomplete 的且充满噪音noisy 的，这进一步加剧了 embedding representation learning 问题。
因此，鉴于数据的独有特性，现有方法不能直接应用于可扩展的、属性网络的 embedding 。为了应对上述挑战，论文研究了在属性网络上有效地学习 embedding representation 的问题。论文旨在回答以下问题：
- 如何在网络结构和节点属性组成的联合空间中有效地建模节点邻近性？
- 如何使 vector representations learning 过程具有可扩展性scalable 和高效efficient ？
通过调研这些问题，论文提出了一个称作 Accelerated Attributed Network Embedding: AANE 的新框架。总之，本文贡献如下：
- 正式定义属性网络 embeding 问题。
- 提出一个可扩展的、高效的框架 AANE 。AANE 通过将节点属性邻近性纳入 network embedding，从而学到有效的、统一的 embedding representation 。
- 提出一种分布式优化算法。该算法将复杂的建模和优化问题分解为许多低复杂度的子问题，使得 AANE 能够高效地处理每个节点。
- 在三个真实数据集上验证了 AANE 的效率和效果。
相关工作：
network embedding 已经成为处理大规模网络的有效工具。人们已经从各个方面进行了努力。
- 《Scalable learning of collective behavior based on sparse social dimensions》 提出了一种 edge-centric 的聚类方案，从而提高学习效率并减轻内存需求。
- 《Distributed large-scale natural graph factorization》 提出了一种基于随机梯度下降的分布式矩阵分解算法来分解大规模图。
- 《LINE: Large scale Information Network Embedding》 通过将weighted edge 展开 unfolding 为多个binary edge 来提高随机梯度下降的效率。
- 《Asymmetric transitivity preserving graph embedding》 设计了一种 Jacobi-Davidson 类型的算法来近似和加速 high-order proximity embedding 中的奇异值分解。
- 《Structural deep network embedding》 涉及深度架构从而有效地嵌入节点的一阶邻近性和二阶邻近性。
人们已经研究并分析了各个领域中的属性网络，并表明：通过联合利用几何结构和节点属性来提高学习性能变得越来越有希望。
- 《What's in a hashtag? content based prediction of the spread of ideas in microblogging communities》 通过利用内容和拓扑特征改善了对思想ideas 传播的预测。
- 《Exploring context and content links in social media: A latent space method》 基于 pairwise 相似性对内容信息进行建模，并通过学习语义概念semantic concept 之间的结构相关性structural correlation，从而将内容信息与上下文链接一起映射到语义潜在空间中。
- 《Probabilistic latent document network embedding》 通过为网络链接和文本内容找到一个联合的低维 representation，从而为文档网络提出了一个基于概率的框架。
- 《Heterogeneous network embedding via deep architectures》 设计了一种深度学习方法，将丰富的链接信息和内容信息映射到潜在空间，同时捕获跨模态数据之间的相关性。
属性网络分析不同于多视图学习。属性网络的网络结构不止一个视图，其底层属性很复杂，包括连通性connectivity 、传递性transitivity 、一阶和更高阶的邻近性等等。

19.1 模型

19.1.1 基本概念

$\mathcal G=(\mathcal V,\mathcal E,\mathbf W)$ $\mathcal V=\{v_1,\cdots,v_n \}$ $n$ $\mathcal E$ $\mathbf W=\{w_{i,j}\}\in \mathbb R^{n\times n}$ $v_i$ $\mathcal N(v_i)$ $N_i$ 。
$(v_i,v_j)\in \mathcal E$ $w_{i,j}\ge 0$ $w_{i,j} = w_{j,i}$ $w_{i,j}$ $v_i$ $v_j$ $w_{i,j} = 0$ $v_i$ $v_j$ 之间不存在边。
$v_i$ $\mathbf{\vec a}_i\in \mathbb R^m$ $m$ $\mathbf A\in \mathbb R^{n\times m}$ $\mathbf{\vec a}_i$ $\mathbf A$ $i$ 行。
attributed network embedding $\mathcal G=(\mathcal V,\mathcal E,\mathbf W)$ $\mathbf A$ $v_i\in \mathcal V$ embedding $\mathbf{\vec h}_i\in \mathbb R^d$ ，使得embedding 向量能够同时保留节点的结构邻近关系、节点的属性邻近关系。所有节点的 embeddingembedding $\mathbf H\in \mathbb R^{n\times d}$ 。

19.1.2 AANE

现实世界属性网络的理想 embedding 方法需要满足以下三个要求：
- 首先，它需要能够处理任意类型的边（如，无向/有向边、无权/带权边）。
- 其次，它需要同时在网络空间和属性空间中都很好地保持节点邻近性。
- $n$ $m$ 可能很大。
为此，我们开发了一个满足所有要求的、有效的、高效的框架 AANE。这里我们将描述 AANE 如何以有效的方式联合建模网络结构邻近性和属性邻近性。
$\mathcal G$ 中的节点邻近性， AANE 提出两个假设：
- 首先，假设基于图的映射graph-based mapping 在边上是平滑的，特别是对于节点密集的区域。这符合 “聚类假设” cluster hypothesis 。
- 其次，具有更相似拓扑结构或由更高权重连接的一对节点更有可能具有相似的 embedding 。
为了实现这些目标，我们提出以下损失函数来最小化相连节点之间的 embedding 差异：
$J_{G} = \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{h}}_{j} ‖}_{2}$
$\mathbf{\vec h}_i,\mathbf{\vec h}_j$ $v_i$ $v_j$ embedding representation $w_{i,j}$ $v_i,v_j$ $\mathcal J_\mathcal G$ $w_{i,j}$ $v_i$ $v_j$ $\mathbf{\vec h}_i$ $\mathbf{\vec h}_j$ 的距离较小。
embedding representation $\mathbf H$ 也很好地保持节点属性的邻近性。
symmetric matrix factorization $\mathbf H$ $\mathbf H^\top$ attribute affinity matrix $\mathbf S\in \mathbb R^{n\times n}$ embedding representation $\mathbf{\vec h}_i$ $\mathbf{\vec h}_j$ $s_{i,j}$ 相同。在数学上，该损失函数定义为：
$J_{A} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} {(s_{i, j} - {\vec{h}}_{i} \cdot {\vec{h}}_{j})}^{2} = {‖ S - H H^{⊤} ‖}_{F}^{2}$
$v_i$ $v_j$ $s_{i,j}$ $s_{i,j} = \mathbf{\vec a}_i \cdot \mathbf{\vec a}_j$ 。
$O(n^2)$ $O(n^2)$ top k $O(kn)$ 。
Joint Embedding Representation Learning $\mathcal J_G$ $\mathcal J_A$ ，它们分别建模网络拓扑结构中的节点邻近性、节点属性中的节点邻近性。为了对这两种邻近性互补，形成一个统一的联合空间，我们在以下优化问题中对这两种类型的信息进行联合建模：
$J = J_{A} + λ J_{G} = {‖ S - H H^{⊤} ‖}_{F}^{2} + λ \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{h}}_{j} ‖}_{2}$
$\lambda$ 用于平衡网络结构损失和属性损失：
- $\lambda \rightarrow 0$ 时，网络拓扑结构不影响最终的节点 embedding，。因此每个节点都可以是一个孤立的 cluster。
- $\lambda\rightarrow +\infty$ embedding $\mathbf{\vec h}_i = \mathbf{\vec h}_j$ ），此时所有节点在embedding 空间中形成单个 cluster 。
$\lambda$ 从而调整 embedding 空间中 cluster的数量。
AANE $\mathbf S$ $\mathbf H \mathbf H^\top$ $\lambda \sum_{(v_i,v_j)\in\mathcal E} w_{i,j}\left\|\mathbf{\vec h}_i - \mathbf{\vec h}_j\right\|_2$ ，该正则化迫使相连的节点在 embedding 空间中彼此靠近。
AANE 仅考虑网络结构的一阶邻近性，无法捕获网络结构的高阶邻近性。
AANE 仅捕获线性关系，未能捕获非线性关系。
AANE 分别独立地建模网络结构邻近性和节点属性邻近性，并未建模二者之间的交互。

19.1.3 加速算法

AANE $\mathcal J$ $\mathbf{\vec h}_i$ 都是可分离separable 的，因此可以重新表述为双凸优化问题 bi-convex optimization 。
$\mathbf Z = \mathbf H$ $\mathbf{\vec z}_i\in \mathbb R^d$ $\mathbf Z$ $i$ 行。因此有：
${‖ S - H Z^{⊤} ‖}_{F}^{2} = \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{⊤} ‖}_{2}^{2} = \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - H {\vec{z}}_{i}^{⊤} ‖}_{2}^{2}$
则目标函数重写为：
$\begin{matrix} min_{H} \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{⊤} ‖}_{2}^{2} + λ \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{z}}_{j} ‖}_{2} \\ s . t . {\vec{h}}_{i} = {\vec{z}}_{i} \end{matrix}$
$\mathcal J$ $\mathbf{\vec h}_i$ $\mathbf{\vec z}_i$ separable $2n$ 个更小的凸优化子问题。
$2n$ Alternating Direction Method of Multipliers: ADMM $2n$ 个子问题的updating step 和一个矩阵 updating step 。
$O(n^2)$ 的复杂度，因此对于大型网络是不可行的。
现在我们介绍优化过程的细节。我们首先引入增强的拉格朗日函数：
$L = \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{⊤} ‖}_{2}^{2} + λ \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{z}}_{j} ‖}_{2} + \frac{ρ}{2} \sum_{i = 1}^{n} ({‖ {\vec{h}}_{i} - {\vec{z}}_{i} + {\vec{u}}_{i} ‖}_{2}^{2} - {‖ {\vec{u}}_{i} ‖}_{2}^{2})$
$\mathbf{\vec u}_i\in \mathbb R^d$ $\rho\gt 0$ 为罚项参数。
$\mathbf H,\mathbf Z,\mathbf U$ $\mathcal L$ $\mathbf U$ $\mathbf{\vec u}_i\in \mathbb R^d$ $\mathbf U$ $i$ $v_i$ $k+1$ 个 step 的更新为：
$\begin{matrix} {\vec{h}}_{i}^{(k + 1)} = \arg min_{{\vec{h}}_{i}} ({‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{(k)^{⊤}} ‖}_{2}^{2} + λ \sum_{v_{j} \in N (v_{i})} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{z}}_{j}^{(k)} ‖}_{2} + \frac{ρ}{2} {‖ {\vec{h}}_{i} - {\vec{z}}_{i}^{(k)} + {\vec{u}}_{i}^{(k)} ‖}_{2}^{2}) \\ {\vec{z}}_{i}^{(k + 1)} = \arg min_{{\vec{z}}_{i}} ({‖ {\vec{s}}_{i} - H^{(k + 1)} {\vec{z}}_{i}^{⊤} ‖}_{2}^{2} + λ \sum_{v_{j} \in N (v_{i})} w_{j, i} {‖ {\vec{z}}_{i} - {\vec{h}}_{j}^{(k + 1)} ‖}_{2} + \frac{ρ}{2} {‖ {\vec{z}}_{i} - {\vec{h}}_{i}^{(k + 1)} + {\vec{u}}_{i}^{(k)} ‖}_{2}^{2}) \\ U^{(k + 1)} = U^{(k)} + (H^{(k + 1)} - Z^{(k + 1)}) \end{matrix}$
$\mathbf{\vec h}_i^{(k+1) }$ $\mathbf{\vec z}_i^{(k+1) }$ ：
$\begin{matrix} {\vec{h}}_{i}^{(k + 1)} = \frac{2 {\vec{s}}_{i} Z^{(k)} + λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j} {\vec{z}}_{j}^{(k)}}{{‖ {\vec{h}}_{i}^{(k)} - {\vec{z}}_{j}^{(k)} ‖}_{2}} + ρ ({\vec{z}}_{i}^{(k)} - {\vec{u}}_{i}^{(k)})}{2 Z^{(k)^{⊤}} Z^{(k)} + (λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j}}{{‖ {\vec{h}}_{i}^{(k)} - {\vec{z}}_{j}^{(k)} ‖}_{2}} + ρ) I} \\ {\vec{z}}_{i}^{(k + 1)} = \frac{2 {\vec{s}}_{i} H^{(k + 1)} + λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j} {\vec{h}}_{j}^{(k + 1)}}{{‖ {\vec{z}}_{i}^{(k)} - {\vec{h}}_{j}^{(k + 1)} ‖}_{2}} + ρ ({\vec{h}}_{i}^{(k + 1)} + {\vec{u}}_{i}^{(k)})}{2 H^{(k + 1)^{⊤}} H^{(k + 1)} + (λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j}}{{‖ {\vec{z}}_{i}^{(k)} - {\vec{h}}_{j}^{(k + 1)} ‖}_{2}} + ρ) I} \end{matrix}$
$\mathbf{\vec h}_i^{(k)}$ $\left\|\mathbf{\vec h}_i^{(k)} -\mathbf{\vec z}_j^{(k)}\right\|_2$ 《Efficient and robust feature selection via joint $l_{2,1}$ -norms minimization》 $\mathbf{\vec h}_i^{(k)} = \mathbf{\vec h}_i^{(k+1)}$ $\mathbf{\vec h}_i^{(k)}$ $\mathbf{\vec h}_i^{(k)}$ $\mathbf{\vec h}_i^{(k+1)}$ 足够接近时，停止迭代。
由于原始问题是一个 bi-convex 问题，因此可以证明我们方法的收敛性，确保算法收敛到一个局部极小值点。这里有几点需要注意：
- $\mathbf{\vec z}_i^{(k+1)}$ $\mathbf{\vec h}_i^{(k+1)}$ 。
- $\mathbf{\vec h}_i^{(k+1)}$ 之间是相互独立的。
- $\mathbf S$ $\mathbf{\vec s}_i$ ：
  $\begin{matrix} {\vec{s}}_{i} = ({\vec{a}}_{i} A^{⊤}) ⊙ (\frac{1}{q_{i} \vec{q}}) \\ \vec{q} = (\sqrt{{\vec{a}}_{1} \cdot {\vec{a}}_{1}}, \dots, \sqrt{{\vec{a}}_{n} \cdot {\vec{a}}_{n}}) \end{matrix}$
  $q_i$ $\mathbf{\vec q}$ $i$ $\odot$ 为逐元素积。
$\mathbf H$ $\mathbf A_0$ $\mathbf A_0\in \mathbb R^{n\times 2d}$ $\mathbf A$ $2d$ 列。
AANE $2n$ $\mathbf{\vec h}_i$ $\mathbf{\vec z}_i$ $n$ updating step $t$ worker $\mathbf{\vec h}_i^{(k+1)} - \mathbf{\vec h}_i^{(k)}$ $\mathbf{\vec u}_i^{(k+1)} - \mathbf{\vec u}_i^{(k)}$ 足够小时，停止迭代。
整体而言，AANE 优化算法有几个不错的特性：
- $\mathbf{\vec h}_i$ $\mathbf{\vec z}_i$ $n$ 个 updating step 彼此独立。因此，在每次迭代中，global coordination 可以将任务并行分配给 worker 并从这些 worker 中收集结果，而无需考虑任务顺序。
- 其次，所有 updating step 都具有低复杂度。
- 最后，该方法快速收敛到一个合适的解。
AANE 优化算法：
- 输入：
  - $\mathcal G(\mathcal V,\mathcal E,\mathbf W)$
  - $\mathbf A\in \mathbb R^{n\times m}$
  - embedding $d$
  - $\epsilon$
- embedding $\mathbf H\in \mathbb R^{n\times d}$
- 步骤：
  - $\mathbf A$ $2d$ $\mathbf A_0\in \mathbb R^{n\times 2d}$ 。
  - $k=0$ $\mathbf H^{(k)}$ $\mathbf A_0$ $\mathbf U^{(0)} = \mathbf 0$ $\mathbf Z^{(k)} = \mathbf H^{(k)}$ 。
  - $\mathbf S\in \mathbb R^{n\times n}$ 。
  - $\left\|\mathbf{\vec h}_i^{(k+1)} - \mathbf{\vec h}_i^{(k)}\right\|^2\le \epsilon$ $\left\|\mathbf{\vec u}_i^{(k+1)} - \mathbf{\vec u}_i^{(k)}\right\|^2\le \epsilon$ 。迭代步骤为：
    - $\mathbf Z^{(k)^\top} \mathbf Z^{(k)}$ 。
    - $n$ $t$ worker $i=1,\cdots,n$ $\mathbf{\vec h}_i^{(k+1)}$ 。
    - $\mathbf H^{(k+1)^\top} \mathbf H^{(k+1)}$ 。
    - $n$ $t$ worker $i=1,\cdots,n$ $\mathbf{\vec z}_i^{(k+1)}$ 。
    - $\mathbf U^{(k+1)} \leftarrow \mathbf U^{(k)} + \left(\mathbf H^{(k+1)} - \mathbf Z^{(k+1)}\right)$ 。
    - $k\leftarrow k+1$ 。
  - $\mathbf H$ 。
AANE $n=6$ $\mathbf S\in \mathbb R^{n\times n}$ $\mathbf H$ $\mathbf H^\top$ $\mathbf H$ $\mathbf W$ $\mathbf H$ 中更靠近。
$2n=12$ $n=6$ $n=6$ $t=3$ 个 worker。在最终输出中，节点 1 和节点 3 分别分配了相似的向量 [0.54, 0.27] 和 [0.55, 0.28]，这表明这两个节点在原始网络和属性的联合空间joint space中彼此相似。
算法复杂度：由于AANE 的优化算法是一个典型的 ADMM 算法，因此训练算法在迭代很少的几个 step 之后就能收敛到很高的精度。
- $O(d^2n)$ 。
- $\mathbf{\vec h}_i$ $O(d^3+dn+d N_i)$ $\mathbf Z^{(k)^\top}\mathbf Z^{(k)}$ $O(n^2/t)$ $d\ll n$ $O(n)$ 。
  $O(n)$ 。
AANE $O(n\times n_A + n^2/t)$ $n_A$ $\mathbf A$ $t$ 为 worker 数量。
AANE $O(n^2)$ ，这对于大型图（如上亿节点）而言是不可行的。

19.2 实验

数据集：
- BlogCatalog 数据集：一个博客社区，用户彼此关注从而构成一个网络。用户可以生成关键词来作为其博客的简短描述，我们将这些关键词作为节点（用户）的属性。用户也可以将其博客注册为指定的类别，我们将这些类别作为用户的 label 。没有关注或者没有指定类别的用户从网络中剔除。
- Flickr 数据集：一个在线图片共享社区，用户彼此关注从而构成一个网络。用户可以为图片指定 tag ，我们将这些 tag 作为节点（用户）的属性。用于可以加入不同的组，我们将这些组作为用户的 label 。
- Yelp 数据集：一个类似大众点评的本地生活评论网站。我们基于用户的社交关系来构成一个网络。我们从用户的评论中利用bag-of-word 抽取文本信息来作为用户的属性信息。所有本地商家分为 11 个主要类别，如 Active Life, Fast Food, Services... ，我们将用户所点评的商家的类别作为用户的 label 。
这些数据集的统计信息如下所示。
baseline 模型：为评估节点属性的贡献，我们对比了 DeepWalk,LINE,PCA 等模型，这些baseline 模型仅能处理网络结构或者节点属性，无法处理二者的融合；为了对比AANE 的效率和效果，我们对比了其它的两种 ANE 模型 LCMF, MultiSpec 。
- DeepWalk：使用 SkipGram 学习基于图上的、截断的随机游走序列从而得到图的 embedding 。
- LINE：建模图的一阶邻近度和二阶邻近度从而得到图的 embedding 。
- PCA $\mathbf A$ 的 top d 个主成分作为图的 embedding 。
- LCMF：它通过对网络结构信息和顶点属性信息进行联合矩阵分解来学习图的 embedding 。
- MultiSpec：它将网络结构和顶点属性视为两个视图 view ，然后在两个视图之间执行 co-regularizing spectral clustering 来学习图的 embedding 。
实验配置：在所有实验中，我们首先在图上学习顶点的 embedding，然后根据学到的 embedding 向量作为特征，来训练一个SVM 分类模型。分类模型在训练集上训练，然后在测试集上评估Macro-F1 和 Micro-F1 指标。
在训练SVM 时，我们使用五折交叉验证。所有的顶点被随机拆分为训练集、测试集，其中训练集和测试集之间的所有边都被移除。考虑到每个顶点可能属于多个类别，因此对每个类别我们训练一个二类 SVM 分类器。
embedding $d=100$ 。所有实验均随机重复 10 并报告评估指标的均值。
属性信息的影响：我们分别将分类训练集的规模设置为 10%,25%,50%,100%。其中，由于 Yelp 数据集的规模太大，大多数ANE 方法的复杂度太高而无法训练，因此我们随机抽取其 20% 的数据并设置为新的数据集，即 Yelp1 。
所有模型的分类效果如下所示：
所有模型在完整的 Yelp 数据集上的分类效果如下所示，其中 PCA,LCMF,MultiSpec 因为无法扩展到如此大的数据集，因此不参与比较：
结论：
- 由于利用了顶点的属性信息，因此LCMF,MultiSpec,AANE 等属性网络embedding 方法比 DeepWalk,LINE 等网络结构embedding 方法效果更好。例如，在 BlogCatalog 数据集上，结合属性信息的 AANE 在 Micro-average 得分上比 DeepWalk 相对提升 38.7%、比 LINE 提升 36.3%。
- 我们提出的 AANE 始终优于 LCMF, MultiSpec 方法。例如，在 Flickr 数据集上，AANE 比 LCMF 相对提升 18.2%。这可以解释为通过分解网络矩阵network matrix 和属性矩阵attribute matrix学到的潜在特征是异质的，并且很难将它们直接结合起来。
- LCMF,MultiSpec 方法无法应用于大型数据集。
效率评估：然后我们评估这些方法的训练效率。我们将 AANE 和 LCMF,MultiSpec 这些属性网络 embedding 方法进行比较。下图给出了这些模型在不同数据集上、不同顶点规模的训练时间。
结论：
- AANE 的训练时间始终比 LCMF 和 MultiSpec 更少。
- 随着顶点规模的增加，训练效率之间的 gap 也越来越大。
- AANE 可以在多线程环境下进一步提升训练效率。
AANE $O(n^2)$ AANE $O(1)$ 的复杂度并不会带来本质上的效率提升。
$\lambda$ $d$ 的影响。
- $\lambda$ $\lambda$ $10^{-6}$ $10^3$ ，对应的分类 Micro-F1 效果如下所示。
  - $\lambda$ 0 $\lambda$ 的增加，AANE 开始根据拓扑结构对节点进行聚类，因此性能不断提升。
  - $\lambda$ 接近 0.1 时，模型在 BlogCatalogFlickr $\lambda$ $\lambda$ 倾向于使得所有顶点具有相同的 embedding 。
- embedding $d$ $d$ 从 20 变化到 180，对应的分类 Micro-F1 效果如下所示。我们仅给出 Flickr 数据集的结果，BlogCatalog 和 Yelp 的结果也是类似的。
  可以看到：
  - $d$ 为多少，DeepWalk 和 LINE 都不如属性网络 embedding 方法（AANE,LCMF,MultiSpec ）
  - $d$ 为多少，AANE 的效果始终最佳。
  - $d$ 增加时，这些模型的效果先提高、然后保持稳定。这表示低维 embedding 已经能够捕获大多数有意义的信息。

二十、LANE[2017]

属性网络 attributed network 在各种现实世界的信息系统中无处不在，例如学术网络、医疗保健系统。与仅观测节点之间交互和依赖关系的常规网络不同，属性网络中的每个节点通常关联一组丰富的特征。例如，随着社交网络服务的普及，人们不仅可以结识朋友从而形成在线社区，还可以积极分享意见、发表评论。在社会科学中，人们已经研究了社交影响理论social influence theory ，即：个体的属性既可以反映、也可以影响他们的社区结构。此外，许多数据挖掘应用程序（如情感分析、信任预测）都可以受益于几何结构和节点属性之间的相关性。
network embedding 作为一种高效的图挖掘计算工具，旨在将网络中所有节点的拓扑邻近性topological proximity 映射为连续的低维向量 representation 。学到的 embedding representation 有助于节点分类、链接预测、网络可视化等众多应用。虽然 network embedding 已被广泛研究，但是对 Attributed Network Embedding: ANE 的研究仍处于早期阶段。与从纯网络pure network 学习的 network embedding 相比，ANE 的目标是利用网络邻近性proximity 和节点属性亲和性affinity 。由于两种信息源的异质性，现有的 network embedding 算法很难直接应用于 ANE 。
人们在各种现实世界的网络中收集了丰富的 label，如 group 或者社区类别。例如，在 Facebook 和 Flickr 等许多社交网络中，用户被允许加入一些预定义的分组。同组的用户倾向于分享类似主题的帖子或照片，并且组内用户之间也经常互动。引文网络是另一个例子。在同一个研究社区中发表的论文通常具有共同的主题，它们还大量引用来自同一社区的其它论文。这些事实可以用同质性假设homophily hypothesis 来解释，即，具有相同 label 的个体通常具有相似的社交关系和相似的节点属性。label 受到网络结构和属性信息的强烈影响，并与它们固有地相关。受到这一事实（即，label 可能有助于学习更好的联合 embedding representation）的启发，而现有方法关注于以无监督的方式学习 embedding，论文 《Label Informed Attributed Network Embedding》建议研究如何利用 label 信息并将其整合到 ANE 中。
然而，在属性网络中建模和利用 label 是一项困难的任务。有两个主要挑战：
- 首先，属性网络和 label 信息可能是稀疏sparse 的、不完整incomplete 的、噪音noisy 的。例如，在社交网络中，单个用户的好友数量相比总用户量而言总是极少的，特定 label 的活跃用户的占比也可能很小。
- 其次，鉴于属性网络及其 label 的异质性，学习统一的 representation 具有挑战性。与评论和帖子等属性不同，label 将实例划分为不同的分组或社区。很难显式地建模所有这些多模态信息源之间的相关性correlation ，并将它们共同嵌入到信息量丰富的 embedding representation 中。
因此，利用异质的、噪音的信息来相互补充从而获得有效的、鲁棒的 embedding representation 是一项具有挑战性的任务。
在论文 《Label Informed Attributed Network Embedding》中，作者研究了 label informed attributed network embedding 的问题，并提出了一个有效的框架 LANE。具体而言，论文旨在回答以下问题：
- 如何将 label 建模且融合到 ANE 框架中？
- label 对 embedding representation learning 的潜在影响是什么？
- LANE 通过利用 label 对其它学习任务（如节点分类）做出多大贡献？
总之，论文的主要贡献如下：
- 正式定义 label informed attributed network embedding 问题。
- 提出一个新的框架 LANE。LANE 可以将 label 与属性网络关联，并通过建模它们的结构邻近性和相关性，将它们平滑地嵌入到低维 representation 中。
- 提出一种有效的交替算法来解决 LANE 的优化问题。
- 实验评估和验证了 LANE 在真实世界属性网络上的有效性。
相关工作：
近年来，network embedding 越来越受欢迎。
- network embedding 的开创性工作可以追溯到 graph embedding 问题，该问题由 《On determining the genus of a graph in O(v^{O(g)}) steps》 在 1979 年作为 graph genus determining 问题所引入。
- 一系列更通用的 graph embedding 方法是在 2000 年代左右开发的。他们的目标是生成可以对数据的非线性几何进行建模的低维流形low-dimensional manifold，包括 Isomap、Laplacian Eigenmap、谱技术。
- 到目前为止，由于网络数据的普遍性，人们已经实现了各种 network embedding 算法。
  - 《Probabilistic latent semantic visualization: topic model for visualizing documents》 将概率潜在语义分析probabilistic latent semantic analysis: pLSA 应用于嵌入文档网络。
  - 《Community evolution in dynamic multi-mode networks》 研究了利用时间信息分析动态多模式网络的优势。
  - 《Structure preserving embedding》 利用半定程序semidefinite program 来学习低维 representation ，从而很好地保留了全局拓扑结构。
  - 《Topic modeling with network regularization》 设计了一种基于 harmonic regularization 的 embedding 框架来解决具有网络结构的主题建模问题。
  - 《Distributed large-scale natural graph factorization》 提出了一种用于大规模图的异步分布式矩阵分解算法。
  - 《Learning social network embeddings for predicting information diffusion》 将观察到的时间动态投影到潜在空间中，从而更好地建模网络中的信息扩散。
  - 《node2vec: Scalable feature learning for networks》 通过增加邻域的灵活性，进一步推进了基于随机游走的 embedding 算法。
  - 为了嵌入异质网络，《Learning latent representations of nodes for classifying in heterogeneous social networks》 将 transductive 模型和深度学习技术扩展到该问题中。
  - 《Revisiting semi-supervised learning with graph embeddings》 利用概率模型以半监督方式进行 network embedding。
  最近，人们提出了几种基于深度学习的 embedding 算法，从而进一步提高学习 representation 的性能。
在众多现实世界网络中，节点往往关联丰富的节点属性信息，因此人们提出了属性网络分析。在这些网络中，人们普遍认为几何结构和节点属性之间存在相关性。因此，同时利用这两者的算法可以提高整体的学习性能。例如，《What's in a hashtag? content based prediction of the spread of ideas in microblogging communities》 通过分析社交图的拓扑和内容，从而推进对思想ideas 传播的预测。为了解决复杂的数据结构，人们致力于将两个信息源联合嵌入到一个统一的空间中。
- 《Exploring context and content links in social media: A latent space method》 探索了一种有效的算法，通过构建语义概念semantic concept 的潜在空间，从而联合嵌入社交媒体中的链接和内容。
- 《Probabilistic latent document network embedding》 提出一个整体框架来同时处理文档链接和文本信息，并找到一个统一的低维 representation。他们通过联合概率模型来实现这一目标。
- 《Unsupervised streaming feature selection in social media》 利用流式特征选择框架联合学习高维内容数据和链接信息中的潜在因子的概率。
- 《Heterogeneous network embedding via deep architectures》 将内容转换为另一个网络，并利用非线性多层 embedding 模型来学习构建的内容网络与原始网络之间的复杂交互。
在许多应用中，数据表现出多个方面multiple facets，这些数据被称作多视图数据。多视图学习 multi-view learning 旨在从多个信息源中学习统计模型。人们已经提出了许多算法。
- 《A reconstruction error based framework for multi-label and multi-view learning》 研究了一种基于重构误差的框架，用于处理 multi-label 和 multi-view 学习。该框架可以显式量化多个 label 或视图的合并的性能。
- 《Pre-trained multi-view word embedding using two-side neural network》 应用了一个 two-side 多模态神经网络来嵌入基于多个数据源的 word 。
《A survey of multi-view machine learning》 对多视图学习给出了更详细的回顾。我们的工作与多视图学习之间的主要区别在于：属性网络可以被视为一个特殊构建的数据源，而且 ANE 本身就是一个具有挑战性的问题。label 也是具有特定形式的特殊数据源。

20.1 模型

20.1.1 基本概念

$\mathcal G=(\mathcal V,\mathcal E,\mathbf W, \mathbf A)$ 为一个属性网络，其中：
- $\mathcal V=\{v_1,\cdots,v_n\}$ $n$ $\mathcal E$ 为所有边的集合。
- $\mathbf W=\{w_{i,j}\} \in \mathbb R^{n\times n}$ $w_{i,j}\gt 0$ $(v_i,v_j)\in \mathcal E$ $(v_i,v_j)\ne \mathcal E$ $w_{i,j} = 0$ 。
- $\mathbf A =\{a_{i,j}\}\in \mathbb R^{n\times m}$ $m$ $\mathbf A$ $i$ $\mathbf{\vec a}_i = (a_{i,1},\cdots,a_{i,m})^\top\in \mathbb R^m$ $v_i$ 的属性向量。
除了网络结构和节点属性之外，每个节点还关联一组 labellabel $\mathbf Y = \{y_{i,j}\}\in \mathbb R^{n\times k}$ $k$ label $\mathbf Y$ $i$ $\mathbf{\vec y}_i = (y_{i,1},\cdots,y_{i,k})^\top\in \mathbb R^k$ label $y_{i,j} = 1$ $j$ 类 label ，每个节点可以属于其中某一类 label 或者某几类 label 。
label informed attributed network embedding $\mathcal G$ label $\mathbf Y$ $v_i$ representation $\mathbf{\vec h}_i\in \mathbb R^d$ $\mathbf{\vec h}_i$ 尽可能包含属性网络信息和 label 信息。
我们提出了一种新颖的informed attributed network embedding: LANE 方法。LANE 可以建模属性网络空间和 label 信息空间中的节点邻近性，并将它们联合嵌入到统一的低维 representation 中。下图说明了 LANE 的主要思想，图中有一个含有六个节点的属性网络，每个节点都有各自的label 。
LANE 通过两个模块来学习节点的embedding ：属性网络嵌入 Attributed Network Embedding、标签信息嵌入 Label Informed Embedding 。
- representation $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ 中。
- $\mathbf U^{(G)}$ label $\mathbf U^{(Y)}$ 中。
- 最后，我们将所有学到的潜在representationrepresentation $\mathbf H$ 中。
如下图所示，节点 1 和节点 3 的 embedding向量分别为 [0.54, 0.27] 和 [0.55, 0.28]，这意味着它们在原始空间中具有相似的属性。为了有效地学习节点 embedding ，我们设计了一种高效的交替优化算法。

20.1.2 Attributed Network Embedding: ANE

Attributed Network Embedding $n\times d$ $\mathcal G$ 中的节点，从而保持网络结构信息和节点属性信息。具体而言，我们旨在为结构相似或者属性相似的节点分配相似的向量representation 。
$v_i$ $v_j$ representation $\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ $s_{i,j} = \cos(\mathbf{\vec w}_i,\mathbf{\vec w}_j)$ $v_i,v_j$ $\left\|\mathbf{\vec u}_i - \mathbf{\vec u}_j\right\|_2^2$ representation $\mathbf {\vec w}_i \in \mathbb R^n$ $i$ $v_i,v_j$ 的结构相似性。
$\mathbf{\vec w}_i$ AANE $w_{i,j}$ 作为结构相似性指标。
$s_{i,j}\times \left\| \mathbf{\vec u}_i - \mathbf{\vec u}_j\right\|_2^2$ $s_{i,j}$ $\{\mathbf{\vec u}_i,\mathbf{\vec u}_j\}$ 之间的不一致程度：
- $v_i$ $v_j$ $s_{i,j}$ $\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ $\left\| \mathbf{\vec u}_i - \mathbf{\vec u}_j\right\|_2^2$ 较小）。
- $\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ $v_i$ $v_j$ $s_{i,j}$ 较小）。
$\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ embedding $\mathbf U^{(G)^\top} \mathbf U^{(G)} = \mathbf I$ 。
考虑所有节点，则我们得到总的不一致程度为：
$\frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} s_{i, j} \times {‖ {\vec{u}}_{i} - {\vec{u}}_{j} ‖}_{2}^{2}$
pair-wise $\mathbf S^{(G)}$ $s_{i,j}$ $i$ $j$ $d_i = \sum_{j} s_{i,j}$ $i$ $d_i$ $d_i$ $d_i$ $d_j$ 进行归一化：
$\frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} s_{i, j} \times {‖ \frac{{\vec{u}}_{i}}{{\sqrt{d}}_{i}} - \frac{{\vec{u}}_{j}}{{\sqrt{d}}_{j}} ‖}_{2}^{2}$
这里采用这种归一化形式是为了得到拉普拉斯矩阵的矩阵形式。
则我们的目标函数为：
$min_{U^{(G)}} \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} s_{i, j} \times {‖ \frac{{\vec{u}}_{i}}{{\sqrt{d}}_{i}} - \frac{{\vec{u}}_{j}}{{\sqrt{d}}_{j}} ‖}_{2}^{2}$
$\mathbf U^{(G)}$ representation $i$ $\mathbf{\vec u}_i$ 。根据归一化图拉普拉斯矩阵的定义，我们将结构邻近性建模的目标函数重写为：
$\begin{matrix} max_{U^{(G)}} J_{G} = tr (U^{(G)^{⊤}} L^{(G)} U^{(G)}) \\ s . t . U^{(G)^{⊤}} U^{(G)} = I \end{matrix}$
$\text{tr}(\cdot)$ $\mathbf L^{(G)} = \mathbf D^{(G)-\frac 12} \mathbf S^{(G)} \mathbf D^{(G)-\frac 12}$ $\mathbf D^{(G)}=\text{diag}(d_1,\cdots,d_n)$ 为对角矩阵。
$\mathbf U^{(G)^\top}\mathbf U^{(G)} = \mathbf I$ 是为了得到唯一解。如果没有该约束，则解为任意多个。
pair-wise $\mathbf S^{(A)}$ representation $\mathbf U^{(A)}$ $\mathbf U^{(A)}$ $\mathbf S^{(A)}$ 之间的不一致性。
$\mathbf L^{(A)} = \mathbf D^{(A)-\frac 12} \mathbf S^{(A)} \mathbf D^{(A) -\frac 12}$ $\mathbf D^{(A)}=\text{diag}(d_1^{(A)},\cdots,d_n^{(A)})$ $d_i^{(A)}$ $\mathbf S^{(A)}$ $i$ 行之和。则节点属性邻近性建模的目标函数为：
$\begin{matrix} max_{U^{(A)}} J_{A} = tr (U^{(A)^{⊤}} L^{(A)} U^{(A)}) \\ s . t . U^{(A)^{⊤}} U^{(A)} = I \end{matrix}$
$\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ 投影后的矩阵的方差作为相关性度量：
$ρ_{1} = tr (U^{(A)^{⊤}} U^{(G)} U^{(G)^{⊤}} U^{(A)})$
$\mathbf U^{(G)^\top} \mathbf U^{(A)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf{\vec a}$ $\mathbf{\vec b}$ 上的投影。
这里是通过正则化的方式，迫使结构邻近性和节点属性邻近性产生高度的相关。
$\mathcal J_G,\mathcal J_A$ $\mathbf U^{(A)}, \mathbf U^{(G)}$ $\rho_1$ ：
$\begin{matrix} max_{U^{(G)}, U^{(A)}} (J_{G} + α_{1} J_{A} + α_{1} ρ_{1}) \\ s . t . U^{(G)^{⊤}} U^{(G)} = I, U^{(A)^{⊤}} U^{(A)} = I \end{matrix}$
$\alpha_1$ 平衡 ANE 模块内部网络结构和节点属性的贡献。
论文 《Accelerated Attributed Network Embedding》AANE $\mathbf U^{(A)} = \mathbf U^{(G)}$ $\rho_1$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ 的约束，使得模型表达能力更强。
我们在 ANE 模块基于pair-wise 相似性来执行属性网络 embedding。这种方法和谱聚类相一致，它有几个优点：
- 对于输入没有很强的假设，即普适性较好，可以推广到很多实际问题。
- 目标函数可以使用很多图论来解释，如 ratio-cut partitioning、随机游走。
- 可以通过eigen-decomposition 特征值分解很容易求解问题。

20.1.3 Label Informed Embedding: LIE

label 信息在确定每个节点内部结构方面起着至关重要的作用，它和网络结构、节点属性有着强烈的、固有的相关性。除了这些强相关性之外，label 还可能被纳入前面提到的 ANE 模块中。然而，label 通常是噪音noisy 的、且不完整incomplete 的。直接探索label 可能会对最终的 embedding 产生负面影响。我们提出了一种对 label 进行建模的方法，并且使用两个步骤来强化 embedding representation learning ：label information modeling 、correlation projection 。
Label Information Modeling：在这一步中，我们将labelrepresentation $\mathbf U^{(Y)}$ 中。其基本思想是：利用属性网络embedding 来平滑label 邻近性，使得当节点具有相同的 label 时，它们的网络结构、节点属性、以及最终的representation 都趋近于相似。
具体而言，我们根据labelclique $\mathbf Y\mathbf Y^\top\in \mathbb R^{n\times n}$ $i$ $j$ $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j$ $v_i$ $v_j$ 的label 向量的内积。假设每个节点仅属于一个label 类别：
- $v_i$ $v_j$ $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j = 0$ $v_i$ $v_j$ 属于不同的clique 。
- $v_i$ $v_j$ $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j = 1$ $v_i$ $v_j$ 属于相同的clique 。
label $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j$ $v_i$ $v_j$ 的类别交集。
$\mathbf Y\mathbf Y^\top$ label $\mathbf S^{(YY)}$ $\mathbf Y \mathbf Y^\top$ $\mathbf L^{(YY)} = \mathbf D^{(Y)-\frac 12} \mathbf S^{YY} \mathbf D^{(Y)- \frac 12}$ $\mathbf D^{(Y)}$ $\mathbf S^{(YY )}$ 对应行的和。
$\mathbf U^{(Y)}$ label $\mathbf Y\in \mathbb R^{n\times k}$ $k$ $\mathbf Y\mathbf Y^\top$ $k$ $\mathbf S^{(YY)}$ $k$ $k \ll d$ $\mathbf L^{(YY)}$ 的特征值分解的效果不理想。
$\mathbf U^{(G)}\mathbf U^{(G)^\top}$ 来smooth 模型。我们定义以下目标函数使得相同label 的节点具有相似的representation：
$\begin{matrix} max_{U^{(Y)}} J_{Y} = tr (U^{(Y)^{⊤}} (L^{(Y Y)} + U^{(G)} U^{(G)^{⊤}}) U^{(Y)}) \\ s . t . U^{(Y)^{⊤}} U^{(Y)} = I \end{matrix}$
这里假设结构相似的节点可能具有相同的 label 。这里没有考虑属性邻近性，主要是为了将 label 融合到网络结构中。
$\lambda$ ，从而平衡 labelembedding $\mathbf L^{(YY)} + \lambda \mathbf U^{(G)} \mathbf U^{(G)^\top}$ ？论文并未讨论。
$\mathcal J_A+\rho_1 = \text{tr}\left( \mathbf U^{(A)^\top} \left( \mathbf L^{(A)} + \mathbf U^{(G)} \mathbf U^{(G)^\top}\right)\mathbf U^{(A)}\right)$ embedding $\mathbf U^{(G)}\mathbf U^{(G)^\top}$ 来smooth 模型。
这种方式有几个优点：
- $\mathbf U^{(G)}\in \mathbb R^{n\times d}$ $\mathbf U^{(G)} \mathbf U^{(G)^\top}$ $d$ 并且位于噪声显著降低的低秩空间。
- 其次，联合的邻近性融合了更多的信息，这使得label 信息与网络结构、节点属性等信息相一致。
  $\text{tr}\left( \mathbf U^{(Y)^\top} \mathbf U^{(G)} \mathbf U^{(G)^\top} \mathbf U^{(Y)}\right)$ $\mathbf U^{(G)}$ $\mathbf U^{(Y)}$ 之间的相关性，这有助于label 邻近性学习，因为label 和节点结构、节点属性是高度相关的。
- representation $\mathbf U^{(Y)}$ 中的噪音大大降低，并且原始的 label 空间中大部分信息可被恢复。
因此，尽管label 信息可能是不完整的、且噪音的，但我们仍然能够捕获label 空间中的节点邻近性。
Correlation Projectionembedding $\mathbf U^{(A)}, \mathbf U^{(G)}$ ，以及labelembedding $\mathbf U^{(Y)}$ embedding $\mathbf H$ 。
我们将这些 embeddingembedding $\mathbf H$ 。为了尽可能保留投影后的信息，我们利用投影矩阵的方差作为其相关性的度量，定义为：
$\begin{matrix} ρ_{2} = tr (U^{(G)^{⊤}} H H^{⊤} U^{(G)}) \\ ρ_{3} = tr (U^{(A)^{⊤}} H H^{⊤} U^{(A)}) \\ ρ_{4} = tr (U^{(Y)^{⊤}} H H^{⊤} U^{(Y)}) \end{matrix}$
则投影的目标函数定义为：
$max_{U^{(\cdot)}, H} J_{corr} = ρ_{2} + ρ_{3} + ρ_{4}$
$\mathbf U^{(\cdot)}$ 表示所有的三个潜在 embedding 。
这里通过相关性最大，从而从三个潜在 embeddingembedding $\mathbf H$ 。

20.1.4 联合学习

现在我们考虑所有的 embedding ，以及所有的相关性。我们定义两个参数来平衡不同度量的重要性从而得到 LANE 的目标函数：
$\begin{matrix} max_{U^{(G)}, U^{(A)}, U^{(Y)}, H} J = (J_{G} + α_{1} J_{A} + α_{1} ρ_{1}) + α_{2} J_{Y} + J_{corr} \\ s . t . U^{(G)^{⊤}} U^{(G)} = I, U^{(A)^{⊤}} U^{(A)} = I \\ U^{(Y)^{⊤}} U^{(Y)} = I, H^{⊤} H = I \end{matrix}$
$\alpha_1\gt 0$ ANE $\alpha_2\gt 0$ 用于平衡 ANE 模块和 LIE 模块的贡献。
$\mathcal J$ 的最优解，我们能够使得 embedding representation learningcorrelation projection $\mathbf H$ 能够捕获结构邻近性、属性邻近性、label 邻近性，以及它们之间的相关性。
优化算法：目标函数有四个矩阵变量需要优化，因此无法得到闭式解。这里我们采用一种交替优化算法来逼近最优解。基本思想是：每轮迭代时固定其中三个变量而求解另外一个变量的局部最优解。当固定其中三个变量时，目标函数就是剩下变量的凸函数。
$\mathbf U^{(G)}$ 的二阶导数：
$\nabla_{U^{(G)}}^{2} J = L^{(G)} + α_{1} U^{(A)^{⊤}} U^{(A)} + α_{2} U^{(Y)^{⊤}} U^{(Y)} + H^{⊤} H$
$\mathbf L^{(G)}$ $\alpha_1\gt0,\alpha_2\gt0$ $\mathbf U^{(G)^\top} \mathbf U^{(G)},\mathbf H^\top\mathbf H$ $\nabla_{\mathbf U^{(G)}}^2 \mathcal J$ 为半正定矩阵。
$\mathbf U^{(A)},\mathbf U^{(Y)},\mathbf H$ $\mathcal J$ $\mathbf U^{(G)}$ $\lambda_1,\lambda_2,\lambda_3,\lambda_4$ $\nabla_{\mathbf U^{(G)}} \mathcal J = \mathbf 0$ ，则有：
$(L^{(G)} + α_{1} U^{(A)} U^{(A)^{⊤}} + α_{2} U^{(Y)} U^{(Y)^{⊤}} + H H^{⊤}) U^{(G)} = λ_{1} U^{(G)}$
$\mathbf U^{(G)}$ $\mathbf L^{(G)} + \alpha_1 \mathbf U^{(A)} \mathbf U^{(A)^\top} + \alpha_2 \mathbf U^{(Y)} \mathbf U^{(Y)^\top} + \mathbf H \mathbf H^\top$ top $d$ 特征向量。
$\mathcal J$ top $d$ 特征向量：
$\begin{matrix} (α_{1} L^{(A)} + α_{1} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(A)} = λ_{2} U^{(A)} \\ (α_{2} L^{(Y Y)} + α_{2} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(Y)} = λ_{3} U^{(Y)} \\ (U^{(G)} U^{(G)^{⊤}} + U^{(A)} U^{(A)^{⊤}} + U^{(Y)} U^{(Y)^{⊤}}) H = λ_{4} H \end{matrix}$
由于每个updating step 都是求解凸优化问题，因此可以保证收敛到局部最优解。
representation $\mathbf U^{(G)}$ $\mathcal J$ $\epsilon$ 为止。
LANE 训练算法：
- 输入：
  - $\mathcal G(\mathcal V,\mathcal E,\mathbf W,\mathbf A)$
  - label $\mathbf Y$
  - embedding $d$
  - $\epsilon$
- embedding $\mathbf H$
- 步骤：
  - $\mathbf S^{(G)}$ $\mathbf S^{(A)}$ label $\mathbf S^{(YY)}$
  - $\mathbf L^{(G)},\mathbf L^{(A)},\mathbf L^{(Y)}$
  - $t=1,\mathbf U^{(A)} = \mathbf 0, \mathbf U^{(Y)} = \mathbf 0,\mathbf H = \mathbf 0$
  - $\mathcal J_t - \mathcal J_{t-1} \le \epsilon$ 。迭代步骤为：
    - $\mathbf U^{(G)}$ ：
      $(L^{(G)} + α_{1} U^{(A)} U^{(A)^{⊤}} + α_{2} U^{(Y)} U^{(Y)^{⊤}} + H H^{⊤}) U^{(G)} = λ_{1} U^{(G)}$
    - $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ ）
      $(α_{1} L^{(A)} + α_{1} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(A)} = λ_{2} U^{(A)}$
    - $\mathbf U^{(Y)}$ $\mathbf U^{(G)},\mathbf U^{(A)}$ ）
      $(α_{2} L^{(Y Y)} + α_{2} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(Y)} = λ_{3} U^{(Y)}$
    - $\mathbf H$ $\mathbf U^{(G)},\mathbf U^{(A)},\mathbf U^{(Y)}$ ）
      $(U^{(G)} U^{(G)^{⊤}} + U^{(A)} U^{(A)^{⊤}} + U^{(Y)} U^{(Y)^{⊤}}) H = λ_{4} H$
LANE $\mathbb R^{n\times n}$ 矩阵的top dLanczos $O(dn^2)$ 复杂度。
$T_a$ LANE $O(T_a+dn^2)$ spectral embedding $d\ll n$ $T_a$ $\mathbf W$ $\mathbf A$ LANE $O(n^2 + n \mathcal T)$ $\mathcal T$ $\mathbf W$ $\mathbf A$ 中所有非零元素总数。
LANE $O(n^2)$ 。
这种复杂度对于大型网络而言是不可行的。
在某些网络中节点属性或者节点label 可能不可用。如，当移动通信公司希望分析客户网络以便提供更好的服务时，他们只能收集到通讯网络及其部分label 信息，通讯内容、用户偏好之类的属性不可用。LANE 也能够处理这类场景，其中节点属性或节点label 之一发生缺失，或者二者全部缺失。
label $\mathcal J$ $\mathcal J_Y$ label $\rho_4$ label $\mathbf H$ 的相关性进行建模）。移除这两项之后，我们的目标函数为：
$\begin{matrix} max_{U^{(G)}, U^{(A)}, H} J = J_{G} + β_{1} J_{A} + β_{2} ρ_{1} + ρ_{2} + ρ_{3} \\ s . t . U^{(G)^{⊤}} U^{(G)} = I, U^{(A)^{⊤}} U^{(A)} = I, H^{⊤} H = I \end{matrix}$
$\beta_1\gt 0, \beta_2 \gt 0$ 决定了节点属性的贡献，以及节点属性和网络结构相关性的贡献。
LANE 的这种变体我们称作 LANE_w/o_LABEL ，其求解方法也类似于上述交替优化算法。

20.2 实验

数据集：
- BlogCatalog 数据集：一个博客社区，用户彼此关注从而构成一个网络。用户可以生成关键词来作为其博客的简短描述，我们将这些关键词作为节点（用户）的属性。用户也可以将其博客注册为指定的类别，我们将这些类别作为用户的 label 。
- Flickr 数据集：一个在线图片共享社区，用户彼此关注从而构成一个网络。用户可以为图片指定 tag ，我们将这些 tag 作为节点（用户）的属性。用于可以加入不同的组，我们将这些组作为用户的 label 。
Baseline 模型可以分为四类：
- 首先，为评估embedding 的效果，我们使用原始特征作为 baseline 。
- 然后，为评估节点属性的贡献，我们考虑三种仅嵌入网络结构的方法，包括 DeepWalk,LINE, LANE_on_Net 。
- 接着，为评估label信息的贡献，我们考虑两种 ANE 方法，包括 LCMF 和 LANE_w/o_Label 。
- 最后，为评估 LANE 的效果，我们考虑SpecComb 和 MultiView 方法。
具体描述如下：
- Original Features 原始特征：将原始网络结构特征、原始节点属性特征直接拼接，从而作为节点特征。
- DeepWalk：使用 SkipGram 学习基于图上的、截断的随机游走序列从而得到图的 embedding 。
- LINE：建模图的一阶邻近度和二阶邻近度从而得到图的 embedding 。
- LCMF：它通过对网络结构信息和节点属性信息进行联合矩阵分解来学习图的 embedding 。
- SpecComb $\mathcal G$ label $\mathbf Y$ 拼接到一个矩阵，然后执行归一化的谱嵌入 normalized spectral embedding 。最后选择 top d 的特征向量作为embedding 。
- MultiView：将网络结构、节点属性、节点 label 视为三个视图，并在它们上共同应用正则化的谱聚类spectral clustering 。
- LANE_on_NET 和 LANE_W/o_LABEL：是LANE 的两个变种。LANE_on_NET 仅对单纯的网络结构建模， LANE_W/o_LABEL 对网络结构和节点属性建模（没有节点label 信息）。
实验配置：我们验证不同算法学到的 embedding 对节点分类任务的有效性。我们使用五折交叉验证，并随机将数据集划分为训练集和测试集。其中，训练集不包含任何测试集的信息（训练期间测试节点是 unseen 的），但是测试集包含测试节点到任何其它节点的链接信息。
我们首先在训练集上学到节点的 embedding，然后在训练集上训练一个SVM 分类器，分类器的输入为节点的 embedding、输出为节点的labelembedding $\mathbf B^{(G)}$ $\mathbf B^{(A)}$ $\mathbf W$ $\mathbf A$ embedding $\mathbf V$ ：
$W = V B^{(G)}, A = V B^{(A)}$
$\mathbf W$ $\mathbf A$ unseen $\mathbf V$ 。
为简单起见这里我们使用线性映射，也可以使用其它非线性映射函数。我们并没有根据测试集来训练 embeddinglabel $\mathbf Y$ $\mathbf B^{(G)}$ $\mathbf B^{(A)}$ $k$ 个顶点，其 embedding 向量为：
${\vec{h}}_{k} = {\vec{w}}_{k} {({\vec{B}}^{(G)})}^{- 1} + δ {\vec{a}}_{k} {({\vec{B}}^{(A)})}^{- 1}$
$\delta \gt 0$ $\mathbf W$ $\mathbf A$ $(\cdot)^{-1}$ 为逆矩阵。
最后我们基于测试集的 embedding 和训练集学到的 SVM 分类器来对测试集进行分类，并报告分类的 F1 指标。每种配置都随机执行 10 次并报告指标的均值。
embedding $d=100$ 。Baseline 方法的其它超参数都使用原始论文中的超参数，LANE 方法的超参数通过grid search 搜索到合适的值。
为证明embedding 的有效性，我们将 LANE 及其变体与原始特征进行比较。其中 BlogCatalog 数据集的原始特征为 12346 维、Flickr 数据集的原始特征为 18107 维。实验中，我们将 embedding 维度从5 增加到 100Flickr $d$ 对应的分类效果。我们忽略了 BlogCatalog 数据集，因为结果也类似。
结论：
- $d=60$ 远小于18107 时，LANE_w/o_Label 可以达到和原始特征相近的分类能力。
- $d=35$ 远小于18107 时，LANE 可以达到和原始特征相近的分类能力。
- LANE_on_Net 比原始特征效果更差，这是因为它仅包含网络结构信息。
因此，通过利用 embedding representation learning，LANE 实现了比原始特征更好的性能。
为研究 LANEBaseline $d=100$ $\{\frac{1}{16},\frac{1}{8},\frac 14,\frac 12,1\}$ 。
结论：
- 所有情况下，LANE 总是优于Baseline 模型。
- $\frac 1{16}$ 增加到 100% 时，LANE 的性能持续改善，但增长的幅度变小。
为评估label 信息对于 embedding 的影响，我们分析上表中的数据。
- 与单纯的网络结构embedding 方法(DeepWalk, LINE, LANE_on_Net ) 相比，使用了节点属性信息的 LANE_w/o_Label 的效果更好。但是利用了label 信息之后，LANE 进一步超越了LANE_w/o_Label。这证明了将label 信息融合到 embedding 中的优势。
  另外 LANE 也超过了属性网络embedding 方法 LCMF，这进一步证明了label 信息的优势。
- 通过 LANE 和 SpecComb/MultiView 的比较发现，SpecComb/MultiView 的效果始终不如 LANE，甚至比单纯的网络结构 embedding 方法（如 DeepWalk ）更差。这是因为：
  - SpecComb 没有明确考虑固有的相关性，并且直接拼接异质信息并不是组合异质信息的合适方法。
  - MultiView 会平等对待网络结构、节点属性、label 信息，这也不是融合这些异质信息的好方法。
所有这些观察结果表明：
- 属性网络和label 之间确实存在很强的相关性。
- label 信息确实可以帮助我们获得更好的 embedding representation 。
- 如何融合label 信息需要一种合适的方法。
LINE 通过执行 label informed embedding 成功地实现了这一提升，并始终优于所有 baseline 方法。我们要强调的是：在节点分类任务中，所有方法都可以访问训练集中的 label，并以不同的方式利用label 信息。只有 LANE, SpecComb, MultiView 可以将这些 label 合并到 embedding representation learning 中。因此，LANE 的优势不是拥有额外的信息源，而是执行 label informed embedding 的结果。
$\alpha_1,\alpha_2$ 平衡了属性网络和label 信息的贡献。我们同时将它们从 0.01 增加到 100。Flickr 数据集上的指标如下，BlogCatalog 也有类似结果因此省略。
结论：
- label $\alpha_1\gt 1,\alpha_2 \gt 10$ 时，LANE 会实现相对较高的性能。
- $\alpha_1$ $\alpha_2$ $\alpha_2 \simeq 1$ $\alpha_2$ 很小，结论也类似。
- $\alpha_1 = 100$ $\alpha_2$ 从 0.01 变化到 10042.7% $\alpha_2=100$ $\alpha_1$ 从 0.01 变化到 100 时，模型性能提升了 16.07%。这表明label 信息对于 LANE 的影响大于属性网络。
  $\alpha_2$ 的波动更大，这说明 label 信息的影响更大。
总之，通过配置合理的参数，LANE 可以实现相对较高的性能。同时，label 信息在 embedding 过程中非常重要。
$d$ 从 20 变化到 180 来研究分类性能的影响。。在 Flickr 数据集上不同方法的效果和 d 的关系如下图，BlogCatalog 也有类似结果因此省略。
结论：
- $d\gt 20$ 时之前观察到的结论都成立：LANE始终比所有基准方法效果更好。
- $d$ LANE $d$ 。
最后我们比较 LANE 和两种属性网络 ANE 方法（LCMF 和 MultiView ）的运行时间。我们在 Flickr 数据集上观察输入节点数量和训练时间（对数表示）的关系，BlogCatalog 也有类似结果因此省略。
结论：LANE 的运行时间最少。原因是：
- LCMF 基于随机梯度下降来优化，这通常收敛速度很慢。
- MultiView 具有和 LANE 相同的时间复杂度，但经验表明 LANE 可以在这两个数据集上仅使用几个迭代就能收敛。因此这证明了 LANE 的计算效率。

二十一、MVE[2017]

由于在现实世界中的广泛应用，挖掘和分析大规模信息网络（如社交网络、引文网络、航空网络）最近引起了很多关注。为了有效地、高效地挖掘此类网络，首要条件是找到有意义的 network representation 。传统上，网络被表示为节点的邻接矩阵，这个矩阵既是高维的、又是稀疏的。最近，人们越来越关注将网络表示为低维空间（也称作 network embedding），其中每个节点都用一个低维向量来表示。这样的向量能够保持节点之间的邻近性proximity ，因此可被视为节点特征并有助于各种下游应用（如节点分类、链接预测、节点可视化）。
尽管这些工作在许多网络中经验性地有效和高效，但是它们都假设网络中的节点之间仅存在一种类型的邻近性，而实际上网络中存在多种类型的邻近性。以科技文献中作者之间的网络为例，可以通过 co-authorship 关系来得到邻近性，即两位作者是否曾经共同撰写过同一篇论文；也可以通过引用关系来得到邻近性，即一位作者是否引用另一位作者的论文。另一个例子是社交网站中用户之间的网络，其中存在多种类型的邻近性，例如由关注（following-followee）、回复、转发、引用等关系所产生的邻近性。每种邻近性定义了一个网络视图，多个邻近性产生了一个具有多视图multiple views 的网络。每个单独的视图通常是稀疏sparse 的、有偏biased 的，因此现有方法学到的node representation 可能不是那么全面。为了学到更鲁棒的 node representation，一个自然的解决方案可能是利用来自多个视图的信息。
这促使我们研究一个新的问题：学习多视图网络的 node representation ，旨在通过考虑网络的多个视图来学习节点的 robust representation。在文献中，人们已经提出了各种方法来从多个视图中学习数据 representation，例如多视图聚类 multi-view clustering 方法、多视图矩阵分解multi-view matrix factorization 方法。这些方法在许多application 上表现良好，例如聚类任务、推荐任务。但是，当应用于我们的问题时，它们具有以下局限性：
- 视图协同collaboration 不足。由于网络的每个单独的视图通常都是有偏biased 的，因此学习节点的 robust representation 需要多个视图的协同。然而，大多数现有的多视图学习方法旨在找到跨不同视图的 compatible representation，而不是促进不同视图的协同从而找到节点的 robust representation 。
- 缺乏权重学习 weight learning 。为了学习节点的 robust representation，需要整合来自多个视图的信息。在集成过程中，由于不同视图的重要性可能存在差异，因此需要仔细确定它们的权重。现有方法通常为所有视图分配相同的权重。换句话讲，不同的视图被同等对待，这对于大多数多视图网络而言是不合理的。
为了克服这些限制，我们正在寻求一种能够促进不同视图协同，并在集成过程中自动推断视图权重的方法。
在论文《An Attention-based Collaboration Framework for Multi-View Network Representation Learning》中，作者提出了这种方法。作者首先引入一组 view-specific 的node representation ，从而保持不同视图中节点的邻近性。然后作者组合 view-specific 的node representation 从而用于投票出节点的 robust representation 。由于不同视图的信息量可能不同，因此理想的情况下，在投票过程中需要以不同的方式对待每个视图。换句话讲，每个视图的权重应该不同。受到最近神经机器翻译neural machine translation 中注意力机制attention mechanism 进展的启发，在论文中作者提出了一种基于注意力的方法来推断不同节点的各个视图权重。该方法利用一些标记数据。整个模型可以通过反向传播算法进行有效地训练，在优化 view-specific node representation 、以及投票出节点的 robust representation （通过学习不同视图的权重）之间交替进行。
作者对各种现实世界的多视图网络进行了广泛的实验。多标签节点分类任务、链接预测任务的实验结果表明：论文提出的方法优于用于学习单视图 node representation 的最新方法、以及多视图的其它竞争性方法。
总之，论文贡献如下：
- 论文建议研究 multi-view network representation learning，旨在通过利用来自多个视图的信息来学习 node representation。
- 论文提出了一个新颖的协同框架，该框架促进了不同视图的协同collaboration ，以投票的方式得到节点的 robust representation。论文引入了一种注意力机制，用于在投票期间学习不同视图的权重。
- 论文在几个多视图网络上进行了实验。两项任务的实验结果证明了所提出的方法在许多竞争性的 baseline 上的效率和效果。
相关工作：我们的工作与现有的、用于学习 network representation 的 scalable 方法有关，包括 DeepWalk, LINE, node2vec。这些方法使用不同的搜索策略来探索网络结构：深度优先搜索 depth-first search: DFS、广度优先搜索 breadth-first search: BFS、以及这两种搜索策略的组合。然而，所有这些方法都侧重于学习单视图网络single-view network 的 node representation，而我们研究多视图网络multiple-view network 。
另一类相关工作是多视图学习multi-view learning ，旨在利用来自多个视图的信息，并在分类、聚类、ranking、主题模型topic modeling 等任务中显示出有效性。与我们最相似的工作是多视图聚类、以及多视图矩阵分解方法。例如：
- 《Co-regularized multi-view spectral clustering》 提出了一个谱聚类spectral clustering 框架来正则化regularize不同视图的聚类假设clustering hypotheses 。
- 《Multiview spectral embedding》 提出了一种多视图非负矩阵分解模型，旨在最小化每个视图的相关系数矩阵 coefficient matrix 和共性矩阵 consensus matrix 之间的距离。
我们的多视图 network representation 方法与这些工作具有相似的直觉，旨在找到跨多个视图的、鲁棒的 data representation 。然而，主要区别在于现有方法为所有视图分配相同的权重，而我们的方法采用基于注意力的方法，从而为不同节点学习不同的视图投票权重。
此外，我们的工作还与基于注意力的模型 attention based model有关。基于注意力的模型旨在推断训练数据不同部分的重要性，并让 learning 算法专注于信息量最大的部分。基于注意力的模型已经应用于各种任务，包括图像分类、机器翻译、语音识别。据我们所知，这是在 multi-view network representation learning 问题中首次尝试使用基于注意力的方法。

21.1 模型

21.1.1 基本概念

Information Network $G=(\mathcal V,\mathcal E)$ $\mathcal V$ $\mathcal E$ $e = (u,v)$ $w_{u,v}\gt 0$ $u$ $v$ 之间关系的强度。
proximity $\mathcal E$ 来刻画。
传统上，网络被表示为稀疏的、高维的邻接矩阵。最近，人们越来越关注学习网络的低维向量 representation （也称作 network embedding ）。
Network Embedding $G=(\mathcal V,\mathcal E)$ network embedding $v\in \mathcal V$ representation $\mathbf{\vec x}_v\in \mathbb R^d$ $d\ll |\mathcal V|$ ），该representation 保留节点之间的邻近性。
最近人们已经提出了各种 network embedding 方法。尽管它们已被证明在各种场景中有效果、高效率，但是它们都专注于具有单一类型关系的网络。然而，在现实中，我们经常观察到节点之间多种类型的关系。例如，对于社交网站（如 Twitter）的用户，除了 following（关注）关系之外，还存在其它关系，如转发retweet 、引用mention 等关系。每种类型的关系定义了节点之间的一个网络视图，而多种类型的关系产生了具有多个视图的网络。网络的不同视图之间通常互补，因此考虑多个视图可能有助于学习节点的 robust representation。这促使我们研究学习多视图网络的 node representation 问题。
Multi-view Network Embedding $K$ $G=(\mathcal V, \mathcal E_1,\mathcal E_2,\cdots,\mathcal E_K)$ network embedding $v\in \mathcal V$ robust representation $\mathbf{\vec x}_v\in \mathbb R^d$ $d\ll |\mathcal V|$ ），该 representation 在不同的视图中是一致 consistent 的。
为了学习跨不同视图的、节点的 robust representation，我们需要设计一种方法来促进不同视图的协同、并投票来产生节点的 robust representation。由于视图的质量不同，该方法还应该能够在投票期间对不同的视图进行不同的加权。
这里我们介绍我们提出的、用于嵌入多视图网络的方法。大多数现有的多视图 network embedding 方法，例如多视图聚类和多视图矩阵分解算法，都未能取得令人满意的结果。这是因为它们在训练过程中不能有效地促进不同视图的协同。此外，在组合多视图信息时，这些方法也无法为不同的视图分配合适的权重。
为了解决这些挑战：
- 我们的方法首先挖掘了编码单个视图的邻近性的node representation。在编码期间，我们提出了一个协同框架 collaboration framework 来促进不同视图的协同。
- 然后，我们通过投票vote 来进一步集成不同的视图，从而得到节点的 robust representation。在投票过程中，我们通过基于注意力的机制来自动学习每个视图的投票权重。
我们的目标函数总结为：
$O = O_{collab} + O_{attn}$
其中：
- $\mathcal O_\text{collab}$ 为协同框架的目标函数，其目标是学习单个视图的节点邻近性，同时通过投票来产生节点的 robust representation 。
- $\mathcal O_\text{attn}$ 是学习投票权重的目标函数。
$\lambda$ $\mathcal O = \mathcal O_\text{collab} + \lambda \mathcal O_\text{attn}$ 。
我们的方法如下所示，其中：黄色部分为协同框架，蓝色部分为基于注意力的权重学习，不同颜色的边代表不同的视图（共有三个视图），红色的节点为待分类的节点。

12.1.2 协同框架

collaboration framework 协同框架的目标是学习编码了单个视图节点邻近性的node representationrobust representation $v_i\in \mathcal V$ view-specific representation $\left\{\mathbf{\vec x}_i^k\right\}_{k=1}^K$ robust representation $\mathbf{\vec x}_i$ 来集成所有视图中的信息。
$k$ $k$ $k$ $(v_i,v_j)$ $p_k(v_j\mid v_i)$ 为：
$p_{k} (v_{j} ∣ v_{i}) \propto \exp ({\vec{x}}_{j}^{k} \cdot {\vec{c}}_{i})$
$p_k(v_j\mid v_i) = \frac{\exp\left(\mathbf{\vec x}_j^k\cdot \mathbf{\vec c}_i\right)}{\sum_{j^\prime} \exp\left(\mathbf{\vec x}_{j^\prime}^k\cdot \mathbf{\vec c}_i\right)}$ 。
$\mathbf{\vec c}_i$ $v_i$ context representation $v_i$ 的context representation在所有视图之间共享，这使得不同的view-specific representation 将位于相同的语义空间中。我们还尝试了对不同视图采用不同的 context representation ，这作为我们方法的一个变种，并在试验中进行比较。
context representation在所有视图之间共享，这使得节点的 view-specific representation 位于相同的语义空间中，这就是 “协同” 的含义。
$p_k(\cdot\mid v_i)$ $k$ $v_i$ neighbor distribution $k$ $v_i$ $\hat p_k(\cdot\mid v_i)$ view-specific representation $p_k(\cdot\mid v_i)$ $\hat p_k(\cdot\mid v_i)$ 的距离。这里我们采用 KL 散度作为概率分布之间的距离的度量。
$\hat p_k(v_j\mid v_i) = w_{i,j}^{(k)} / d_i^{(k)}$ $w_{i,j}^{(k)}$ $k$ $(v_i,v_j)$ $d_i^{(k)}$ $k$ $v_i$ out degree $d_i^{(k)} = \sum_j w_{i,j}^{(k)}$ 。
$k$ 的 view-specific representation 的目标函数为：
$O_{k} = - \sum_{(i, j) \in E_{k}} w_{i, j}^{(k)} \log p_{k} (v_{j} ∣ v_{i})$
该目标函数优化一阶邻近性（即直接邻域）。
$k$ $p_k(v_j\mid v_i)$ 时需要遍历所有的节点。这里我们采用负采样negative sampling 技术，从而简化了条件概率的计算：
$p_{k} (v_{j} ∣ v_{i}) = \log σ ({\vec{x}}_{j}^{k} \cdot {\vec{c}}_{i}) + \sum_{n = 1}^{N} E_{v_{n} \propto P_{neg}^{k} (v)} [\log σ (- {\vec{x}}_{n}^{k} \cdot {\vec{c}}_{i})]$
$\sigma(x) = \frac{1}{1+\exp(-x)}$ sigmoid $N$ 为负采样比例。
- 第一项用于最大化“正边”，即观察到的边 observed edge 。
- noisy edge $v_n$ $P^k_\text{neg}(v)\propto \left(d_v^{(k)}\right)^{3/4}$ $d_v^{(k)}$ $k$ $v$ 的出度。
view-specific representation $\left\{\mathbf{\vec x}_i^k\right\}_{k=1}^K$ 可以保留不同视图中的结构信息。然后我们通过投票来促进不同视图的协同，从而得到节点的robust representation。在投票过程中由于各个视图的重要性可能不同，因此我们需要为每个视图分配不同的权重。
考虑所有这些因素，我们引入正则化项：
$R = \sum_{i = 1}^{| V |} \sum_{k = 1}^{K} λ_{i}^{k} {‖ {\vec{x}}_{i}^{k} - {\vec{x}}_{i} ‖}_{2}^{2}$
$||\cdot||_2$ $L_2$ $\lambda_i^k$ $v_i$ $k$ $k$ 的重要性。
该正则化使得最终的robust representation 与各view-specific representation 保持一致。其物理意义为：
- robust representatioin $\mathbf{\vec x}_i$ $\left\{ \mathbf{\vec x}_i^k\right\}_{k=1}^K$ 。这也是view-specific representation 的一致性consistency 。
- robust representation $\lambda_i^k$ $\mathbf{\vec x}_i^k$ 。
  $\mathcal R$ 最优化的解就是各 view-specific representation 的均值。
$v_i$ $\left\{\lambda_i^k\right\}_{k=1}^K$ ，我们的方法可以让每个节点专注于信息量最大的视图。我们将在下一节介绍如何自动学习这些权重。
最终，不同的view-specific representation 基于以下方式投票从而产生 robust representation：
${\vec{x}}_{i} = \sum_{k = 1}^{K} λ_{i}^{k} {\vec{x}}_{i}^{k}$
视图的权重作用在两个地方：投票产生 robust representation、不同视图的正则化系数。
$\mathcal R = \sum_{i=1}^{|\mathcal V|}\sum_{k=1}^K \lambda_i^k \left\|\mathbf{\vec x}_i^k - \sum_{s=1}^K\lambda_i^s \mathbf{\vec x}_i^s\right\|_2^2$ $\mathcal R$ 是三次多项式的关系，这更加强化了信息量大的视图。
很自然地， robust representation 被计算为 view-specific representation 的加权组合，加权系数为视图的投票权重，这非常直观。
通过整合view-specific representation 学习阶段的目标、投票阶段的目标（即正则化项），则协同框架的最终目标为：
$O_{collab} = \sum_{k = 1}^{K} O_{k} + η R$
$\eta$ 为平衡正则化项的系数。
$\eta = 0$ 时，不考虑 view-specific representation 之间的一致性。

12.1.3 attention 机制

上述框架提出了一种灵活的方式让不同的视图相互协同。这里我们介绍一种基于 attention 机制，用于在投票期间学习不同视图的权重。我们提出的方法非常通用，只需要提供少量标记数据就可以为 specific-task 学习不同节点的视图权重。
基于attentionsoftmax $v_i$ $k$ 的权重为：
$λ_{i}^{k} = \frac{\exp ({\vec{z}}_{k} \cdot {\vec{x}}_{i}^{C})}{\sum_{k^{'} = 1}^{K} \exp ({\vec{z}}_{k^{'}} \cdot {\vec{x}}_{i}^{C})}$
其中：
- $\mathbf{\vec x}_i^C = \left(x^1_{i,1},\cdots,x^1_{i,d},\cdots,x^K_{i,d}\right)^\top\in \mathbb R^{Kd}$ 为所有的 view-specific representation 的拼接向量
- $\mathbf{\vec z}_k\in \mathbb R^{Kd}$ $k$ feature vector $k$ 是信息质量较高的（informative）。
  $\mathbf{\vec z}_k$ $\lambda_i^k$ $v_i$ 都是没有信息量的，权重也是非零的。
  这里使用拼接后的向量作为 query，而没有使用每个视图的 representation 向量作为 query。后者使用局部的、单个视图的 representation，前者使用全局的、所有视图的 representation。
$\mathbf{\vec x}_i^C \cdot \mathbf{\vec z}_k$ $v_i$ $k$ $v_i$ $k$ 将分配较大的权重。
view-specific representation $\mathbf{\vec x}_i^C$ 来决定，因此，邻近性较大的两个节点可能学到相似的 view-specific representation，因此视图权重也相似。这种性质是合理的，这使得我们能够利用 view-specific representation 中保留的邻近性更好地推断不同节点的注意力，即相似的representation 有相似的attention 。
$\mathbf{\vec x}_i = \sum_{k=1}^K\lambda_i^k \mathbf{\vec x}_i^k$ 来得到节点的 robust representation 。然后我们可以将该representation 应用于不同的预测任务，并基于部分标记数据来使用反向传播算法来自动学习投票权重。
$\{\mathbf{\vec z}_k\}_{k=1}^{K}$ 来最小化以下目标函数：
$O_{attn} = \sum_{v_{i} \in S} L ({\vec{x}}_{i}, y_{i})$
$\mathcal S$ $\mathbf{\vec x}_i$ $v_i$ robust representation $y_i$ $v_i$ $\mathcal L(\cdot,\cdot)$ 为task-specific 损失函数。
我们根据梯度下降法来求解该最优化问题，其梯度为：
$\nabla_{{\vec{z}}_{k}} O_{attn} = \sum_{v_{i} \in S} [\sum_{l = 1}^{K} (\frac{\partial O_{attn}}{\partial λ_{i}^{k}} - \frac{\partial O_{attn}}{\partial λ_{i}^{l}}) λ_{i}^{k} λ_{i}^{l}] {\vec{x}}_{i}$
$\{\mathbf{\vec z}_k\}_{k=1}^{K}$ $\lambda_i^k$ 就可以直接计算出来。在实验中我们证明了权重学习仅需要少量标记数据即可收敛，并还将证明该方法非常有效。
$\mathcal O = \sum_{k=1}^K \mathcal O_k + \eta \mathcal R + \sum_{v_i\in \mathcal S} \mathcal L(\mathbf{\vec x}_i,y_i)$ $\mathcal O_\text{collab}$ $\mathcal O_\text{attn }$ $\mathcal O_\text{attn}$ $\gamma$ 从而平衡注意力损失函数的重要性，但是论文未使用这种方式从而直接用原始的注意力损失。
在本文中，我们研究两类预测任务：节点分类、链接预测。
- 在节点分类任务中，目标函数定义为：
  $O_{attn}^{class} = \sum_{v_{i} \in S} | | \vec{w} \cdot {\vec{x}}_{i} - {\vec{y}}_{i} | |_{2}^{2}$
  $\mathbf{\vec y}_i$ $y_i$ one-hot $\mathbf{\vec w}$ 为分类器的参数。
- 在链接预测任务中，目标函数定义为：
  $O_{attn}^{link} = - \sum_{(v_{i}, v_{j}) \in S} \cos ({\vec{x}}_{i}, {\vec{x}}_{j})$
  $(v_i,v_j)$ pair $\cos(\cdot,\cdot)$ 为向量的 cos 相似度。

12.1.4 优化

我们使用梯度下降法和反向传播算法来优化模型。具体地说，在每轮迭代中：
- view-specific representation $\left\{\mathbf{\vec x}_i^k\right\}_{k=1}^K$ 。
- $\{\mathbf{\vec z}_k\}_{k=1}^{K}$ $\{\lambda_i^k\}_{k=1}^{K}$ 。
- 最后，基于学到的视图投票权重，我们集成节点的view-specific representation 来得到节点的 robust representation 。
算法本质上是一个半监督学习，以多任务的形式进行学习：无监督地优化节点邻近性损失、监督地优化节点分类损失。训练是以交替优化无监督损失、监督损失的方式进行。
MVE 算法：
- 输入：
  - $G=(\mathcal V,\mathcal E_1,\mathcal E_2,\cdots,\mathcal E_K)$
  - $\mathcal S$
  - view-specific representation $T$
  - $N$
- robust representation $\{\mathbf{\vec x}_i\}_{i=1}^{|\mathcal V|}$
- 算法步骤：
  迭代直到算法收敛，迭代步骤为：
  - view-specific representation $T$ 。迭代过程为：
    - $k$
    - $\mathcal E_k$ $N$ 条“负边”
    - $\nabla_{\mathbf{\vec x}_i^k} (\mathcal O_\text{collab} + \mathcal O_\text{attn})$ ，根据该梯度来更新节点的 view-specific representation
    - $\nabla_{\mathbf{\vec c}_i} \mathcal O_\text{collab}$ ，根据该梯度来更新节点的 context representation
  - 更新顶点的投票权重。更新方式为：
    - $\nabla_{\mathbf{\vec z}_k} \mathcal O_\text{attn}$ $\mathbf{\vec z}_k$

$\mathbf{\vec z}_k$ $\{\lambda_i^k\}_{k=1}^K$
- 更新节点的 robust representation

MVE 算法由三个过程组成：
- view-specific representationview-specific representation $O(|\mathcal E|\times d\times N)$ $|\mathcal E|$ $d$ representation $N$ 为负采样比例。
- robust representation 学习过程：该过程根据每个节点的view-specific representationrobust representation $O(|\mathcal V|\times d\times K)$ $K$ 为视图总数。
- $O(|\mathcal S|\times d\times K)$ $|\mathcal S|$ $|\mathcal S|\ll |\mathcal V|$ 。
$|\mathcal V|\ll |\mathcal E|$ $O(|\mathcal E|\times d\times N)$ ，它和图中边的总数成正比。对于大多数真实世界的网络，由于边的数量通常是稀疏的，因此大多数情况下我们的方法计算效率较高。

21.2 实验

数据集：一共包含 5 个数据集，其中前三个数据集用于节点分类任务，后两个数据集用于链接预测任务。
- DBLP：包含来自计算机科学领域论文的作者author。网络包含三种类型的视图：
  - co-authorship 视图：边的类型定义为作者之间共同发表论文的关系，边的权重为共同发表文章的数量。
  - author-citation $i$ $j$ 的论文的数量。
  - text-similariry 视图：边的类型定义为作者论文之间的相似度，边的权重为每个作者发表论文的标题、摘要计算得到的 TF-IDF 的 cos 相似度，每个顶点仅保留最相似的 5 个邻居顶点的链接及其权重。
  我们选择8 个不同的研究领域作为label，包括 machine learning, computational linguistics, programming language, data mining, database, system technology, hardware, theory 。对于每个 label 我们选择该领域若干个具有代表性的会议，并且只有在这些会议中发表的论文才用于构建这三个视图。
- Flickr 数据集：一个在线图片共享社区，用户彼此关注从而构成一个网络。用户可以为图片指定 tag ，我们将这些 tag 作为节点（用户）的属性。用于可以加入不同的组，我们将这些组作为用户的 label 。
  该网络包含两个视图：
  - friendship 视图：边的类型定义为用户之间的关注，边的权重为 0 （没有关注）或 1 关注。
  - tag-similarity 视图：边的类型定义为用户所有图片 tag 之间的相似性，边的权重就是 tag 之间的相似度。每个节点仅保留最相似的 100 个邻居节点的链接及其权重。
- PPI 数据集：一个 protein-protein interaction network ，只考虑人类基因作为节点。我们根据 coexpression, cooccurrance, database, experiments, fusion, neighborhood information 构建了六个视图。Hallmark 基因组提供的基因分组视为节点的类别。
  考虑到原始的网络非常稀疏，因此我们对每个视图通过添加邻居的邻居来扩展 degree 小于 1000 的节点的邻居集合，直到扩展的邻居集合的规模达到 1000 。
- Youtube 数据集：根据 Youtube 网络的用户社交数据构建的用户社交网络。我们构建了五个视图：
  - common friends 视图：边的类型定义为用户之间的共同好友，边的权重共同好友数量。
  - common subscription 视图：边的类型定义为共同订阅用户（站在subscriber的角度) ，边的权重为共同订阅用户数量。
  - common subscriber 视图：边的类型定义为共同订阅者（站在订阅用户的角度），边的权重为共同订阅者的数量。
  - common favorite video 视图：边的类型定义为共同喜爱的视频，边的权重为共同喜爱视频的数量。
  - friendship 视图：边的类型定义为是否好友关系，边的权重为 0 或 1 。
  我们认为 friendship 视图可以更好地反映用户之间的邻近性，因此我们使用前四个视图来训练，并预测第五个视图中的链接。
- Twitter 数据集：根据 Twitter 网络的用户社交数据构建的用户社交网络。由于原始网络的稀疏性，我们将其视为无向图。我们根据回复reply、转发 retweet、提及 mention、好友 friendship 等关系定义了四个视图，其中前三个视图用于训练（以 PPI 数据集相同的形式重建），预测第四个视图中的链接。
Baseline 模型：我们比较了两类方法：基于单视图single-view 的方法、基于多视图 multi-view 的方法。
- LINE：一种用于单视图、可扩展的embedding 方法。我们给出了它在所有单个视图的结果中，效果最好的那一个。
- node2vec：另一种用于单视图、可扩展的embedding 方法。我们给出了它在所有单个视图的结果中，效果最好的那一个。
- node2vec-merge：node2vec 的一个变种。为了融合多视图，我们合并了所有视图的边从而得到一个大的视图，然后通过 node2vec 来学习该视图的 embedding 。
- node2vec-concat：node2vec 的另一个变种。为了融合多视图，我们首先从每个视图学到 node embedding，然后将节点在每个视图的 embedding 拼接起来。
- CMSC：一个 co-regularized 多视图谱聚类模型。它可以应用于我们的任务，但是无法扩展到大规模的图。
  我们使用基于质心的变体，因为其效率更高并且质心的特征向量 eigen-vector 可以视作节点的 representation。
- MultiNMF：一个多视图的非负矩阵分解模型。它可以应用于我们的任务，但是无法扩展到大规模的图。
- MultiSPPMI：一个词向量模型，它通过分解单词的共现矩阵从而得到单词的 embedding 。这里我们通过联合分解不同视图的邻接矩阵，并在不同视图之间共享node representation ，从而利用该模型来学习node representation 。
- MVE：我们提出的方法，其中使用了协同框架和注意力机制。
- MVE-NoCollab：MVE 的一个变体。我们针对不同的视图引入了不同的 context node representation，因此节点的 view-specific representation 将位于不同的语义空间中。因此在训练期间，节点的 view-specific representation 无法协同。
- MVE-NoAttn：MVE 的另一个变体。我们在投票期间为每个视图赋予相同的权重，因此没有采用注意力机制。
注意，我们并没有比较 DeepWalkDeepWalk $p=1,q=1$ 的 node2vec 模型的特例。
实验配置：
- 对于除了 node2vec-concatnode representation $d=100$ ；对于 node2vec-concat 方法，每个视图的representation100 $100\times K$ $K$ 为视图的数量。
- 对于 LINEMVE $N=5$ ，初始学习率为 0.025 。
- 对于 node2vec ，窗口大小设为 1040 $p,q$ 根据标记数据来择优。
- MVE $T$ 1000 $\eta$ 默认为 0.05 。
节点分类任务：我们将不同算法学到的node reprsentation 作为特征，并使用 Lib-Linear 软件包来训练 one-vs-rest 线性分类器。在分类器的训练过程中：
- 对于 DBLP 和 PPI 数据集，我们随机抽取 10% 的节点作为训练集，剩余 90% 作为测试集。
- 对于Flickr 数据集，我们随机选择 100 个节点作为训练集，以及 10000 个节点作为测试集。
为了学习视图权重，我们随机选择少量的标记样本来训练MVE 模型，这些标记样本不包含在测试集中，标记节点的数量参考数据集部分提供的图表。
我们给出在测试集上的分类 Micro-F1/Macro-F1 值，每种配置随机执行10 次并报告平均结果。由于 CMSC 无法扩展到非常大的网络，因此仅报告它在 PPI 网络上的结果。
结论：
- 基于单视图的方法（LINE 和 node2vec ）分类效果都比较一般。
- node2vec-merge 通过合并不同视图的边来利用多视图信息。但是，不同视图的邻近性是无法直接比较的，简单地将它们融合在一起会破坏每个视图的网络结构。在 Flickr 数据集上，node2vec-merge 方法的效果甚至还不如基于单视图的方法。
- node2vec-concat 通过将学到的多个视图的view-specific representatioin 进行拼接来利用多视图信息。但是，来自某些稀疏视图的representation 可能会有严重有偏 biased，这可能会破坏最终的 representation。因此，即使该方法使用了更高的维度，node2vec-concat 也不会显著优于其它的、基于单视图的方法。
- 多视图聚类CMSC 和多视图矩阵分解（MultiNMF 和 MultiSPPMI）的效果都较差，因为它们无法有效地实现不同视图的协同，也无法学习不同视图的权重。
- 我们提出的 MVE 在不使用标签信息来学习视图权重的情况下，MVE-NoAttn 超越了所有 baseline 方法。当使用注意力机制之后，MVE 可以进一步提升效果。
- 如果 MVE 去掉了不同视图的协同（即 MVE-NoCollab ），则会观察到较差的结果。这表明我们的协同框架确实可以通过促进视图的协同来提升性能。
链接预测任务：链接预测任务旨在预测网络中最有可能形成的链接。由于节点规模巨大，因此预测全网的所有可能的链接是不现实的。因此我们为每个数据集构造一个核心节点集合，并且仅预测核心节点集合中的节点链接。
- 对于 Youtube 数据集，核心节点集包含同时出现在所有四个视图中的所有节点，一共 7654 个节点。
- 对于 Twitter 数据集，由于节点数量太多，我们随机采样了出现在所有三个视图中的 5000 个节点。
对核心节点集中的每对节点，我们用它们robust representation 向量的余弦相似度来作为形成链接的概率。另外，为了获得 MVE 模型中视图的投票权重，我们从每个数据集中随机抽取 500 条边作为标记数据，这些标记数据不包含在评估数据集中。
我们通过核心数据集的AUC 来评估不同模型的链接预测能力。由于 CMSC/MultiNMF 无法扩展到非常大的网络，因此我们仅报告 Youtube 数据集上的结果。
结论：
- 基于单视图的方法（node2vec/LINE ）效果都比较一般。
- node2vec-merge 通过合并不同视图的边来利用多视图信息。由于这两个数据集的不同视图具有可比性和互补性，因此 node2vec-merge 的效果得到改善。
- node2vec-concat 通过将学到的多个视图的view-specific representatioin 进行拼接来利用多视图信息。但是某些稀疏的视图（如Twitter 数据集上的 reply 视图）可能会有严重的bias ，这可能会破坏最终的 representation。
- 多视图聚类CMSC 和多视图矩阵分解（MultiNMF 和 MultiSPPMI）的效果仍然都较差，因为它们无法有效地实现不同视图的协同，也无法学习不同视图的权重。
- 我们提出的 MVE 方法让然优于所有的 baseline 方法。如果移除视图协同（MVE-NoCollab ）或者移除注意力机制（MVE-NoAttn），则效果将下降。这表明我们协同框架的有效性和注意力机制的重要性。
数据稀疏性：这里我们检查 MVE 是否对稀疏数据也是鲁棒的。具体而言，我们研究MVE 在不同degree 节点上的性能，这对应于不同级别的数据稀疏性。每个节点的 degree 是所有视图的 degree 的总和。根据节点的 degree，我们将 DBLP 数据集的所有节点划分为 10 个不同的分组、将 Youtube 数据集中所有节点划分为 5 个不同的分组。
我们比较了 MVE, node2vec-merge 和 MVE-NoCollab 在不同分组上的性能，效果如下图所示。图中组id 越小则节点 degree 越大，组 id 越大则节点 degree 越小。因此越靠近右侧，数据越稀疏。
结论如下：
- 对于 BDLP 数据集，这三个模型在左侧的分组上效果均不理想。这是因为很多 degree 非常高的节点属于多个研究领域，因此难以正确分类。
  在右侧的分组中，node2vec-merge 和 MVE-NoCollab 的性能仍然很差，但是 MVE 明显优于它们。
- 对于 Youtube 数据集，也观察到类似的结果。这三个模型在左侧的分组上效果均不理想，但是在右侧的分组中 MVE 的效果优于 node2vec-merge 和 MVE-NoCollab 。
总之，MVE 在更稀疏的节点上取得了更好的效果，并且始终优于 MVE-NoCollab 和 node2vec-merge 。这表明我们的方法可以有效解决数据稀疏性问题，并帮助学到更鲁棒的node representation。
$\eta$ $\eta$ 将控制正则项项的系数。该系数平衡了 view-specific representation 保留的邻近性与 view-specific representationMVE $\eta$ 上的性能。
结论：
- $\eta = 0$ 时，MVE 效果较差，因为不同视图无法通过正则化来彼此交流信息。
- $\eta\gt0$ 并逐渐提高时，MVE 效果持续改善。
- $\eta \in (0.025,0.1)$ 时，MVE 的效果比较稳定。
- $\eta \gt 0.1$ MVE $\eta$ 倾向于使得不同的 view-specific representation 趋同，从而忽略了视图之间的差异。
标记数据规模的敏感性：为了学习不同节点的视图投票权重，我们的框架需要一些标记数据。这里我们考察不同规模的标记数据对于效果的影响。我们观察随着标记数据规模的变化， MVE 和 MVE-NoAttn 的性能。
结论：
- 通过利用标记数据来学习视图的投票权重，MVE 始终超越了其变体 MVE-NoAttn
- 在这两个数据集上，MVE 只需要很少的标记数据就可以使得预测性能收敛，这证明了我们基于注意力机制来学习投票权重的有效性。
效率：我们在 DBLP 和 Twitter 数据集上对比 MVE 和 node2vec/LINE/MVE-NoAttn 的训练时间。
结论：
- MVE 和 LINE/node2vec 的运行时间都很接近。
- 在拥有超过 30 万顶点、1 亿边的 Twitter 数据集上，MVE 训练过程不超过 15 分钟，非常高效。
- 对比 MVE 和 MVE-NoAttn 的训练时间，我们观察到 MVE 的权重学习过程在这两个数据集上花费的时间不到总训练时间的 15%。这证明了我们基于注意力的权重学习方法具有很高的效率。
注意力权重分析：我们考察MVE 学到的注意力，以及这些注意力为什么能够改善性能。
首先我们研究哪些视图会得到更高的注意力。我们以 DBLP 和 Youtube 数据集为例。对每个视图，我们报告单独使用view-specific representation 进行分类/链接预测的结果，以及每个视图所有节点的平均注意力得分。
结论：单个视图的性能和它们分配的平均注意力正相关。即：我们的方法使每个节点关注于效果最好的视图。
然后，我们比较不同label 中节点的注意力，从而在更细粒度进一步研究学到的注意力。我们以 DBLP 数据集为例，并研究四种label 中的节点，包括 hardware (HW), programming language (PL), data mining (DM) and machine learning (ML) 。对每种 label，我们计算属于该label 的节点各视图平均分配的权重，并报告与其它label 的节点各视图平均分配的权重的比值，以便了解哪些视图对于各label 而言效果最好。
结论：
- 对 HW/PL 领域的节点而言，它们对 citation 视图的关注相对更多。
- 对 DM/ML 邻域的节点而言，它们对 co-author 视图的关注相对更多。
这是因为我们的节点分类任务旨在预测不同作者的研究领域。为了提高预测的准确性，我们的注意力机制需要让节点关注于最能够与其它领域作者区分开的视图。
- 对于 HW 和 PL 领域作者而言，与其它领域节点（每个节点就是一位作者）相比，这两个领域的作者可能会引用非常不同的论文，因此论文引用视图对它们的区分度最大。因此，HW/PL 领域的节点对 citation 视图的注意力更大。
- 对于 DM/ML 领域作者而言，他们更可能使用相似的术语并引用相似的论文，因此文本相似度视图、引文视图都无法将这些领域区分开来。因此，这些领域的节点很少关注文本相似性视图和引文视图，而更多地关注 co-author 视图。
总之，通过注意力机制学到的视图权重非常直观：迫使每个节点专注于信息量最高的视图。
case 研究：最后我们提供一些case 来展示 view-specific representation 和 robust representation 之间的差异。我们以 DBLP 数据集为例。给定一个作者作为 query，我们根据不同的 embedding 找出最相似的作者，相似度通过embedding 向量的余弦相似度来衡量。
结论：view-specific representation 可以很好地保留各个视图的结构邻近性，而 robust representation 则利用了来自所有不同视图的信息。

二十二、PMNE[2017]

随着大数据的兴起（尤其是社交网络），图挖掘已经成为分析对象之间的多样化关系、理解底层图的复杂结构的必要条件。分析如此复杂的系统对于了解社交网络的形成方式、或者预测未来的网络行为至关重要。
然而，图挖掘对网络的拓扑结构topological structure 非常敏感。例如，在社交网络分析中，图挖掘可以利用拓扑信息来识别网络中的社区，但是无法确定拓扑是否包含噪声（或其它错误）。避免这种情况的一种方法是使用多层网络multilayer network 。多层网络是描述节点之间多种关系的一组网络，其中每个网络（一个网络代表一层）代表一种特定类型的关系。
多层网络也就是多视图网络。
以 AUCS 数据集为例。多个层代表大学院系 61 名员工之间的五种不同关系类型：共同工作、共进午餐、facebook好友、共度闲暇时光、共著学术论文。下图显示了这些不同层之间的距离（根据论文 《Structural reducibility of multilayer networks》 的方法），其中层之间的距离是包含双方的最小子树的根节点的 distance value 。从下图中，我们观察到一些关键的交互：例如，我们观察到 “共同工作”、“共进午餐” 密切相关，因为它们具有较小的 layer distance ；而 “共度闲暇时光” 和 “facebook好友” 也是密切相关的。一般而言，我们认为，多层网络通过考虑多种关系类型从而固有地反映了节点之间的基本交互 essential interaction ，并且对任何单个关系类型中的噪音都具有鲁棒性。
如今，多层网络上的图挖掘方法通常集中在不同的网络粒度，具体取决于任务。例如：
- 在节点粒度/边粒度上，《Multiplex networks and interest group influence reputation: An exponential random graph model》 和 《Conditions for viral influence spreading through multiplex correlated social networks》 专注于开发合适的中心性 centrality 指标，例如多层网络的 cross-layer degree 中心性。
  《Individual neighbourhood exploration in complex multi-layered social network》 和 《A method for group extraction in complex social networks》 提出了多层局部聚类系数 multilayered local clustering coefficient: MLCC 和跨层聚类系数 cross-layer clustering coefficient: CLCC 来描述多层网络中节点的聚类系数。
- 相比之下，cluster 级别通常用于社区检测，而 layer 级别通常用于分析不同层类型之间的交互。
在论文 《Principled Multilayer Network Embedding》中，作者尝试通过结合所有粒度级别的分析，提出三种新颖的、多层网络的图挖掘方法。作者通过将多层网络的节点嵌入到向量空间来实现这一点。这个向量空间可以被解释为多层网络的隐式度量空间metric space ，它自然地定义了节点之间的相似性概念，并捕获了原始多层网络的多个方面，最终促进了基于向量的 representation 来解决一系列任务。
在标准的网络分析中，人们已经开发了许多这样的 network embedding 方法，如 DeepWalk, LINE, node2vec。这些方法都基于在输入图上生成随机游走的样本，随机游走的方式因方法而异。然而，这些方法是建立在单个图之上的，据作者所知，多层网络的 graph embedding 方法尚未得到严格的探索。因此，作者提出了一个通用的多层网络 embedding 框架，该框架适用于为单层网络开发的任何 graph embedding 方法。具体而言，作者介绍了将 graph embedding 扩展到多层网络的三种方法，即：网络聚合Network Aggregation、结果聚合Results Aggregation、网络协同Network Co-analysis 。
- 网络聚合：该方法的假设是来自不同层的所有边都是等价的。基于该假设，该方法将所有网络聚合为单个网络（如果不允许节点之间存在多条边，则聚合后为加权网络），然后应用现有的 graph embedding 算法来分析合并的图。注意，这个合并的图不再区分关系类型。
- 结果聚合：该方法的假设是不同的层有完全不同的边，这意味着即使两个节点在不同的层中都有边，那么这些边是完全不同的、无法合并的。基于这个假设，该方法将 graph embedding 方法分别应用于每一层，然后将向量空间合并在一起从而定义多层网络的向量空间。
- 网络协同：与前两种方法仅考虑 inter-layer 边（network aggregation）或 intra-layer 边（results aggregation ）不同，该方法利用不同层之间的交互来允许层之间的遍历，并保留每个层的结构。具体而言，论文引入了一种能够跨层遍历的、新的随机游走方法，从而编码节点和层之间的重要交互。
多层网络中的随机游走方法是单层 embedding 方法的通用扩展。例如，node2vec 和 DeepWalk 都是state-of-the-art 的单层 graph embedding 方法。就像 node2vec 为 DeepWalk 添加了控制随机游走的同质性homophilystructural equivalence $r\in [0,1]$ 参数来控制随机游走的下一步将在多层网络中跨层遍历的概率。
论文没多大价值，典型的 ”水“ 文。
相关工作：这里我们回顾了标准的 network embedding 的相关工作，即为单层网络提出的 embedding 方法。
随着无监督 feature learning 技术的发展，深度学习方法通过神经语言模型在自然语言处理任务中被证明是成功的。这些模型通过将 word 嵌入为向量来捕获人类语言的语义结构semantic structure 和语法结构 syntactic structure ，甚至是捕获逻辑类比logical analogy 。由于图可以被解释为一种语言（通过将随机游走视为等价的 sentence ），DeepWalk 将此类方法引入网络分析，从而允许将网络节点投影到向量空间中。为了解决这类方法在应用于现实世界信息网络（通常包含数百万个节点）时的可扩展性问题，人们开发了 LINE 。LINE 将 DeepWalk 的均匀随机游走扩展为一阶加权随机游走或二阶加权随机游走，从而可以在几个小时内将具有数百万节点、数十亿条边的网络投影到向量空间中。
但是，这两种方法都有局限性。由于 DeepWalk 使用均匀随机游走进行搜索，因此它无法控制所探索的邻域。相比之下，LINE 提出了一种广度优先策略来采样节点，并在一阶邻域和二阶邻域上独立地优化似然性 likelihoodnode2vec $p$ $q$ 来探索网络邻域。从实践的角度来看，node2vec 具有可扩展性，并且对扰动具有鲁棒性。
当然，这些方法都无法处理多层网络的 layer 之间的随机游走。因此，我们的网络协同方法是已有工作在随机游走能力方面的自然扩展。

22.1 模型

$G=(V,L,A)$ $V$ $L$ layer $A$ 为边的集合。
$A\sube \{(x,y,l)\mid x,y\in V,l\in L\}$ $(x,y)$ layer $l$ $a_{x,y}^l = 1$ 。
$f:V\rightarrow \mathbb R^d$ $d$ 为低维向量空间的维度。
我们提出了多层网络嵌入的三种架构如下图所示：
这篇论文是典型的 ”水”文，每什么价值。

22.1.1 网络聚合

网络聚合network aggregation 方法将多层网络的多个layernode2vec $g: G(V,L,A) \rightarrow G^\prime(V,E)$ $G^\prime$ $G$ $G$ 中所有层的边：
$E = {(i, j) ∣ \sum_{l \in L} a_{i, j}^{l} \geq 1}$
$f$ 时也无法利用层之间的交互信息。
多层网络嵌入之网络聚合算法：
- 输入：
  - $G(V,L,A)$
  - node2vec 的超参数
- 输出：顶点的 embedding
- 算法步骤：
  - $G^\prime = (V,E=\Phi)$
  - 网络聚合：
    - $(i,j)\in V$ ：
      $l\in L$ $a_{i,j}^l = 1$ $E$ $E=E\cup (i,j)$
  - $G^\prime$ 上执行 node2vec 并返回每个节点的 embedding

22.1.2 结果聚合

results aggregation $G_l=(V,E_l)$ $G_l$ $G$ $E_l$ $G$ $l$ 层的边：
$E_{l} = {(i, j) ∣ a_{i, j}^{l} = 1}$
$G_l$ 中的节点 embedding，然后将节点在所有层的 embedding 拼接起来作为该节点的最终embedding 。这种方法可以保持每一层的网络结构，但是无法利用层之间的交互信息。
多层网络嵌入之结果聚合算法：
- 输入：
  - $G(V,L,A)$
  - node2vec 的超参数
- 输出：节点的 embedding
- 算法步骤：
  - $l\in L$ ：
    - $G_l = (V,E_l=\Phi)$
    - $(i,j)\in V$ $a_{i,j}^l=1$ $E_l$ $E_l=E_l\cup (i,j)$
    - $G_l$ node2vec $l$ 层的 embedding
  - 拼接节点在所有层的 embedding，得到节点的最终 embedding

22.1.3 网络协同

为了克服网络聚合、结果聚合都无法利用层间交互的缺陷，我们采用网络协同layer co-analysis 来构建顶点embedding，该方法可以识别各层之间的交互，并保留各层的结构。
考虑下图所示的多层网络随机游走，其中黑色点线代表每层顶点之间的对应关系，黑色粗线代表网络中的边。
- 如果在图 (a) 中使用结果聚合，则节点 A 到节点 C 没有路径，因为结果聚合无法在层之间遍历。因此该方法无法学到节点 A 和 C 的关联。
- (b) $A^\prime$ $B^\prime$ 之间的多条边（由红色粗线表示）。
这使得我们我们寻求一种方法，该方法可以遍历从 A 到C 的跨层路径（图 (a) 的红色虚线表示），并可以保留多条边隐含的信息。
node2vecDeepWalk $p$ $q$ 来控制随机游走的局部 bias 和全局 biasnode2vec $r$ 来控制多层网络中的跨层遍历。
$i_{|L|}$ $i$ 在多层网络中存在链接的层的数量（去重），即：
$i_{| L |} = \sum_{l = 1}^{| L |} I (\sum_{(i, j, l) \in E} a_{i, j}^{l} \geq 1)$
$I(\cdot)$ 为示性函数。
$p,q,r$ $t_{i-1}$ $l$ $z$ $x$ $l$ $x$ $y$ ：
- $x$ $l$ $x_{|L|} = 1$ node2vec $l$ 内的随机游走：
  $p (t_{i} = (x, y, l) ∣ t_{i - 1} = (z, x, l)) \propto a_{p, q} (z, y, l)$
  $a_{p,q}(z,y,l)$ 是 node2vec 针对多层网络的修改：
  $\begin{matrix} a_{p, q} (z, y, l) = {\begin{cases} \frac{1}{p}, & d_{z, y}^{l} = 0 \\ 1, & d_{z, y}^{l} = 1 \\ \frac{1}{q}, & d_{z, y}^{l} = 2 \end{cases} \end{matrix}$
  $d_{z,y}^l$ $l$ $z$ $y$ $y$ $z$ 是相同的顶节。
- $x$ $l$ $r$ $l^\prime$ $(1-r)$ ：
  $\begin{matrix} p (t_{i} = (x, y, l^{'}) ∣ t_{i - 1} = (z, x, l)) \propto {\begin{cases} a_{p, q} (z, y, l^{'}) \times r, & l^{'} = l \\ \frac{a_{p, q} (z, y, l^{'})}{x_{| L |} - 1} \times (1 - r), & else \end{cases} \end{matrix}$
本文仅考虑二元边，也可以通过将遍历边的概率乘以归一化的边权重从而推广到加权的多层网络。
$r$ ，当前我们仅将其视为一个超参数。
多层网络嵌入之网络协同算法：
- 输入：
  - $G(V,L,A)$
  - $N$
  - $M$
  - $p,q,r$
- 输出：节点的 embedding
- 算法步骤：
  - $\mathcal W = \phi$
  - $N$ $n$ 条随机游走序列：
    - $(i,j,l)\leftarrow (i_0,j_0,l_0)$ $j$ $l$ $i$ 为序列中的前一个节点
    - $n$ $M$ ：
      - $r$ 选择留在当前层、或者均匀随机地选择其它层作为 next_layer
      - $a_{p,q}(j,i^\prime,\text{next_layer})$ 选择next_layer 中的下一个节点
      - $l\leftarrow \text{next_layer}, j\leftarrow i^\prime, i\leftarrow j$
  - $\mathcal W$ 执行node2vecSGD（基于 node2vec 对数似然目标函数的随机梯度下降）。
$r$ 衡量了是留在同一层重要、还是跨层交互重要。
- $r\rightarrow 0$ 时随机游走总是跨层，因此算法认为跨层交互重要。
- $r\rightarrow 1$ 时随机游走总数留在同一层（也就是初始化的层），因此算法认为留在同一层重要。

22.2 实验

数据集：
- AUCS 数据集：数据集为一个多层网络，代表大学部门的 61 位员工之间的五种不同关系：coworking, having lunch together, facebook friendship, onine friendship(having fun together), coauthorship 。
- Terrorist 数据集：数据集为一个多层网络，代表恐怖分子之间的不同关系：communication, financial, operation, trust。
- Student 数据集：数据集为一个多层网络，代表 Ben-Gurion University 中 185 名学生之间的不同关系： Computer Network（学生在同一台机器上完成论文）、Partner’s Networt（学生共同完成论文）、Time Network（学生在同一时间提交论文）。
- Vickers Chan 数据集VC：数据集为一个多层网络，代表七年级学生社交的不同互动关系：你在班上和谁打交道、谁是你班上最好的朋友、你最想和谁一起玩。
- Leskovec-Ng collaboration 数据集LN：数据集为一个多层网络，代表从 1995 到 2014 不同年代 Jure Leskovec 和 Andrew Ng 的共同著作网络。我们将 coauthorship 网络按照 5 年一个layer，最终得到四层网络。在每层网络中，如果和这两个作者任意一个至少由一篇共同著作，则存在一条边。
  根据协作的频次，每位学者被标记为 Leskovec 的协作者、或者 Ng 的协作者。
我们在这些多层网络数据集上执行链接预测任务，从而比较不同方法在链接预测任务上的性能。
$E$ $E^T$ $E^P$ $E=E^T\cup E^P$ $E^T\cap E^P = \Phi$ 。这里我们选择 10% 的边作为测试集。
embedding $E^T$ embedding $E^P$ 10% $E^P$ $F_1$ 得分：
- acc $acc = \frac{C}{|E^P|}$ $C$ $E^P$ 中预测正确的边的数量。
  这个指标其实是召回率指标，而不是准确率。
- F1 $F_1 = \frac{1}{|L|}\sum_{l=1}^L F_1^l$ $F_1^l$ $l$ 层链接预估的 precision 和 recall 的调和均值。
  这个指标预估每个层的边。
$p=q=r=0.5$ 、每个顶点开始的随机游走序列数量为 10、每条随机游走序列的长度为 80 。
baseline 模型：我们在融合的网络中引入两个著名的链接预测算法：
- Common Neighbor Similarity $\text{CN}_{x,y} = |\Gamma(x) \cap \Gamma(y)|$ $\Gamma(x)$ $x$ 的邻居集合。
- Jaccard Similarity $\text{Jaccard}_{x,y} = \frac{|\Gamma(x)\cap \Gamma(y)|}{|\Gamma(x)\cup \Gamma(y )|}$ 。
这两种方法也是选择相似度最大的 top 10% 来预测存在边。
baseline 没有 graph embedding 方法，垃圾。数据集太拉胯。
不同方法在不同数据集上的评估结果如下表所示。可以看到，除了 LN 数据集以外，我们的方法可以实现更高的准确率和 F1 得分。
不同数据集中各层之间的距离如下所示：
我们使用下图来给出三个多层网络每一层和相应的融合层的结构。由于 VC 数据集和 LN 数据集带有标签信息，因此我们使用不同的形状和颜色来展示不同标签的顶点。
- 在 Terrorists 数据集中，多层网络显式了恐怖分子如何协作。显然，不同层之间的作用影响很大。这意味着如果我们需要预测两个顶点之间的链接，则需要考虑这两个顶点在不同层之间的交互。以图 (a) 为例，尽管 financial 层的顶点很少，但是四层之间的交互作用很强，而网络协同可以通过不同层的随机游走来恢复必要的信息。
  对于 AUCS/Students 数据集，也是类似的结果。
- 在VC 数据集中，不同question 代表不同的关系，因此不同层之间的作用影响较弱。比如，“你在班上和谁打交道” （Q1 ）并不意味着你和她/他就是好朋友关系（Q2 ）。由于第一个问题过于笼统，导致产生大量的噪音，因此无法指示这些顶点之间的真实关系。
  如果我们将这些层合并，或者更多地关注层交互上，那么网络聚合和网络协同都无法揭示真实的信息，反而会引入更多噪音。
- 在 LN 数据集中，不同时间区间的layer 没有任何交互。如，第一层没有蓝色顶点、第二层和第三层中两个簇自行扩展。这表明以下事实：层之间的交互作用并不是对应层中形成拓扑结构的关键。而且，各层之间的间隔为 5 年，因此层内的噪音使得我们的方法效果较差。
  相反，原始 Jaccard 方法最好，因为它仅关心两个顶点的平均共享邻居数量，这种方法受噪音影响最小。

二十三、ANRL[2018]

网络是对现实世界中复杂系统进行探索和建模的通用数据结构，包括社交网络、学术网络、万维网等等。在大数据时代，网络已经成为一个重要媒介，用于有效地存储、访问交互实体的关系知识relational knowledge 。在网络中挖掘知识已经引起了学术界和工业界的持续关注，例如在线广告 targeting 、推荐系统。大多数的这些任务都需要精心设计的模型，并且需要大量专家努力进行特征工程，而 representation learning 是自动化的 feature representation 方案。采用 representation learning 之后，可以通过在低维向量空间中学习从而极大地提升网络中的知识挖掘任务，如聚类、链接预测、分类等任务。
network representation learning 中的相关工作可以追溯到基于图的降维方法，例如局部线性嵌入 Locally Linear Embedding: LLE、Laplacian Eigenmap: LE。LLE 和 LE 都通过构建最近邻图nearest neighbor graph 来维护数据空间中的局部结构local structure 。为了使相互连接的节点在 representation 空间中彼此更接近，人们计算亲和图 affinity graph 的相应 eigenvector 作为节点的 representation。这些方法的一个主要问题是：由于计算 eigenvector 的计算复杂度太高，它们很难扩展到大型网络。
受到 word2vec 模型最近成功的启发，人们已经提出了许多基于网络结构的 representation learning 方法，并在各种 application 中显示出良好的性能。然而，节点属性信息没有受到太多关注，实际上这些节点属性信息可能在许多 application 中发挥重要作用。我们经常在现实世界的网络中观察到带各种属性的节点，这种网络被称作属性信息网络 attributed information network 。例如，在 Facebook 社交网络中，用户节点通常关联了个性化的用户画像，包括年龄、性别、教育、以及发帖内容。最近的一些努力通过整合网络拓扑信息和节点属性信息来探索属性信息网络，从而学到更好的 representation 。
属性信息网络中的 representation learning 仍然处于早期阶段，能力相当有限，原因是：
- 网络拓扑和节点属性是两个异质的信息源，因此很难在公共向量空间中保存它们的属性。
- 观察到的网络数据往往是不完整attributed information network 的，甚至是噪音noisy 的，这使得更加难以获取有信息量的 representation 。
为了解决上述挑战，论文 《ANRL: Attributed Network Representation Learning via Deep Neural Networks》提出了一个统一的框架，称作 ANRL。该框架通过联合地集成网络结构信息和节点属性信息来学习属性信息网络中的、鲁棒的 representation。更具体而言，论文利用深度神经网络的强大表达能力来捕获两个信息源的、复杂的相关性，这两个信息源由邻域增强自编码器neighbor enhancement autoencoder 、以及属性感知attribute-aware 的 SkipGram 模型组成。总而言之，论文的主要贡献如下：
- 论文提出了一个统一的框架 ANRL，它将网络结构邻近性proximity 和节点属性亲和性affinity 无缝集成到低维 representation 空间中。更具体而言，论文设计了一个邻域增强自编码器，它可以在 representation 空间中更好地保持数据样本之间的相似性。论文还提出了一个属性感知的 SkipGram 模型来捕获结构相关性。这两个组件与一个共享的编码器相连，其中这个共享编码器捕获了节点属性信息以及网络结构信息。
- 论文通过两个任务（链接预测任务、节点分类任务）对六个数据集进行了广泛的实验，并通过实验证明了所提出模型的有效性。
相关工作：一些早期的工作和其它谱方法 spectral method 旨在保留数据的局部几何结构，并在低维空间表达数据。这些方法是降维技术的一部分，可以被视为 graph embedding 的先驱。
最近，network representation learning 在网络分析中越来越受欢迎。network representation learning 专注于嵌入当前的网络而不是构建亲和图 affinity graph 。其中：
- DeepWalk 执行截断的随机游走从而生成节点序列，并将节点序列视为 sentence 并输入到 SkipGram 模型从而学习 representation。
- Node2vec 通过采用广度优先 breadth-first: BFS 和深度优先 depth-first: DFS 的图搜索策略来探索不同的邻域，从而扩展了 DeepWalk。
- LINE 不是执行随机游走，而是优化一阶邻近性和二阶邻近性。
- GraRep 提出为 graph representation 捕获 k 阶关系信息 relational information 。
- SDNE 将图结构整合到深度自编码器deep autoencoder 中，从而保持高度非线性的一阶邻近性和二阶邻近性。
属性信息网络在许多领域中无处不在。通过同时使用网络结构信息和节点属性信息来实现更好的 representation ，这是很有前景的。一些现有的算法已经研究了将这两个信息源联合地嵌入到一个统一空间中的可能性。例如：
- TADW 将 DeepWalk 和相关的文本特征整合到矩阵分解框架中。
- PTE 利用 label 信息和不同 level 的单词共现信息来生成 predictive text representation 。
- TriDNR 使用来自三方的信息（包括节点结构、节点内容、节点 label）来联合学习 node representation。
尽管上述方法确实将节点属性信息融合到 representation 中，但它们是专门为文本数据设计的，不适用于许多其他类型的特征（如连续数值特征）。
最近，人们已经提出了几种特征类型无关的 representation learning 算法，以通过无监督或半监督的方式进一步提高性能。这些算法可以处理各种特征类型，并捕获结构邻近性structural proximity 以及属性亲和性attribute affinity。
- AANE 是一种分布式 embedding 方法，它通过分解属性亲和矩阵，并使用 network lasso 正则化来惩罚互相连接的节点之间的 embedding difference，从而联合地学习 node representation。
- Planetoid 同时开发了 transductive 方法和 inductive 方法来联合预测图中的 class label 和邻域上下文。
- SNE 通过利用端到端神经网络模型来捕获网络结构信息和节点属性信息之间复杂的相互关系，从而生成 embedding 。
- 另一个半监督学习框架 SEANO 采用输入样本属性、以及它平均邻域属性聚合的方式，从而缓解异常值在 representation leraning 过程中的负面影响。
也有一些工作在探索异质信息网络中的 representation learning。
- metapath2vec 利用基于 metapath 的随机游走来生成异质节点序列，并采用异质 SkipGram 模型来学习 node representation。
- 《Attributed network embedding for learning in a dynamic environment》 提出了一种模型，该模型可以在动态环境而不是静态网络中处理 representation learning。
- 《Attributed signed network embedding》 研究了有符号信息网络中的 representation learning 问题。
我们将这些可能的扩展保留为未来的工作。

23.1 模型

$\mathcal G=(\mathcal V,\mathcal E,\mathbf X)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ $\mathbf X\in \mathbb R^{n\times m}$ $\mathbf{\vec x}_i\in \mathbb R^m$ $\mathbf X$ $i$ $v_i$ 的特征向量。
representation learning $f: v_i\rightarrow \mathbf{\vec y}_i \in \mathbb R^d$ $d\ll n$ $v_i$ $\mathbf{\vec y}_i$ ，并在映射过程中保持网络结构邻近性 network structure proximity、节点属性邻近关系node attribute proximity 。

23.1.1 邻域增强自编码器

为了编码节点的属性信息，我们设计了一个邻域增强自编码器模型。该自编码器由编码器和解码器组成，旨在重建目标节点的邻域而不是目标节点本身。值得注意的是，当我们的目标邻域是输入节点本身时，该自编码器退化为传统的自编码器。
$v_i$ $\mathbf{\vec x}_i$ target neighbor $T(\cdot)$ 。由于自编码器只能重建一个变量，无法重建所有邻居，因此这里采用聚合函数来聚合目标节点的邻域，并重建聚合后的结果。
定义每一层的隐向量为：
$\begin{matrix} {\vec{y}}_{i}^{(1)} = σ (W^{(1)} {\vec{x}}_{i} + {\vec{b}}^{(1)}) \\ {\vec{y}}_{i}^{(k)} = σ (W^{(k)} {\vec{y}}_{i}^{(k - 1)} + {\vec{b}}^{(k)}), k = 2, \dots, K \end{matrix}$
$K$ $\sigma(\cdot)$ ReLU $\mathbf W^{(k)},\mathbf{\vec b}^{(k)}$ $k$ 层的模型参数。
我们的目标是最小化自编码器的损失：
$L_{ae} = \sum_{i = 1}^{n} {‖ {\hat{\vec{x}}}_{i} - T (v_{i}) ‖}_{2}^{2}$
$\hat{\mathbf{\vec x}}_i$ $T(v_i)$ $v_i$ 的目标邻域。
$T(\cdot)$ 定义了目标节点的邻域的聚合方式，可以采用以下形式：
- 邻域加权平均 Weighted Average Neighbor ：
  $T (v_{i}) = \frac{1}{| N (i) |} \sum_{j \in N (i)} w_{i, j} {\vec{x}}_{j}$
  $\mathcal N(i)$ $v_i$ $w_{i,j}$ $v_i$ $v_j$ $w_{i,j} = 1$ 。
- 邻域的逐元素中位数 Elementwise Median Neighbor：
  $T (v_{i}) = {\tilde{\vec{x}}}_{i} = ({\tilde{x}}_{1}, \dots, {\tilde{x}}_{m})^{⊤}$
  $\tilde x_k$ $k$ 维的中位数（带权重）：
  ${\tilde{x}}_{k} = median (w_{i, 1} \times x_{1, k}, \dots, w_{i, | N (i) |} \times x_{| N (i) |, k})$
  中位数指的是排序之后位于正中间的那个数。
与传统的自编码器相比，我们的邻域增强自编码器在保持节点之间的邻近性方面效果更好。因为邻域增强自编码器迫使节点重建相似的目标邻域，从而使得位置相近的节点具有相似的representation。因此，它捕获了节点属性信息和局部网络结构信息。
另外，重建的目标综合了多个邻域节点的信息，这比传统的重建单个节点（目标节点自身）更为鲁棒。因为单个节点的波动更大。
最后，我们提出的邻域增强自编码器是一个通用框架，可用于各种自编码器的变体，如降噪自编码器、变分自编码器。

23.1.2 属性感知 SkipGram 模型

属性感知SkipGram 模型将属性信息融合到 SkipGram 模型。具体而言，在SkipGram 的目标函数中为随机游走上下文提供当前节点的属性信息：
$L_{sg} = - \sum_{i = 1}^{n} \sum_{v_{j} \in C_{i}} \log p (v_{j} ∣ {\vec{x}}_{i})$
其中：
- $v_j$ $v_i$ $\mathbb C_i$ $v_i$ 的上下文集合。
- $p(v_j\mid \mathbf{\vec x}_i)$ $v_i$ $v_{j}$ 的概率。我们定义该条件概率为：
  $p (v_{j} ∣ {\vec{x}}_{i}) = \frac{\exp ({\vec{c}}_{j} \cdot f ({\vec{x}}_{i}))}{\sum_{j^{'} = 1}^{n} \exp ({\vec{c}}_{j^{'}} \cdot f ({\vec{x}}_{i}))}$
  其中：
  - $\mathbf{\vec x}_i$ $v_i$ 的属性信息。
  - $f(\cdot)$ 为任意的属性编码器，如针对图片数据的 CNN 编码器、针对序列数据的 RNN 编码器。这里我们使用邻域增强自编码器（见小面的小节）。
  - $\mathbf{\vec c}_j$ $v_j$ 作为上下文时的上下文representation。
  $p(v_j\mid \mathbf{\vec x}_i)$ 不仅对节点属性进行建模，还对网络结构进行建模。
$p(v_j\mid \mathbf{\vec x}_i)$ 的计算代价太大，因为分母需要对所有节点进行求和。同样地，我们使用负采样技巧：
$L_{sg} = - \sum_{i = 1}^{n} \sum_{v_{j} \in C_{i}} {\log σ ({\vec{c}}_{j} \cdot f ({\vec{x}}_{i})) + \sum_{s = 1}^{S} E_{j^{'} \sim P_{n} (v)} [\log σ (- {\vec{c}}_{j^{'}} \cdot f ({\vec{x}}_{i}))]}$
其中：
- $\sigma(x) = 1/(1+\exp(-x))$ 为sigmoid 函数。
- $S$ 为每个正样本的负采样数量。
- $P_n(v)$ $P_n(v)\propto d_v^{3/4}$ $d_v$ $v$ 的 degree 。

23.1.3 ANRL 模型

ARNL 模型同时利用了网络结构和节点属性信息。如下图所示，ANRL 模型由两个耦合的模块组成：邻域增强自编码器模块、属性感知SkipGram 模块。
编码器将输入的属性信息映射到低维向量空间，并扩展出两路输出：
- 左路输出为邻域增强自编码器的解码器部分。
- 右路输出用于预测属性感知SkipGram 的节点上下文。
邻域增强自编码器、属性感知 SkipGramARNL $v_i$ representation $\mathbf{\vec y}_i^{(K)}$ 同时捕获了节点属性信息、网络结构信息。
ANRL 可以视为多任务模型，包括：基于邻域增强自编码器的邻域属性重建任务、基于属性感知 SkipGram 的上下文预测任务。二者共享节点的 representation 。
ANRL 模型通过联合学习邻域增强自编码器模块、属性感知SkipGram 模块两个模块，其目标函数为：
$\begin{matrix} L = L_{sg} + α L_{ae} + β L_{reg} \\ = - \sum_{i = 1}^{n} \sum_{v_{j} \in C_{i}} {\log σ ({\vec{c}}_{j} \cdot {\vec{z}}_{i}) + \sum_{s = 1}^{S} E_{j^{'} \sim P_{n} (v)} [\log σ (- {\vec{c}}_{j^{'}} \cdot {\vec{z}}_{i})]} \\ + α \sum_{i = 1}^{n} {‖ {\hat{\vec{x}}}_{i} - T (v_{i}) ‖}_{2}^{2} + \frac{β}{2} \sum_{k = 1}^{K} ({‖ W^{(k)} ‖}_{F}^{2} + {‖ {\hat{W}}^{(k)} ‖}_{F}^{2}) \end{matrix}$
其中：
- $\alpha,\beta$ 分别为邻域增强自编码器模块、正则化的权重。
- $\mathbb C_i$ $v_i$ $\mathbf{\vec c}_j$ $v_j$ 作为上下文时的上下文representation 。
- $\mathbf{\vec y}_i$ $f(\mathbf{\vec x}_i) = \mathbf{\vec y}_i = \mathbf{\vec y}_i^{(K)}$ 。
- $\mathbf W^{(k)}$ $\mathbf{\hat W}^{(k)}$ $k$ $k$ 层解码器的权重矩阵。
通过这种方式，ANRL 将节点属性、局部网络结构、全局网络结构保留在一个统一的框架中。
通过邻域增强自编码器模块捕获网络局部结构信息，通过属性感知的 SkipGram 模块捕获网络全局结构信息，通过这两个模块同时捕获节点属性信息。
SkipGram $f(\cdot)$ representation $\mathbf{\vec y}_i^{(K)}$ $\mathbf{\vec y}_i^{(K)}$ 。
此外，为简单起见，我们使用单个非线性层来捕获图的上下文信息，并可以轻松地扩展到多个非线性层。
$\mathcal L$ 。我们迭代优化这两个耦合的模块，直到模型收敛。
ANRL 训练算法：
- 输入：
  - $\mathcal G=(\mathcal V,\mathcal E,\mathbf X)$
  - $\gamma$
  - $t$
  - $b$
  - embedding $d$
  - $\alpha,\beta$
- representation $\mathbf Y\in \mathbb R^{|V|\times d}$
- 算法步骤：
  - $\gamma$ $t$ 。
  - $\mathbb C$ 。
  - $T(\cdot)$ 构建每个节点的目标邻域。
  - $\Theta$ 。
  - 迭代直到模型收敛，迭代步骤为：
    - 随机采样一个mini-batch 的节点及其上下文。
    - $\nabla_{\Theta} \mathcal L_{ae}$ ，并更新自编码器模块的参数。
    - $\nabla_{\Theta}\mathcal L_{sg}$ ，并更新 SkipGram 模块的参数。
  - $\mathbf Y = \mathbf Y^{(K)}$ 作为节点的embedding 矩阵。

23.2 实验

数据集：
- 社交网络数据集：Facebook 和 UNC 数据集是两个典型的社交网络数据集，节点代表用户，边代表用户的好友关系。
- 引文网络数据集：Citeseer 和 Pubmed 是典型的引文网络数据集，节点代表论文或出版物，边代表它们之间的引用关系。
  - Citeseer 中的论文分为六种类别:Agents,AI,DB,IR,ML,HCI 。
  - Pubmed 中的论文分别三种类别：Diabetes Mellitus Experimental、Diabetes Mellitus Type 1（I型糖尿病）、Diabetes Mellitus Type 2 （II 型糖尿病）。
- 用户行为网络数据集： UniID 和 Fraud Detection 是阿里巴巴提供的两个真实的用户行为数据集。
  - UniID 网络中的节点表示物理设备的ID，边表示在同一个用户的行为记录中观察到两个ID 同时出现。
  - Fraud Detection 网络中存在两种类型的节点：cookie节点（代表买家)、seller节点（代表卖家）。cookie 节点包含了带属性的 cookie 信息。
    为了获得同质cookie 网络，我们采用如下方法将二部图映射为仅包含 cookie 节点的图：当且仅当两个 cookie 之间存在至少五个共同的 seller 节点时，连接这两个 cookie 节点。我们的目标是鉴别哪些 cookie 是可疑的。
Baseline 模型：我们将当前state-of-the-art 的 network representation learning方法划分为以下几组：
- 仅属性的方法Attribute-only：仅考虑节点属性信息。这里我们选择 SVM 和自编码器作为 baseline 模型。
- 仅结构的方法Structure-only：仅考虑网络结构信息。这里我们选择 DeepWalk, node2vec, LINE, SDNE 作为 baseline 模型。
- 属性和结构的方法Attribute + Structure ：同时考虑节点属性信息和网络结构信息。这里我们选择 AANE, SNE, Planetoid-T,TriDNR, SEANO 作为 baseline 模型。
最后我们还给出 ANRL 的几个变体：
- ANRL-WAN：使用 Weighted Averate Neighbor 来构造目标邻域。
- ANRL-EMN：使用 Elementwise Media Neighbor 来构造目标邻域。
- ANRL-OWN：采用传统的自编码器来重建节点自己，而不是重建目标邻域。
模型配置：
- 对于 baseline 模型，我们使用原始作者发布的实现版本，并且 baseline 模型的参数已经调整为最优。
- 在 Fraud Detectionembedding $d=64$ $d=128$ 。
- 对于 LINE 模型，我们将一阶representation 和二阶 representation 拼接起来作为最终 representation 。
- 对于 ANRL，我们选择随机游走序列长度为 80、每个节点开始的随机游走序列数量为 10、负采样比例为 5、窗口大小为 10 。
  另外，ANRL 左路输出（包括了编码器和解码器）的层数和尺寸如下图所示，而右路输出仅使用单层神经网络。
链接预测任务：我们通过链接预测任务来评估各种算法学到的 embedding 的链接预测能力。
我们随机移除图中 50% 的链接，然后在移除后的图上训练节点 embedding 。一旦获得了节点 embedding，我们将被移除的链接作为正样本，然后随机选择相同数量的、并不存在的链接作为负样本，从而构造测试集。我们在测试集上评估embedding 的链接预测能力，具体做法是：根据余弦相似度对正样本和负样本进行排序。我们采用 AUC 来评估排序的质量，较高的 AUC 表示更好的性能。
在三个无标签的数据集（Facebook,UNC,UniID）上进行链接预测任务的效果如下图所示。结论：
- ANRL 在所有数据集上都显著超越了baseline 。
- 由于DeepWalk,node2vec,LINE,SDNE 仅利用网络结构信息，因此当网络极为稀疏时（如UniID 数据集），它们的性能相对较差。
  有趣的是，在这一组四个模型中，node2vec 取得了最好的结果。主要是因为 node2vec 可以通过有偏的随机游走探索各种网络结构信息。
- 与之前的研究结果一致：我们观察到结合节点属性和网络结构信息可以提高链接预测性能，这反映了属性信息的价值。
  其中，AANE,TriDNR 仅利用一阶网络结构信息，它们无法捕获足够的信息来进行链接预测。而该组其余算法通过在网络上执行随机游走从而捕获更高阶的网络邻近信息从而获得更好的性能。
- ARNL 同时利用了节点属性信息（通过邻域增强自编码器和属性感知 SkipGram 模型）、全局结构信息（通过属性感知 SkipGram 模型）、局部结构信息（通过邻域增强自编码器）。我们认为性能提升的主要原因之一是 ANRL 同时考虑了局部结构信息和全局结构信息。
节点分类：我们通过分类预测任务来评估各种算法学到的 embedding 的分类预测能力。
我们从每个类别中随机选择 20 个样本，并将它们作为标记数据（剩余所有节点在训练 embedding 过程中 label 信息不可用）来训练半监督 baseline 。在学到节点embedding 之后，我们随机选择 30% 的节点来训练 SVM 分类器，剩余节点作为测试集用于评估性能。我们重复该过程 10 次，并报告测试集上的平均Macro-F1 和平均 Micro-F1 。实验结果如下。结论：
- ANRL-WAN 在所有数据集中超越了所有baseline 方法，其它基于属性和结构的方法紧随其后，然后是基于结构的方法。这证明了属性信息的价值，对节点属性进行适当的建模可以带来更好的 representation ，并显著提高性能。
- attribute-only 方法优于大多数 structure-only 方法。因为和节点属性相比，单纯的网络结构为分类任务提供的信息非常有限。
  另外，我们发现自编码器比 SVM 稍差，这表明降维的过程中可能会丢失一部分有用的信息。
- SEANO 通过在representation learning 阶段聚合邻域的属性信息，超越了其它几种最新的 Attribute + Structure 方法。
  AANE 在该组的表现不佳，原因是 AANE 涉及到亲和矩阵affinity matrix 的分解操作。由于我们通常不知道每对节点之间的相似性，因此需要根据特定的相似性度量进行计算。这大大降低了 AANE 的性能。
- ANRL-WAN 和 ANRL-EMN 的性能优于 ANRL-OWN以及大多数其它baseline 方法。
  ANRL-WAN 明显优于 ANRL-OWN，这证明了我们提出的邻域增强自编码器的有效性。此外，我们的属性感知 SkipGram 模块和邻域增强自编码器模块使得潜在 representation 更加平滑和鲁棒，这对于很多任务而言也是很重要的。

二十四、DANE[2018]

网络在现实世界中无处不在，例如社交网络、学术引用网络、通信网络。在各种网络中，属性网络attributed network 近年来备受关注。与仅有拓扑结构可用的普通网络plain network不同，属性网络的节点拥有丰富的属性信息，并有利于网络分析。例如，在学术引用网络中，不同文章之间的引用构成了一个网络，其中每个节点都是一篇文章，每个节点都有关于文章主题的、大量的文本信息。另一个例子是社交网络，用户之间可以相互联系，并且每个用户节点都有个性化的用户画像属性信息。此外，社会科学表明：节点的属性可以反映和影响其社区结构。因此，研究属性网络是必要且重要的。
network embedding 作为分析网络的基本工具，最近在数据挖掘和机器学习社区引起了极大的关注。network embedding 在保持邻近性的同时为每个节点学习低维 representation。然后，下游任务（如节点分类、链接预测、网络可视化）可以从学到的低维 representation 中获益。近年来，人们已经提出了各种 network embedding 方法，如 DeepWalk, Node2Vec, LINE。然而，大多数现有的方法主要关注普通网络，忽略了节点的有用属性。例如，在 Facebook 或 Twitter 等社交网络中，每个用户都与其它用户连接，从而构成一个网络。大多数现有的方法在学习 node representation 时仅关注连接。但是每个节点的属性也可以提供有用的信息。一个很好的例子是用户画像。一名年轻用户可能与另一名年轻用户具有更多的相似性，而与年长用户不太相似。因此，在学习 node representation 时结合节点属性很重要。
另外，网络的拓扑结构和节点属性是高度非线性的。因此，捕获高度非线性的特性从而发现底层模式underlying pattern 非常重要。然后，就可以在学到的 node representation 中更好地保留邻近性。然而，大多数现有的方法仅采用浅层模型，未能捕获到高度非线性的特性。此外，由于复杂的拓扑结构和节点属性，很难捕获这种高度非线性的特性。因此，捕获属性网络 embedding 的高度非线性特性是一项挑战。
为解决上述问题，论文《Deep Attributed Network Embedding》提出了一种用于属性网络的、新颖的 deep attributed network embedding: DANE 方法。具体而言，论文提出了一个深度模型来同时捕获网络拓扑结构和节点属性中底层的高度非线性。同时，所提出的模型可以迫使学到的 node representation 保持原始网络中的一阶邻近性和高阶邻近性。此外，为了从网络的拓扑结构和节点属性中学习一致consistent 的和互补complementary 的 representation，论文提出了一种同时结合这两种信息的新策略。另外，为了获得鲁棒的 node representation，论文提出了一种有效的 “最负采样” （most negative sampling）策略来使得损失函数更鲁棒。最后，论文进行了大量的实验来验证所提出方法的有效性。
相关工作：
- 普通网络 embedding：network embedding 可以追溯到 graph embedding 问题，如 Laplacian Eigenmaps、LPP。这些方法在保持局部流形结构local manifold structure 的同时学习数据 embedding 。然而，这些方法不适用于大型网络 embeddingeigen-decomposition $O(n^3)$ $n$ 为节点数量。
  最近，随着大型网络的发展，很多 network embedding 纷纷出现。例如：
  - DeepWalk 采用截断的随机游走和 SkipGram 来学习 node representation。该方法基于以下观察：随机游走中节点的分布与自然语言中的单词分布很相似。
  - LINE 提出在学习节点representation 时保持一阶邻近性和二阶邻近性。
  - GraRep 在 LINE 的基础上进一步提出保持高阶邻近性。
  - Node2Vec 提出通过一个有偏 biased 的随机游走来得到灵活的邻域概念。
  然而，所有这些方法都仅利用了拓扑结构，而忽略了节点的有用属性。
- 属性网络 embedding ：近年来，属性网络 embedding 引起了广泛的关注。人们已经为属性网络提出了各种各样的模型。
  - TADW 提出了一种 inductive 的矩阵分解方法来结合网络拓扑结构和节点属性。然而，它本质上是一个线性模型，对于复杂的属性网络而言是不够的。
  - AANE 和 LANE 采用图拉普拉斯graph Laplacian 技术从网络拓扑结构和节点属性中学习联合 embedding 。
  - 《Semi-supervised classification with graph convolutional networks》 提出了一种用于属性网络的图卷积神经网络模型。但是，这个模型仅是一种半监督方法，无法处理无监督的情况。
  - 《Tri-party deep network representation》 提出将 DeepWalk 与神经网络结合起来用于 network representation 。尽管如此，DeepWalk 部分仍然是一个浅层模型。
  - 最近，人们提出了两种无监督的深度属性网络 embedding 方法：《Variational graph auto-encoders》、《Inductive representation learning on large graphs》。但是它们仅能隐式地探索拓扑结构。
  因此，有必要以更有效的方式探索深度属性网络 embedding 方法。

24.1 模型

24.1.1 基本概念

$G=(\mathcal V,\mathcal E,\mathbf X)$ 为一个属性信息网络，其中：
- $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E$ 为边的集合。
- $\mathbf X\in \mathbb R^{n\times m}$ $\mathbf{\vec x}_i\in \mathbb R^m$ $\mathbf X$ $i$ $v_i$ 的特征向量。
- $\mathbf E\in \mathbb R^{n\times n}$ $v_i,v_j$ $e_{i,j} \gt 0$ $v_i,v_j$ $e_{i,j} = 0$ 。
$G=(\mathcal V,\mathcal E,\mathbf X)$ $v_i$ $v_j$ first-order proximity $e_{i,j}$ $e_{i,j}$ $v_i$ $v_j$ 关系越紧密。
一阶邻近性表示：如果两个节点之间存在链接则它们是相似的，否则它们是不相似的。因此，可以将一阶邻近性视为局部邻近性local proximity 。
$G=(\mathcal V,\mathcal E,\mathbf X)$ $v_i$ $v_j$ $k$ $\text{sim}\left(\mathbf{\vec m}_i^{(k)},\mathbf{\vec m}_j^{(k)}\right)$ 。其中：
- $\hat{\mathbf E}\in \mathbb R^{n\times n}$ $\mathbf E$ 进行行归一化的矩阵。
  $\hat{\mathbf E}$ $i$ $v_i$ 经过单步转移到其它节点的概率。
- $\hat{\mathbf E}^k = \underbrace{\hat{\mathbf E}\cdots\hat{\mathbf E}}_k \in \mathbb R^{n\times n}$ $k$ 阶概率转移矩阵。
  $\hat{\mathbf E}^k$ $i$ $v_i$ $k$ 步转移到其它节点的概率。
- $\mathbf M^{(k)} = \hat{\mathbf E} + \hat{\mathbf E}^2 +\cdots+\hat{\mathbf E}^k\in \mathbb R^{n\times n}$ $G$ $k$ proximity matrix $\mathbf{\vec m}_i^{(k)}\in \mathbb R^{n }$ $\mathbf M^{(k)}$ $i$ 行。
  $\mathbf{\vec m}_i^{(k)}$ $v_i$ $k$ 步之内转移到其它节点的概率。
- $\text{sim}(\cdot)$ 为向量的相似度函数（如余弦相似度）。
高阶邻近性刻画了节点之间的邻域相似性。具体来讲：如果两个节点共享相同的邻域则它们是相似的，否则是不相似的。因此，高阶邻近性high-order proximity可以视为全局邻近性。
$G=(\mathcal V,\mathcal E,\mathbf X)$ $v_i$ $v_j$ semantic proximity $\text{sim}(\mathbf{\vec x}_i , \mathbf{\vec x}_j)$ $\text{sim}(\cdot)$ $\mathbf{\vec x}_i\in \mathbb R^{m}$ $v_i$ 的属性向量。
representation learning $f: v_i\rightarrow \mathbf{\vec h}_i \in \mathbb R^d$ $d\ll n$ $v_i$ $\mathbf{\vec h}_i$ ，并在映射过程中保持网络结构邻近性（包括一阶邻近性、高阶邻近性）、节点属性邻近性。

24.1.2 DANE

属性网络embedding 面临三大挑战：
- 高度非线性：网络拓扑结构和节点属性的底层结构都是高度非线性的，这种高度非线性很难捕获。
- 邻近性保持：属性网络的邻近性取决于网络拓扑结构和节点属性，如何挖掘和保持邻近性关系是一个难点。
- 信息的一致性consistent和互补性complementary：网络拓扑结构和节点属性这两种信息源为每个节点提供了不同的视角，二者是是一致的（都能刻画节点之间的关系）、互补的（包含对方没有的信息）。因此，学到的节点embedding 同时编码这两种信息的一致性、互补性非常重要。
为了解决这三个挑战，我们开发了一种新颖的 deep attributed network embedding: DANE 方法。DANE 利用深度神经网络分别捕获网络结构的非线性、节点属性的非线性来解决这些问题，整体架构如下。DANE 有两个分支：
- $\mathbf M^{(k)}$ 映射到低维空间。
- $\mathbf X$ 映射到低维空间。
这两路分支都采用深度非线性网络组成，从而捕获数据中的非线性关系。
$O(n^2)$ ，因此无法应用于大型网络。
高度非线性：为捕获数据中的高度非线性，DANE 中的每一路分支都是一个自编码器。自编码器是用于 feature learning 的强大无监督深度模型。基本的自编码器包含三层，分别为输入层、隐层、输出层：
$\begin{matrix} {\vec{h}}_{i} = σ (W^{(1)} {\vec{x}}_{i} + {\vec{b}}^{(1)}) \\ {\hat{\vec{x}}}_{i} = σ (W^{(2)} {\vec{h}}_{i} + {\vec{b}}^{(2)}) \end{matrix}$
$\mathbf{\vec x}_i\in \mathbb R^n$ $i$ $\mathbf{\vec h}_i\in \mathbb R^{n^\prime}$ hidden representation $\hat{\mathbf{\vec x}}_i\in \mathbb R^n$ $\theta=\left\{\mathbf W^{(1)},\mathbf{\vec b}^{(1)},\mathbf W^{(2)},\mathbf{\vec b}^{(2)}\right\}$ $\sigma(\cdot)$ 为非线性激活函数。
自编码器的目标是最小化重构误差：
$min_{θ} \sum_{i = 1}^{N} {‖ {\hat{\vec{x}}}_{i} - {\vec{x}}_{i} ‖}_{2}^{2}$
$N$ 为训练集的大小。
DANE $L$ $L$ 层）：
$\begin{matrix} {\vec{h}}_{i}^{(1)} = σ (W^{(1)} {\vec{x}}_{i} + {\vec{b}}^{(1)}) \\ \dots \\ {\vec{h}}_{i}^{(L)} = σ (W^{(L)} {\vec{x}}_{i} + {\vec{b}}^{(L)}) \end{matrix}$
$L$ embedding $\mathbf{\vec h}_i = \mathbf{\vec h}_i^{(L)}$ 。
在 DANE 中：
- $\mathbf M^{(k)}$ embedding $\mathbf H^{<M>}$ 。
- $\mathbf X$ embedding $\mathbf H^{<X>}$ 。
邻近性保持：属性网络中存在三种类型的邻近性，语义邻近性semantic proximity 、高阶邻近性high-order proximity, 、一阶邻近性first-order proximity。
- $\mathbf X$ $\hat{\mathbf X}$ 的重构误差：
  $L_{s} = \sum_{i = 1}^{n} {‖ {\hat{\vec{x}}}_{i} - {\vec{x}}_{i} ‖}_{2}^{2}$
  原因在 《Semantic hashing》 中披露。具体而言，重建损失可以强迫神经网络平滑地捕获数据流形，从而可以保持样本之间的邻近性。因此，通过最小化重建损失，我们的方法可以保持节点属性中的语义邻近性。
- $\mathbf M^{(k)}$ $\mathbf{\hat M}^{(k)}$ 的重构误差：
  $L_{h} = \sum_{i = 1}^{n} {‖ {\hat{\vec{m}}}_{i} - {\vec{m}}_{i} ‖}_{2}^{2}$
  $\mathbf M^{(k)}$ $\mathbf{\vec m}_i^{(k)}$ $\mathbf{\vec m}_j^{(k)}$ 是相似的），则通过最小化重建损失学到的 representation 也将彼此相似。
- $\prod_{e_{i,j}\gt 0} p_{i,j}$ $p_{i,j}$ $v_i$ $v_j$ 的联合概率。
  注意，我们需要同时保留网络拓扑结构的一阶邻近性和节点属性的一阶邻近性，以便我们可以从这两种不同来源的信息中间取得一致的结果。
  $v_i$ $v_j$ 的联合概率定义为：
  $p_{i, j}^{< M >} = \frac{1}{1 + \exp (- {\vec{h}}_{i}^{< M >} \cdot {\vec{h}}_{j}^{< M >})}$
  $v_i$ $v_j$ 的联合概率定义为：
  $p_{i, j}^{< X >} = \frac{1}{1 + \exp (- {\vec{h}}_{i}^{< X >} \cdot {\vec{h}}_{j}^{< X >})}$
  因此我们定义以下目标函数从而来同时保持网络拓扑结构的一阶邻近性和节点属性的一阶邻近性：
  $L_{f} = - \sum_{e_{i, j} > 0} \log p_{i, j}^{< M >} - \sum_{e_{i, j} > 0} \log p_{i, j}^{< X >}$
一致性、互补性的 embedding ：网络拓扑结构和节点属性是同一个网络的两种不同模态的信息，因此我们应该确保从它们中学到的embedding 是一致consistent 的，即一致性。另一方面，这两种信息描述了同一个节点的不同方面，提供了互补的信息，因此学到的emedding 应该是互补complementary 的，即互补性。
embedding $\mathbf H^{<M>}$ $\mathbf H^{<X>}$ 最简单直接的方式是将它们拼接起来作为节点的最终 embedding 。这种方式可以使得两种模式的 embedding 之间信息互补，但是无法确保它们之间是一致的。
$\mathbf{\vec h}_{i}^{<M>}\cdot \mathbf{\vec h}_{j}^{<M>}\simeq \mathbf{\vec h}_{i}^{<X>}\cdot \mathbf{\vec h}_{j}^{<X>}$ $\mathbf{\vec h}_{i}^{<M>}\ne \mathbf{\vec h}_{i}^{<X>}$
DANE $\mathbf H^{<M>} = \mathbf H^{<X>}$ 。尽管这确保两种模态的 embedding 之间是一致的，但是丢失了大量的互补信息。因此，对于属性网络 embedding，如何将网络拓扑结构和节点属性结合在一起是一个具有挑战性的问题。
为了得到一致的、互补的 embedding，我们提出最大化以下似然估计：
$\prod_{i, j}^{n} q_{i, j}^{s_{i, j}} (1 - q_{i, j})^{1 - s_{i, j}}$
其中：
- $q_{i,j}$ 是两个模态之间的联合分布：
  $q_{i, j} = \frac{1}{1 + \exp (- {\vec{h}}_{i}^{< M >} \cdot {\vec{h}}_{j}^{< X >})}$
- $s_{i,j}\in \{0,1\}$ $\mathbf{\vec h}_i^{<M>}$ $\mathbf{\vec h}_j^{<X>}$ 是否来自于同一个节点，即：
  $\begin{matrix} s_{i, j} = {\begin{cases} 1, & i = j \\ 0, & i \neq j \end{cases} \end{matrix}$
因此我们定义损失函数：
$L_{c} = - \sum_{i} [\log q_{i, i} - \sum_{j \neq i} \log (1 - q_{i, j})]$
$\mathbf{\vec h}_i^{<M>}$ $\mathbf{\vec h}_j^{<X>}$ ：
- 当它们来自于同一个节点时，尽可能地一致。但是它们又不完全相同，因此可以提供互补的信息。
- 当它们来自于不同节点时，尽可能推开。
$v_i$ $v_j$ $v_i$ $v_j$ $\mathbf{\vec h}_i^{<M>}$ $\mathbf{\vec h}_j^{<X>}$ 应该相似。即，我们不应该将它们的 embedding 推开。因此我们放松条件为：
$L_{c} = - \sum_{i} [\log q_{i, i} - \sum_{e_{i, j} = 0} \log (1 - q_{i, j})]$
即：
- $i=j$ $\mathbf{\vec h}_i^{<M>}$ $\mathbf{\vec h}_j^{<X>}$ 尽可能一致。
- $i\ne j$ $v_i,v_j$ $\mathbf{\vec h}_i^{<M>}$ $\mathbf{\vec h}_j^{<X>}$ 推开。
为了保持节点之间的邻近性（三种类型的邻近性），并学习一致和互补的 embedding，DANE 共同优化了目标函数：
$\begin{matrix} L = L_{f} + L_{s} + L_{h} + L_{c} \\ = - \sum_{e_{i, j} > 0} \log p_{i, j}^{< M >} - \sum_{e_{i, j} > 0} \log p_{i, j}^{< X >} + \sum_{i = 1}^{n} {‖ {\hat{\vec{x}}}_{i} - {\vec{x}}_{i} ‖}_{2}^{2} \\ + \sum_{i = 1}^{n} {‖ {\hat{\vec{m}}}_{i} - {\vec{m}}_{i} ‖}_{2}^{2} - \sum_{i} [\log q_{i, i} - \sum_{e_{i, j} = 0} \log (1 - q_{i, j})] \end{matrix}$
$\mathbf H^{<M>}$ $\mathbf H^{<X>}$ 。我们将二者的拼接作为节点的最终低维 representation，从而可以从网络拓扑结构和节点属性中保留一致、互补的信息。
$\mathcal L = \mathcal L_f+ \alpha_1\times \mathcal L_s + \alpha_2\times \mathcal L_h +\alpha_3\times \mathcal L_c$

24.1.3 最负采样策略

$\mathcal L_c$ $v_i$ 优化损失：
$L_{c_{i}} = - \log q_{i, i} - \sum_{j, e_{i, j} = 0} \log (1 - q_{i, j})$
$\mathbf E$ 非常稀疏。但是，未观测到的链接并不意味着两个节点不相似。如果我们推开两个潜在的相似节点，则学到的embedding 效果会较差。
$v_i$ $e_{i,j} =0$ $v_j$ 我们有：
$\nabla_{{\vec{h}}_{j}^{< M >}} L_{c_{i}} = q_{i, j} {\vec{h}}_{i}^{< X >}$
$\mathbf{\vec h}_j^{<M>}$ $\mathbf{\vec h}_j^{<M>}\leftarrow \mathbf{\vec h}_j^{<M>} - \alpha q_{i,j}\mathbf{\vec h}_i^{<X>}$ $\alpha$ 为学习率。
$\mathbf{\vec h}_i^{<X>}$ $q_{i,j}$ $q_{i,j}$ $\mathbf{\vec h}_i^{<M>} \cdot \mathbf{\vec h}_j^{<X>}$ $v_i$ $v_j$ $q_{i,j}$ $\mathbf{\vec h}_j^{<M>}$ $\mathbf{\vec h}_i^{<X>}$ 推得越来越远。结果，embedding 效果越来越差。
embedding $\mathbf H^{<M>}$ $\mathbf H^{<X>}$ 的相似度：
$Q = H^{< M >} H^{< X >^{⊤}} \in R^{n \times n}$
$i$ ，我们选择最负most negative 的负样本：
$j_{i}^{*} = \arg min_{j, e_{i, j} = 0} Q_{i, j}$
然后基于这个最负样本，我们设置目标函数为：
$L_{c_{i}} = - \log q_{i, i} - \log (1 - q_{i, j_{i}^{*}})$
采用这种最负采样策略，我们尽可能不违反潜在的相似节点，因此结果更加鲁棒。
“最负”样本本质上是最可能的“负样本”，这等价于为负样本赋予不同的置信度。
$\mathbf Q$ $O(n^2)$ $\mathcal L_{c_i}$ $O(n^2)$ $e_{i,j} = 0$ $q_{i,j}$ 的计算复杂度。
因此，最负采样策略并没有增加太大的额外开销。

24.3 实验

数据集：
- 论文引用数据集：我们采用 Cora, Citeseer, PubMed 三个论文引用数据集，边代表论文之间的引用链接，节点的属性为论文的 Bag-Of-Word 表示。
- Wiki 数据集：维基百科数据集，边代表网页中的超链接，节点的属性为网页内容的 Bag-Of-Word 表示。
Baseline 方法：为评估DANE 的性能，我们将它与其它几种 baseline 方法进行比较，包括 4 种普通网络的embedding 方法、5 种属性网络embedding 方法。
- 普通网络embedding 方法：DeepWalk,Node2vec,GraRep,LINE。
- 属性网络embedding 方法：TADW, ANE, 图自编码器Graph Auto-Encoder: GAE，变分图自编码器 VGAE, SAGE。
参数配置：
- 对于 DeepWalk, Node2Vec，我们将窗口大小设为 10、随机游走序列长度为 80、每个节点开始的随机游走序列数量为 10。
- 对于 GraRep，我们设定最大转移步长为 5 （即从一个节点最多经过 5 步转移到其它节点）。
- 对于 LINE，我们将一阶embedding 和二阶 embedding 拼接起来作为最终 embedding 。
- 所有方法的 embedding 维度为 200（LINE 的最终 embedding 维度为 200 + 200 = 400 ）。
- 对于所有其它 baseline 方法，超参数配置都参考各自的原始论文。
- DANE $\mathbf M^{(k)}$ ，我们利用 Deep Walk10 $\mathbf M^{(k)}$ $\mathbf E$ $\mathbf M^{(k)}$ ，因为直接计算的代价太大。
- 对于 DANE，我们使用 LeakyReLU 作为激活函数。DANE 在四个数据集上采用不同的体系结构，如下表所示。对于每个数据集，第一行对应于网络拓扑结构的体系结构，第二行对应于节点属性的体系结构。这里我们仅给出编码器的体系结构，解码器的体系结构为编码器结构的翻转。
节点分类任务：我们首先使用不同的模型在数据集上通过无监督训练节点的 embedding，然后对学到的节点 embedding 进行节点分类任务。
$L_2$ 正则化的逻辑回归作为分类器。为进行全面的评估，我们分别随机选择 {10%,30%,50%} 的节点作为训练集，剩余节点作为测试集。对于随机选择的训练集，我们使用五折交叉验证来训练分类器，然后在测试集中评估分类性能，评估指标为 Micro-F1 和 Macro-F1 。
不同embedding 方法的分类性能如下表所示，结论：
- 与普通网络embedding 方法相比，DANE 取得显著提升。
- 与属性网络embedding 方法相比，DANE 大多数都效果更好。
节点聚类任务：为展示DANE 在无监督任务上的性能，我们对学到的节点embedding 进行聚类。这里我们采用k-means 聚类方法，并使用聚类准确率（利用标签信息来评估）作为评估指标。评估结果如下。结论：大多数情况下，DANE 具有更好的聚类效果。
网络可视化：为进一步展示DANE 的效果，我们使用 t-SNE 可视化节点的embedding。我们仅给出 Cora 数据集的三种代表性 baseline 的结果。可以看到，和其它方法相比，DANE 可以实现更紧凑、间隔更好的类簇。因此，我们的方法可以在有监督任务和无监督任务上实现更好的性能。
为评估采样策略的效果，我们将最负采样策略和其它两种替代方法进行比较：
- 第一种为随机采样策略 DANE-RS，此时负样本为随机采样得到。
- 第二种为重要性采样策略DANE-IS，此时负样本采样概率为：
  $p_{i} (j) = \frac{\exp (- Q_{i, j})}{\sum_{j} \exp (- Q_{i, j})}$
  $\mathbf Q = \mathbf H^{<M>} \mathbf H^{<X>^\top}$ $i$ $p_i(j)$ $j$ 为负样本概率。
  直观而言，这种策略使得不相似的节点被采样为负样本的概率更大。
我们分别使用这两种采样策略来学习节点的 embedding，然后在 Cora 数据集上进行节点分类。结果如下所示。结论：
- DANE-RS 性能最差，因为它无法区分不同的负样本。
- DANE-IS 效果更好，但是比最负采样策略更差。因为最负采样策略始终可以找到最负的样本。

二十五、HERec[2018]

近年来，帮助用户从大量资源中发现感兴趣item 的推荐系统，已经在各种在线服务中发挥着越来越重要的作用。传统的推荐方法（如矩阵分解）主要旨在学习一个有效的预测函数来刻画 user-item 交互记录（即，user-item 评分矩阵）。随着 web 服务的快速发展，各种辅助数据（即，辅助信息side information ）在推荐系统中变得可用。尽管辅助数据可能包含对推荐有用的信息，但在推荐系统中很难建模和利用这些异质的、复杂的信息。此外，开发一种相对通用的方法来对不同系统或平台中的这些不同的数据进行建模更具挑战性。
作为一个有前途的方向，人们提出了异质信息网络heterogeneous information network: HIN 来作为一种强大的信息建模方法。异质信息网络由多种类型的节点和链接组成，并在建模数据异质性方面具有灵活性，因此已在推荐系统中用于刻画丰富的辅助数据。如下图所示，我们展示了一个以 HIN 刻画的电影推荐的例子。我们可以看到：HIN 包含由不同类型的关系链接的多种类型的实体。在HIN-based 的 representation 下，推荐问题可被认为是 HIN 上的相似性搜索 similarity search 任务。这种推荐 setting 称为 HIN-based 的推荐，并在文献中受到了广泛关注。大多数现有的 HIN-based 推荐方法的基本思想是：利用 path-based 的、user-item 之间的语义相关性 semantic relatedness （如metapath-based 相似性）而不是 HIN ，从而进行推荐。 path-based 相似性无法充分挖掘用户和 item 的潜在结构特征。
尽管 HIN-based 方法在一定程度上实现了性能提升，但这些使用 metapath-based 相似性的方法存在两个主要问题。
- 首先，metapath-based 相似性依赖于显式的路径可达path reachability，当路径稀疏或存在噪音时，推荐可能不可靠。HIN 中的某些链接很可能是偶然形成的，它们没有表达有意义的语义。
- 其次，metapath-based 相似性主要刻画在 HIN 上定义的语义关系，可能无法直接应用于推荐系统。在某些情况下，派生的 path-based 相似性可能对推荐系统没有显式的影响。现有方法主要学习线性加权机制来结合 path-based 相似性或潜在因子，无法学习 HIN 信息的、复杂的映射机制mapping mechanism 进行推荐。
  metapath-based 相似性，不一定意味着推荐有效性，即二者之间存在 gap 。
这两个问题本质上反映了 HIN-based 推荐的两个基本问题，即 HIN-based 有效信息的提取 extraction 和利用exploitation 。
对于第一个问题，由于数据的异质性，开发一种方法来有效提取和表达 HIN 的有用信息具有挑战性。与以前使用 metapath-based 相似性的研究不同，论文《Heterogeneous Information Network Embedding for Recommendation》的思想是：学习有效的异质网络 representation，从而表达 HIN 重要的结构特征和属性。遵循 DeepWalk 和 node2vec，论文用低维向量（即 embedding）来刻画 HIN 中的节点。论文不想依赖显式的路径链接，而是希望使用潜在向量来编码 HIN 中的有用信息。与 metapath-based 相似性相比，学到的 embedding 具有更紧凑的形式，更易于使用和集成。此外，network embedding 方法本身更能抵抗稀疏的、噪音的数据。然而，现有的大多数 network embedding 方法侧重于仅由单个类型的节点和链接组成的同质网络homogeneous network ，无法直接处理由多种类型的节点和链接组成的异质网络heterogeneous network 。因此，论文提出了一种新的异质网络 embedding 方法。考虑到 metapath 所反映的异质特性以及丰富的语义，所提出的方法首先使用由 metapath 派生的随机游走策略来生成节点序列。对于每个 metapath，论文通过最大化根据给定 metapath 采样的节点序列中相邻节点的共现概率co-occurrence probability 来学习节点的 unique embedding representation。论文融合了节点关于不同 metapath 的多个 embedding，从而作为 HIN embedding 的输出。
在从 HIN 获得 embedding 之后，论文研究如何从推荐系统中集成和利用这些信息。论文并未假设学到的 embedding 自然地适用于推荐系统。相反，论文提出并探索了三种融合函数fusion function ，从而将一个节点的多个 embedding 集成到单个 representation 中来进行推荐。这三种融合函数包括：简单的线性融合、个性化的线性融合、个性化的非线性融合。这些融合函数提供了灵活的方法将 HIN embedding 变换为有用的推荐信息。特别地，论文强调个性化和非线性是该论文 setting 中信息变换information transformation 需要考虑的两个关键点。最后，论文通过集成了 fused HIN embedding 来扩展经典的矩阵分解框架。预测模型 prediction model 和融合函数fusion function 针对评分预测rating prediction 任务而联合地优化。
通过将上述两部分集成在一起，论文提出了一种新颖的、HIN embedding based 的推荐方法，称作 HERec 。HERec 首先使用所提出的 HIN embedding 方法提取有用的、HIN-based 的信息，然后使用所提取的信息利用扩展的矩阵分解模型进行推荐。下图展示了所提出方法的总体说明。对三个真实世界数据集的广泛实验证明了所提出方法的有效性。论文还验证了 HERec 缓解冷启动问题的能力，并检查了 metapath 对性能的影响。
总而言之，论文的主要贡献如下：
- 论文提出了一种由 metapath 派生的异质网络 embedding 方法，从而揭示异质信息网络的语义信息和结构信息。此外，论文提出了一种通用的 embedding 融合方法，用于将基于不同 metapath 的不同 embedding 集成为单个 representation 。
- 论文提出了一种新颖的异质信息网络 embedding 推荐模型，称作 HERec。HERec 可以有效地集成 HIN 中的各种 embedding 信息，从而提高推荐性能。此外，论文设计了一组三个灵活的融合函数 fusioin function ，从而有效地将 HIN embedding 变换为有用的推荐信息。
- 对三个真实世界的数据集的广泛实验验证了所提出模型的有效性。此外，论文还展示了所提出的模型对冷启动预测问题的能力，并揭示了来自 HIN 的、变换后的 embedding 信息可以提高推荐性能。
相关工作：在这里，我们将从推荐系统、异质信息网络、network embedding 三个方面回顾相关的工作。
- 推荐系统：在推荐系统的文献中，早期的工作主要采用协同过滤 collaborative filtering: CF 方法来利用历史交互进行推荐。具体而言，矩阵分解matrix factorization: MF 方法在许多 application 中展示了它的效果和效率。MF 将 user-item 评分矩阵分解为两个低秩的 user-specific 矩阵和 item-specific 矩阵，然后利用分解后的矩阵做进一步的预测。
  由于 CF 方法通常存在冷启动问题，许多工作尝试利用额外的信息来提高推荐性能。例如：
  - 《Recommender systems with social regularization》 将社交关系集成到矩阵分解中用于推荐。
  - 《Ratings meet reviews, a combined approach to recommend》 同时考虑了评分信息和评论信息，并提出了一个统一的模型来结合 conten-based 过滤和协同过滤，从而用于评分预测任务。
  - 《Exploiting geographical influence for collaborative point-of-interest recommendation》 将用户偏好、社交影响力、地理影响力纳入推荐，并提出了统一的 POI 推荐框架。
  - 最近，《Low-rank linear cold-start recommendation from social data》 解释了三种流行的冷启动模型的缺点，并进一步提出了一种 learning-based 方法来解决冷启动问题，从而通过随机 SVD 来利用社交数据。
  许多工作开始利用深度模型（例如卷积神经网络、自编码器）来利用文本信息、图像信息、以及网络结构信息来获得更好的推荐。此外，还有一些典型的框架聚焦于结合辅助信息进行推荐。
  - 《Svdfeature: a toolkit for feature-based collaborative filtering》 提出了一个典型的 SVDFeature 框架来有效地解决 feature-based 矩阵分解。
  - 《Factorization machines》 提出了因子分解机 factorization machine: FM，这是一种结合特征工程通用性generality 的通用方法。
- 异质信息网络：作为一个新兴方向，异质信息网络可以自然地对推荐系统中的复杂对象及其丰富的关系进行建模，其中对象具有不同的类型、对象之间的链接代表不同的关系。人们已经提出了几种 path-based 相似性度量来评估异质信息网络中对象的相似性。因此，一些研究人员开始意识到 HIN-based 推荐的重要性。《Incorporating heterogeneous information for personalized tag recommendation in social tagging systems》 提出了 OptRank 方法，该方法通过利用社交标签系统social tagging system 中包含的异质信息来缓解冷启动问题。
  此外，人们将metapath 的概念引入混合推荐系统 hybrid recommender system 。
  - 《Collaborative filtering with entity similarity regularization in heterogeneous information networks》 利用 metapath-based 相似性作为矩阵分解框架中的正则化项。
  - 《Personalized entity recommendation: A heterogeneous information network approach》 利用异质信息网络中不同类型的实体关系，提出了一种用于隐式反馈数据集的个性化推荐框架。
  - 《Hete-cf: Social-based collaborative filtering recommendation using heterogeneous relations》 提出了一种使用异质关系的、基于协同过滤的社交推荐方法。
  - 最近，《Semantic path based personalized recommendation on weighted heterogeneous information networks》 提出了加权异质信息网络的概念，设计了一种 metapath-based 的协同过滤模型，灵活地集成异质信息从而进行个性化推荐。
  - 在 《Integrating heterogeneous information via flexible regularization framework for recommendation》 、《Recommendation in heterogeneous information network via dual similarity regularization》 、《Dual similarity regularization for recommendation》 中，用户相似性和 item 相似性都通过不同语义 metapath 下的、path-based 相似性度量来评估，并提出了一种基于对偶正则化框架dual regularization framework 的矩阵分解来进行评分预测。
  大多数 HIN-based 方法依赖于 path-based 相似性，这可能无法充分挖掘 HIN 上的用户潜在特征和 item 潜在特征从而进行推荐。
- network embedding：另一方面，network embedding 在结构特征提取方面显示出它的潜力，并已成功应用于许多数据挖掘任务，如分类、聚类、推荐。
  - Deepwalk 结合了截断的随机游走和 SkipGram 来学习 network representation 。
  - Node2Vec 是一种基于有偏 biased 的随机游走过程的、更灵活的 network embedding 框架。
  - 此外，LINE 和 SDNE 刻画了二阶邻近性以及邻域关系。
  - GraRep 模型可以捕获高阶邻近性用于学习 network representation 。
  除了仅从网络拓扑结构中学习 network embedding 之外，还有许多其他工作利用节点内容信息、以及其它可用的图信息graph information 来学习鲁棒的 representation 。不幸的是，大多数 network embedding 方法都聚焦于同质网络，因此它们无法直接应用于异质网络。
  最近，一些工作试图通过 embedding 方法分析异质网络。具体而言：
  - 《Heterogeneous network embedding via deep architectures》 设计了一个深度 embedding 模型来捕获网络中异质数据之间的复杂交互。
  - 《Embedding of embedding (eoe): Joint embedding for coupled heterogeneous networks》 提出了一种 EOE 方法来编码耦合异质网络的 intra-network edges 和 inter-network edges 。
  - 《metapath2vec: Scalable representation learning for heterogeneous networks》 通过 metapath 定义节点的邻域，并通过带负采样的 SkipGram 来学习异质 embedding 。
  尽管这些方法可以学习各种异质网络中的 network embedding，但它们的 node representation 和 edge representation 对于推荐而言可能不是最优的。
  因为这些 representation 是基于无监督学到的，没有推荐任务的监督信息。
据我们所知，这是首次尝试采用 network embedding 方法从异质信息网络中提取有用信息，并利用这些信息进行评分预测。该方法利用 HIN 的灵活性对复杂的异质上下文信息进行建模，同时借用 network embedding 的能力来学习有效的信息 representation。最终的评分预测组件进一步集成了变换机制 transformation mechanism ，从而利用来自 network embedding 所学到的信息。

25.1 模型

25.1.1 基本概念

heterogeneous information network: HIN $\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ 。
$\phi:\mathcal V\rightarrow \mathcal A$ $\psi:\mathcal E \rightarrow \mathcal R$ $|\mathcal A| + |\mathcal R| \gt 2$ 。
异质信息网络的复杂性驱使我们提供 meta level 的描述（如 schema-level ），以便更好地了解网络中节点类型和链接类型。因此，我们提出了网络模式 network schema 的概念，从而描述网络的 meta 结构。
network schema $\mathcal S = (\mathcal A,\mathcal R)$ $\mathcal G$ $\phi$ $\psi$ meta $\mathcal S$ $\mathcal A$ $\mathcal R$ 定义。
如电影推荐的案例中：我们有多种类型的节点，包括用户 U、电影 MD $\mathcal A = \{\text{U},\text{M},\text{D}\}$ 。我们有多种类型的关系，包括用户好友关系（U-U）、用户对电影评分关系 U-MD-M $\mathcal R=\{\text{U-U},\text{U-M} ,\text{D-M}\}$ $\mathcal A,\mathcal R$ $\mathcal S$ $\mathcal S$ $\mathcal G$ $\mathcal S$ $\mathcal G$ 的链接类型。
$\mathcal S$ $\mathcal G$ $\mathcal A$ $\mathcal V$ $\mathcal R$ $\mathcal E$ 。
如下图所示，这是我们实验的三个数据集对应的网络模式。由于我们的任务重点关注用户和 item，因此用户和 item 类型用大的圆圈表示，其它类型用小圆圈表示。
在 HIN 中，两个节点可以通过不同的语义路径semantic path 来链接，称作元路径 metapathmetapath $\mathcal S = (\mathcal A,\mathcal R)$ 上的一条路径。
元路径metapathmetapath $\rho$ 为：
$ρ = A_{1} \overset{R_{1}}{⟶} A_{2} \overset{R_{2}}{⟶} \dots \overset{R_{l}}{⟶} A_{l + 1}$
$\rho = A_1A_2\cdots A_{l+1}$ $A_1, A_2,\cdots,A_{l+1}$ $R=R_1\circ R_1\circ\cdots \circ R_l$ 的关系组成的路径。
$l$ meta-path $\rho$ $A_i\in \mathcal A$ $\mathcal R_i\in \mathcal R$ 为关系类型。
以电影推荐为例，两个节点之间可以通过多种metapath 相连，如：U-U 、 U-M-U 、U-M-D-M-U 。不同的 metapath 通常表示不同的语义。如：
- U-U：表示用户之间的好友关系。
- U-M-U：表示两个用户看过同一部电影。
- U-M-D-M-D ：表示两个用户看过同一个导演的不同电影。
下表给出了实验中使用的 metapath 信息。
最近，HIN 已经成为建模各种复杂交互系统的主流方法。特别地，它已被用于描述复杂的、异质的推荐 setting 的推荐系统中。
HIN basedHIN $\mathcal G=(\mathcal V,\mathcal E)$ 来建模。在面向推荐的 HIN 中，我们仅关注两类节点（UserItem $\mathcal U\sub \mathcal V$ item $\mathcal I\sub \mathcal V$ $<u,i,r_{u,i}>$ $u$ item $i$ $r_{u,i}$ $\mathcal O = \{<u,i,r_{u,i}>\}$ $\mathcal O\sub \mathcal E$ 。
HINHIN $\mathcal G=(\mathcal V,\mathcal E)$ $u$ item $i^\prime$ $r_{u,i^\prime}$ 。
目前在 HIN based 推荐上已有一些工作，但是它们大多数主要利用 metapath-based 相似性来增强推荐能力。我们提出一种新的 HIN-based 推荐方法 HERec，该方法能够有效地利用 HIN 的信息。HERec 主要分为两个部分：
- 一种新的 HIN embedding 方法，从而从 HIN 中学习 user embedding 和 item embedding。
- 一组灵活的融合函数fusion function ，从而将学到的 embedding 集成到经典的矩阵分解框架中。
整体框架如下图所示：首先构建 HIN（图 (a)），然后是 HIN embedding （图 (b)）和 Recomendation（图 (c)）。

25.1.2 HIN embedding

受 network embedding 最新进展的启发，我们采用 representation learning 方法来提取和表达 HINHIN $\mathcal G=(\mathcal V,\mathcal E)$ $v\in \mathcal V$ representation $\mathbf{\vec e}_v\in \mathbb R^d$ $d\ll |\mathcal V|$ emebdding $v$ 的信息。和 metapath-based 相似性相比，学到的 embedding 更容易在后续过程中使用和集成。
然而，现有的大多数network embedding 方法主要集中在同质图上，因此无法有效针对异质图进行建模。例如，开创性的工作 deepwalk 使用随机游走来生成节点序列，它无法区分不同类型的节点和边。因此，需要一种更通用的方式来遍历 HIN 并生成有意义的节点序列。
metapath-based 随机游走：要生成有意义的节点序列，关键是设计一种有效的游走策略，该策略能够捕获 HIN 中反映的复杂语义。在 HIN 的文献中，metapath 是刻画 HIN 语义模式 semantic pattern 的重要概念。因此，我们建议使用metapath-based 的随机游走方法来生成节点序列，然后利用 SkipGram 模型从节点序列中学到节点的 embedding 。
$\mathcal G=(\mathcal V,\mathcal E)$ meta path $\rho = A_1\stackrel{R_1}{\longrightarrow}A_2\stackrel{R_2}{\longrightarrow}\cdots \stackrel{R_l}{\longrightarrow} A_{l+1}$ ，我们通过以下分布来生成随机游走序列：
$\begin{matrix} p (n_{t + 1} = x ∣ n_{t} = v, ρ) = {\begin{cases} \frac{1}{| N_{v}^{A_{t + 1}} |} & , (v, x) \in E and ϕ (x) = A_{t + 1} \\ 0 & , else \end{cases} \end{matrix}$
$n_t$ $t$ $v$ $A_t$ $\mathcal N_v^{A_{t+1}}$ $v$ $A_{t+1}$ 的直接邻域节点集合。
metapath $\rho$ 的模式重复生成新的序列节点，直到序列达到预期的长度。
以电影推荐为例：
- 给定一个metapath UVM ，从 Tom 开始我们可以生成两条随机游走序列：
```
xxxxxxxxxx
Tom(User)  --> The Terminator(Movie) --> Mary(User)
Tom(User) --> Avater(Movie) --> bob(User) --> The Terminator(Movie) --> Mary(User)
```
- 给定一个 metapath UMDMU，从 Tom 开始我们能够生成另外一条随机游走序列：
```
xxxxxxxxxx
Tom(User) --> The Terminator(Movie) --> Cameron(Director) --> Avater(Movie) --> Mary(User)
```
可以直观看到这些 metapath 生成的随机游走序列对应了不同的语义关系semantic relation 。
类型约束和过滤：我们的目标是提升推荐性能，因此重点是学习user embedding 和 item embedding ，其它类型节点（如 Director ）的 embedding 我们不太感兴趣。因此，我们仅选择从 user 类型节点或 item 类型节点开始的 metapath。
注意，这里进行的 ”开始节点“ 的过滤，仅保留 ”开始节点“ 类型为 user 或 item 的序列。
使用上述方法生成了随机游走序列之后，序列中可能包含不同类型的节点。我们进一步删除了序列中和起始节点类型不同的其它节点，最终得到的随机游走序列仅包含和起始类型相同的节点。
这时，随机游走序列要么都是 user 节点、要么都是 item 节点。
这种对随机游走序列的节点进行类型过滤有两个好处：
- 尽管随机游走序列是通过具有异质类型的 metapath 构建的，但是最终的 representation 是在同质的邻域中学习的。同质邻域学习使得我们将相同类型的节点嵌入到相同的空间中。相对而言，将不同类型的节点嵌入到相同的空间的难度更大。
- 当窗口的长度固定时，类型过滤后的序列中，一个节点可以利用到更多的同质邻居。这些同质邻居可能比其它类型的异质邻居相关性更大。
如下图所示，为学习user embedding和 item embedding，我们仅考虑起始类型为用户类型或者 item 类型的 metapath。我们可以衍生出一些 metapath ，如 UMU, UMDMU,MUM 等。以 metapathUMU $p(n_{t+1} = x\mid n_t = v,\rho)$ 生成一个随机游走序列：
$u_{1} \to m_{1} \to u_{2} \to m_{2} \to u_{3} \to m_{2} \to u_{4}$
一旦序列被生成，我们进一步删除与起始节点类型不同的其它节点，这样的到了一个同质的节点序列：
$u_{1} \to u_{2} \to u_{3} \to u_{4}$
在这条同质节点序列中，节点之间的关系实际上是通过异质邻居节点（被删除的）构建的。
node embedding $u$ $u$ $\mathcal N_u$ 。和 node2vec 一致，我们最大化以下目标函数：
$max_{f} \sum_{u \in V} \log p (N_{u} ∣ f (u))$
其中：
- $f:\mathcal V\rightarrow \mathbb R^d$ 为一个映射函数（也是我们需要学习的目标），从而将每个节点映射到低维向量空间。
- $\mathcal N_u\sub \mathcal V$ $u$ 在指定 metapath 下随机游走序列的同质邻域。
我们采用随机梯度下降 SGDembedding $f(\cdot)$ $\mathcal N_u$ 的构造。我们的方法使用 metapath-based 的随机游走，并进行节点过滤来选择同质的邻居。
这里是无监督的、同质的一阶邻近性保持。
单个 metapath 的节点 embedding 算法：
- 输入：
  - HIN $\mathcal G=(\mathcal V,\mathcal E)$
  - metapath $\rho = A_1\stackrel{R_1}{\longrightarrow}A_2\stackrel{R_2}{\longrightarrow}\cdots \stackrel{R_l}{\longrightarrow} A_{l+1}$
  - $A^*$
  - embedding $d$
  - $l$
  - $w$
  - $r$
- $v$ 在该 metapathembedding $\mathbf{\vec e}_v$
- 算法步骤：
  - $\{\mathbf{\vec e}_v\}_{v=1}^n$ 。
  - $\text{paths} = []$ 。
  - $A^*$ $v$ ，开始迭代：
    - $\text{for } i = 1,2,\cdots r$ ：
      - $\text{path } = []$ 。
      - $v$ $p(n_{t+1} = x\mid n_t = v,\rho)$ $A^*$ 类型相同的节点加入到 pathpath $l$ 时，该随机游走序列结束。
      - 将path 添加到 paths 中。
  - paths $d$ $w$ 执行 SkipGram 的 embedding 学习算法。
  - embedding $\{\mathbf{\vec e}_v\}_{v=1}^n$ 。
embedding 融合 Embedding Fusion：HIN embedding 提供了从 HINmetapath $\mathcal P = \{P_1,\cdots,P_K\}$ ，则每个 metapath 都能学到 HINembedding $K$ metapath $v\in \mathcal V$ embedding $\left\{\mathbf{\vec e}_v^{(1)},\cdots,\mathbf{\vec e}_v^{(K)}\right\}$ 。因此我们需要一个融合方法，从而将节点在不同 metapath 下学到的 embedding 转化为更合适的形式，从而有助于提高推荐性能。
HIN $g(\cdot)$ （而不是线性函数），其目标是为用户和 item 融合各 metapath 下学到的 node embedding ：
${\vec{e}}_{u}^{(U)} \leftarrow g ({{\vec{e}}_{u}^{(k)}}_{k = 1}^{K}), {\vec{e}}_{i}^{(I)} \leftarrow g ({{\vec{e}}_{i}^{(k)}}_{k = 1}^{K})$
$\mathbf{\vec e}_u^{(U)}$ $\mathbf{\vec e}_i^{(I)}$ $u$ item $i$ 的最终 embedding 。
$g(\cdot)$ 的具体形式。我们认为应该根据具体任务来学习融合函数，因此我们将融合函数留待推荐模型中设计和优化。

25.1.3 矩阵分解扩展

前面我们研究了如何从 HIN 中提取和表达有效信息来进行推荐。通过 HIN embeddingembedding $\left\{\mathbf{\vec e}_u^{(U)}\right\}_{u\in \mathcal U}$ item embedding $\left\{\mathbf{\vec e}_i^{(I)}\right\}_{i\in \mathcal I}$ $g(\cdot)$ 来得到。现在我们研究如何利用学到的 embedding 进行推荐。
评分预测器 Rating Predictor：我们基于经典的矩阵分解MF 模型来构建 predictorMF $u$ $\mathbf{\vec x}_u\in \mathbb R^D$ item $i$ $\mathbf{\vec y}_i\in \mathbb R^D$ $D$ $u$ item $i$ 的评分预估为：
${\hat{r}}_{u, i} = {\vec{x}}_{u} \cdot {\vec{y}}_{i} \in R$
$u$ item $i$ 的 embedding，因此可以考虑将潜在因子向量和 embedding 向量集成在一起。集成后的 predictor 为：
${\hat{r}}_{u, i} = {\vec{x}}_{u} \cdot {\vec{y}}_{i} + α {\vec{e}}_{u}^{(U)} \cdot {\vec{γ}}_{i}^{(I)} + β {\vec{γ}}_{u}^{(U)} \cdot {\vec{e}}_{i}^{(I)}$
其中：
- $\mathbf{\vec e}_u^{(U)}$ $\mathbf{\vec e}_i^{(I)}$ $u$ item $i$ 的 HIN embedding 向量。
- $\mathbf{\vec x}_u$ $\mathbf{\vec y}_i$ $u$ item $i$ 的潜在因子向量。
- $\vec \gamma_u^{(U)}$ $\vec \gamma_i^{(I)}$ $u$ item $i$ 的、和 HIN embedding 配对的潜在因子向量。
- $\alpha,\beta$ 为超参数，用于平衡这三项之间的系数。
对于该公式，我们需要注意两点：
- $\mathbf{\vec e}_u^{(U)}$ $\mathbf{\vec e}_i^{(I)}$ $g(\cdot)$ $g(\cdot)$ 融合后的embedding 适用于 MF 。
- $\mathbf{\vec e}_u^{(U)} \cdot \mathbf{\vec e}_i^{(I)}$ HIN embedding $\vec \gamma_u^{(U)}$ $\vec \gamma_i^{(I)}$ $\mathbf{\vec e}_u^{(U)}$ $\mathbf{\vec e}_i^{(I)}$ 必须在同一个空间，这增加了模型的灵活性。
  这里很巧妙，它刻画了这样的事实：节点的相关性不同于推荐有效性。
  $\mathbf{\vec e}_u^{(U)}$ $\mathbf{\vec e}_i^{(I)}$ ，并通过一个线性模型来得到它对于 predictor 的贡献。
Fusion Function $g(\cdot)$ $g(\cdot)$ 将 HIN 学到的节点embedding 转化为对推荐系统有用的形式。这里我们仅讨论融合用户 embedding 的情况，item embedding 融合也是类似的。
我们建议使用三种类型的融合函数来融合 embedding：
- 简单的线性融合。我们假设每个用户对每个 metapath 都相同的偏好，因此我们为每个 metapath 分配统一的权重（即均值）。此外，我们还将 embedding 线性映射到目标空间：
  $g ({{\vec{e}}_{u}^{(k)}}_{k = 1}^{K}) = \frac{1}{K} \sum_{k = 1}^{K} (M^{(k)} {\vec{e}}_{u}^{(k)} + {\vec{b}}^{(k)})$
  $\mathcal P$ metapath $\mathbf M^{(k)}\in \mathbb R^{D\times d}, \mathbf{\vec b} ^{(k)}\in \mathbb R^D$ $k$ 个 metapath 的线性映射参数。
- metapath $u$ metapath $w_u^{(k)}$ 。在实际应用中，每个用户都有其个性化兴趣偏好是更合理的：
  $g ({{\vec{e}}_{u}^{(k)}}_{k = 1}^{K}) = \frac{1}{K} \sum_{k = 1}^{K} w_{u}^{(k)} \times (M^{(k)} {\vec{e}}_{u}^{(k)} + {\vec{b}}^{(k)})$
  $w_u^{(k)}$ $u$ $k$ 个 metapath 上的偏好权重。
- 个性化非线性融合。线性融合在建模复杂数据关系时的表达能力有限，因此我们使用非线性函数来增强表达能力：
  $g ({{\vec{e}}_{u}^{(k)}}_{k = 1}^{K}) = σ (\frac{1}{K} \sum_{k = 1}^{K} w_{u}^{(k)} \times σ (M^{(k)} {\vec{e}}_{u}^{(k)} + {\vec{b}}^{(k)}))$
  $\sigma(\cdot)$ 为线性函数。这里我们采用 sigmoid 函数。
  尽管这里使用了两个非线性变换，也可以灵活地推广到多个非线性层，如多层感知机。
模型学习：我们将融合函数整合到矩阵分解框架中，联合学习融合函数和矩阵分解模型的参数。我们的目标函数为：
$\begin{matrix} L = \sum_{< u, i, r_{u, i} >\in O} {(r_{u, i} - {\hat{r}}_{u, i})}^{2} + λ (\sum_{u} {‖ {\vec{x}}_{u} ‖}_{2} + \sum_{i} {‖ {\vec{y}}_{i} ‖}_{2}) \\ + λ_{γ} (\sum_{u} {‖ {\vec{γ}}_{u}^{(U)} ‖}_{2} + \sum_{i} {‖ {\vec{γ}}_{i}^{(I)} ‖}_{2}) + λ_{Θ} ({‖ Θ^{(U)} ‖}_{2} + {‖ Θ^{(I)} ‖}_{2}) \end{matrix}$
其中：
- $\hat r_{u,i}$ $r_{u,i}$ 为真实评分。
- $\Theta^{(U)},\Theta^{(I)}$ $g(\cdot)$ 分别针对用户融合的参数、item 融合的参数。
- $\lambda,\lambda_\gamma,\lambda_\Theta$ 分别为正则化系数。
我们采用随机梯度下降 SGD 来优化目标函数。
这里一个难点是：梯度如何在矩阵分解模型、HIN embedding 模型之间传播。论文给出的方案是两阶段模型：
- HIN embedding $\left\{\mathbf{\vec e}_u^{(k)}\right\}_{k=1}^{K}$ $\left\{\mathbf{\vec e}_i^{(k)}\right\}_{k=1}^{K}$ 。这时，HIN embedding 作为矩阵分解模型的输入特征。
- 然后通过随机梯度下降算法优化矩阵分解模型（包括融合函数）。
更好的做法是共同训练 HIN embedding 模型和矩阵分解模型，使得监督信息能够输入给 HIN embedding 模型。此时，HIN embedding 模型捕获矩阵分解模型的残差，从而构成 boosting 范式。
HERec 训练算法：
- 输入：
  - HIN $\mathcal G=(\mathcal V,\mathcal E)$
  - metapath $\mathcal P^{(U)}$ 和 itemmetapath $\mathcal P^{(I)}$
  - embedding $d$
  - $D$
  - $l$
  - $w$
  - $r$
  - user-item $\mathcal O$
  - $\eta$
  - $\alpha,\beta$
  - $\lambda,\lambda_\gamma,\lambda_\Theta$
- 输出：
  - $\{\mathbf{\vec x}_u\}_{u\in \mathcal U}$ item $\{\mathbf{\vec y}_i\}_{i\in \mathcal I}$
  - HIN embedding $\left\{\vec\gamma_u^{(U)}\right\}_{u\in \mathcal U},\left\{\vec\gamma_u^{(I)}\right\}_{i\in \mathcal I}$
  - $\Theta^{(U)}, \Theta^{(I)}$
- 算法步骤：
  - 根据 HIN embeddingmetapath $P_k^{(U)} \in \mathcal P^{(U)}$ 的 embeddingembedding $\left\{\mathbf{\vec e}_u^{(k)}\right\}_{u\in \mathcal U}^{k=1,\cdots,K}$ 。
  - 根据 HIN embeddingitem metapath $P_k^{(I)} \in \mathcal P^{(I)}$ 的 embeddingitem embedding $\left\{\mathbf{\vec e}_i^{(k)}\right\}_{i\in \mathcal I}^{k=1,\cdots,K}$ 。
  - $\{\mathbf{\vec x}_u\}_{u\in \mathcal U}, \{\mathbf{\vec y}_i\}_{i\in \mathcal I}, \left\{\vec\gamma_u^{(U)}\right\}_{u\in \mathcal U},\left\{\vec\gamma_i^{(I)}\right\}_{i\in \mathcal I} ,\Theta^{(U)}, \Theta^{(I)}$ 。
  - 迭代直到收敛，迭代步骤为：
    - $\mathcal O$ $<u,i, r_{u,i}>$ 。
    - $\mathbf{\vec x}_u, \mathbf{\vec y}_i$ 。
    - $k=1,2,\cdots,K$ $\nabla_{\Theta_{u,k}^{(U)}} \mathcal L$ $\Theta_{u,k}^{(U)}$ 。
    - $\nabla_{\vec\gamma_u^{(U)}} \mathcal L$ $\vec\gamma_u^{(U)}$ 。
    - $k=1,2,\cdots,K$ $\nabla_{\Theta_{i,k}^{(I)}} \mathcal L$ $\Theta_{i,k}^{(I)}$ 。
    - $\nabla_{\vec\gamma_i^{(I)}} \mathcal L$ $\vec\gamma_i^{(I)}$ 。
  - $\{\mathbf{\vec x}_u\}_{u\in \mathcal U}, \{\mathbf{\vec y}_i\}_{i\in \mathcal I}, \left\{\vec\gamma_u^{(U)}\right\}_{u\in \mathcal U},\left\{\vec\gamma_i^{(I)}\right\}_{i\in \mathcal I} ,\Theta^{(U)}, \Theta^{(I)}$ 。
算法复杂度：HERec 包含两个阶段：
- HIN embedding 阶段：这一阶段主要通过 metapath based embedding 算法得到每个节点在不同 metapath 下的 embeddingDeepWalk $O(d\times |\mathcal V|)$ $d$ 为 embedding 维度。因此每个metapathuser embedding $O(d\times |\mathcal U|)$ item embedding $O(d\times |\mathcal I|)$ HIN embedding $O(K\times d\times (|\mathcal U| + |\mathcal I|))$ 。
  值得注意的是：可以很容易地并行训练 HIN embedding 。我们将使用多线程模式来实现 HIN embedding，从而提高训练效率。
- 矩阵分解MF 阶段：这一阶段通过联合学习融合函数和矩阵分解模型，从而得到最终的node representation 。
  $<u,i,r_{u,i}>$ $\mathbf{\vec x}_u,\mathbf{\vec y}_i,\vec\gamma_u^{(D)},\vec\gamma_i^{(I)}$ $O(D)$ $D$ $\Theta_u^{(U)},\Theta_i^{(I)}$ $O(K\times D\times d)$ $K$ $d,D$ 都在几百维。因此 HERec 对于的大型数据集的训练非常高效。
  另外，SGD 随机梯度下降在实践中表现很好，在我们的数据集中具有很快的收敛速度。

25.2 实验

数据集：
- 豆瓣电影数据集 Douban Movie：包含 13367 名用户在 12677 部电影上的 1068278 个评分。电影评分从 1 到 5 分。此外，数据集还包含用户和电影的社交信息和属性信息。
- 豆瓣读书数据集 Douban Book：包含 13024 名用户在 22347 本图书上的 792026 个评分。书籍评分从 1 到 5 分。数据集也包含用户和书籍的社交信息和属性信息。
- Yelp 数据集：包含 16239 名用户在 14282 个本地商家上的 198397 个评分。评分从 1到 5 分。数据集包含用户和商家的社交关系和属性信息。
这三个数据集的详细说明如下。可以看到这三个书籍除了属于不同的领域之外，它们的数据稀疏性也不同：Yelp 数据集非常稀疏，Douban Movie 数据集相对稠密。
我们也给出这三个数据集用到的 meta-path 集合：
评估指标：我们采用 mean absolute error: MAE 和 root mean square error: RMSE 来评估推荐结果的质量。
baseline 方法：
- PMF：经典的概率矩阵分解模型，它将评分矩阵显式分解为两个低维矩阵。
- SoMF：引入社交网络信息的矩阵分解模型。社交关系通过正则化引入并集成到基本的矩阵分解模型中。
- FM-HIN：上下文感知的分解机模型，它能够利用各种辅助信息。在我们的实验中，我们抽取异质信息作为上下文特征，并将其集成到 FM 中。
- HeteMF：一种矩阵分解模型，它利用了 HIN 上 metapath-based 相似性。
- SemRec：一种加权HIN 上的协同过滤方法。它以相同的评分来连接用户和 item 。它通过加权的 metapath 以及加权的 ensemble 方法灵活地集成异质信息。
- DSR：一种具有双重相似度正则化的矩阵分解方法。该方法同时对用户和相似度较高的 item、用户和相似度较低的 item 同时施加了约束。
- HERec-dw：HERec 的一个变体，它采用了同质网络的 DeepWalk 而忽略了 HIN 中节点的异质性。
- HERec-mp：HERec 的一个变体，它结合了 metapath2vec ++ 的 HIN embedding。这里它并没有执行随机游走序列的节点过滤，而是对包含异质节点的随机游走序列执行 embedding 。
- HERec：我们提出的 HIN 推荐模型。在有效性实验中，我们采用个性化的非线性融合函数。
我们的 baseline 全面覆盖了现有的评分预测方法：PMF, SoMF 为经典的 MF 预估方法； FM-HIN, HeteMF, SemRec, DSR 为基于 HIN 的推荐，它们使用metapath-based 相似性，代表了state-of-the-art 的、基于的 HIN 方法。
我们提出的方法包含一个 HIN embedding 组件，它可以使用任何其它网络 embedding 方法取代。因此这里比较了两个变体：HERec-dw 和 HERec-mp 。
配置：
- MF $D = 10$ ，其它 baseline 配置要么使用原始论文的最佳配置，要么使用 10% 的验证集来择优。
- 所有基于 HIN 的方法都需要指定metapath。我们在下表中给出使用的 metapath。我们选择比较短的 metapath （最多 4 个 step），因为长的 metapath 可能会引入语义噪音。
- 基于 HERecembedding $d=64$ $l=40$ $\alpha = \beta = 1.0$ 。
有效性实验：对每个数据集，我们将原始的评分数据拆分为训练集和测试集。
- 对于豆瓣电影和豆瓣读书数据集，我们选择训练集的拆分比例分别为 {80%, 60%, 40%, 20%} 。
- 对于Yelp 数据集，考虑到数据集非常稀疏，因此我们选择训练集的拆分比例为 {90%, 80%, 70%, 60%} 。
在每种拆分比例下，我们训练每个模型并报告各模型在测试集上评估结果。对每种拆分比例我们随机拆分 10 次并评估 10 次，最终给出每个模型的评估均值。实验结果如下表所示。我们以 PMF 的结果作为基准，给出了其它方法相对于 PMF 的提升。
结论：
- 所有 baseline 方法中，基于 HIN 的方法（HeteMF,SemRec, FM-HIN, DSR）的性能优于传统 MF 方法（PMF,SoMF ）。这证明了异质信息的有效性。
  值得注意的是：FM-HIN 模型在基于 HIN 的三个 baseline 中非常有效。一个直观解释是：在我们的数据集中，大多数原始特征是用户属性或 item 属性，这些属性信息可能包含了有效信息来改善推荐性能。
- 我们的 HERec 方法始终优于 baseline 。和其它 HIN based 方法相比，HERec 采取了更有效的方式来利用 HIN 从而改进推荐系统。
- HERec 在训练数据稀疏时的效果更为突出。如，在豆瓣图书数据集上使用 20% 的训练数据时，HERec 相对于 PMF 的提升高达 40%。这些结果表明了所提出方法的有效性，尤其是在稀疏数据集中。
- 从 HERec 的两个变体 HERec-dw 和 HERec-mp 可以看到：
  - HERec-dw 的效果要差得多。HERec-dw 忽略数据的异质性，并将 HIN 视为同质网络。这表明异质信息的重要性。
  - HERec-mp 没有使用节点类型过滤，而是尝试使用异质序列将所有类型的节点都映射到相同的 embedding 空间中。相比较而言，HERec 进行节点过滤，从而将同质节点映射到相同的 embedding 空间。
    虽然 metapath2vec 更为通用，但是我们的方法在推荐任务中表现更好。我们的重点是学习 user embedding 和 item embedding，而其它类型的对象仅用作构建同质邻域的桥梁。基于结果（HERec 优于 HERec-mp），我们认为执行 task-specific HIN embedding 有利于提高推荐性能。
不同融合函数：HERec 需要一种融合方法从而将节点的不同metapath 下的 embedding 转换为合适的形式。这里我们讨论不同融合方法的效果。
我们将线性融合函数的 HERec 变体称作 HERec-sl，将个性化线性融合函数的HERec 变体称作 HERec-pl，将个性化非线性融合函数的 HERec 变体称作 HERec-pnl 。我们给出三个数据集上不同变体的性能比较，如下图所示。
- 总体而言，这些变体的性能为：HERec-pnl > HERec-pl > HERec-sl 。
- 这三个变体中，简单的线性融合函数表现最差，因为它忽略了个性化和非线性。事实上，用户确实可能对 metapath 有不同的偏好，因此应在 metapath based 方法中予以考虑。因此个性化融合函数显然可以提高性能。
- HERec-pnl 相对于 HERec-pl 的提升相对不大。一个可能的原因是：个性化的组合参数提高了线性模型的容量。尽管如此，通过考虑个性化和非线性变换， HERec-pnl 仍然表现最好。
考虑到 HERec-pnl 效果最好，因此后续的实验都将采取 HERec-pnl 。
冷启动问题：HIN 有助于改善冷启动问题，因为虽然冷启动预测的评分记录较少，但是可以使用异质的上下文信息。我们以评分数量来衡量冷启动的严重程度。我们将测试集的用户根据他们的评分数量划分为三组：(0,5], (5,15], (15,30] 。可以看到，第一组的预测最为困难，因为他们的评分数量最少。
这里我们仅选择 HIN based baseline 方法，包括 SoMF,HeteMF,SemRec,DSR, FM-HIN。我们报告了它们相对于 PMF 的提升比例。
- 总体而言，所有方法都优于 PMF 。

HERec 在所有 baseline 方法中表现最好，并且在冷启动问题最严重（评分最稀疏）的组别中提升更大。
结果表明：基于 HIN 的信息可以有效提高推荐性能，并且 HERec 利用 HIN 信息的效果更好。

不同 metapathmetapath $\mathcal P$ 集合的效果。我们将这些 metapath 依次添加到 HERec 中，并检查模型性能变化。
可以看到：
- 用户节点开始的metapath 和 item 节点开始的 metapath 都有助于提升性能。
- 通常而言，随着更多 metapath 的加入，性能通常会得到提高。但是，更多的metapath 并不总是能够提升性能，而是略有波动。原因是某些 metapath 可能包含噪音，或者与现有的 metapath 存在信息冲突。
- 仅仅加入了几个 metapath，模型很快就实现了相对较好的性能。这证明了之前的发现：少量的高质量 metapath 就能带来较大性能改进。因此我们只需要选择少量的 metapath 就可以有效控制模型的复杂度。

参数敏感性：HERec 有几个关键的超参数。
- $D$ $D$ 以步长为 5 从 550 $D$ $D=10$ $D$ 应该设为一个较小的值。
- $D=10$ $\alpha,\beta$ precitor $\alpha,\beta$ $\{0.1,0.5,1,2\}$ 。可以看到：最佳参数在 (1,1) 附近。这表明 user HIN embedding 和 item HIM embedding 都很重要。
  $\alpha,\beta$ 的变化趋势是平稳的。这表明 HERec 对这两个参数不是很敏感。
- 最后我们研究性能随迭代次数的变化。可以看到 HERec 的收敛速度较快：对于稠密数据集(如豆瓣电影和豆瓣读书) 大约需要 40 到 60 次迭代；对于稀疏数据集（如 Yelp），大约需要 20 次迭代。

二十六、GATNE[2019]

network embedding 或 network representation learning 是一种很有前途的方法，可以将网络中的节点投影到低维连续的空间，同时保持网络结构和固有属性。由于network embedding 推动了节点分类、链接预测、社区检测等下游 network learning 的重大进展，因此它最近引起了人们的极大关注。DeepWalk, LINE, node2vec 是将深度学习技术引入网络分析从而学习 node embedding 的开创性工作。NetMF 对不同 network embedding 算法的等价性equivalence 进行了理论分析，而随后的 NetSMF 通过稀疏化给出了可扩展的解决方案。然而，它们被设计为仅处理具有单一类型节点和边的同质网络homogeneous network 。
最近，人们针对异质网络提出了 PTE, metapath2vec, HERec。然而，现实世界的网络应用（例如，电商）要复杂得多，不仅包含多种类型的节点和边，还包含一组丰富的属性。由于 embedding learning 的重要性和挑战性，已有大量工作尝试来研究复杂网络的 embedding learning 。根据网络拓扑（同质的或异质的）、属性（带属性或不带属性），论文《Representation Learning for Attributed Multiplex Heterogeneous Network》对六种不同类型的网络进行了分类，并在下表中总结了它们的相对进展。这六个类别包括：同质网络Homogeneous Network: HON、属性同质网络Attributed Homogeneous Network: AHON、异质网络Heterogeneous Network: HEN、属性异质网络Attributed Heterogeneous Network: AHEN、多重异质网络Multiplex Heterogeneous Network: MHEN、属性多重异质网络Attributed Multiplex Heterogeneous Network: AMHEN。可以看到，人们对 AMHEN 的研究最少。
在论文《Representation Learning for Attributed Multiplex Heterogeneous Network》中，作者专注于 AMHEN 的 embedding learning，其中不同类型的节点可能与多种不同类型的边相连接，而且每个节点可能关联一组不同的属性。这在许多online application 中很常见。例如，在论文使用的四个数据集中，Twitter 有 20.3%、YouTube 有 21.6%、Amazon 有 15.1%、Alibaba 有 16.3% 的边具有不止一种类型。例如，在电商系统中，用户可能与item 进行多种类型的交互，如点击click 、转化conversion 、加购物车add-to-cart 、收藏add-to-preference 。下图说明了这样的一个例子。显然， user 和 item 具有本质上不同的属性，不应该一视同仁。此外，不同类型的 user-item 交互意味着不同程度的兴趣，应该区别对待。否则，系统无法准确捕获用户的行为模式behavioral pattern 和偏好，因此无法满足实际使用的需求。
下图中，左侧的用户和属性相关联，用户属性包括性别、年龄、地域；右侧的item 也和属性相关联，item 属性包括价格、品牌等。 user-item 之间的边有四种类型：点击、加购物车、收藏、转化（即购买）。中间的三个子图代表三种建模方式，从上到下依次为 HON, MHEN, AMHEN 。最右侧给出了在阿里巴巴数据集上不同模型相对于 DeepWalk 性能的提升。可以看到，GATNE-I 相比 DeepWalk 提升了 28.23% 。
不仅因为异质性heterogeneity 和多重性 multiplicity ，在实践中处理 AMHEN 带来了几个独有的挑战：
- 多重边 multiplex edge：每对节点 pair 对之间可以存在多种不同类型的关系，因此结合不同类型关系并学习统一的 embedding 非常重要。
- 部分观测 partial observation：真实网络的数据实际上只有部分被观测到。如，一个长尾用户可能只与某些商品产生很少的交互。现有的大部分 network embedding 方法仅关注于 transductive 场景，因此无法解决长尾或冷启动问题。
- 可扩展性scalability：真实网络通常具有数十亿个节点、数百亿甚至千亿的边。因此模型的可扩展性非常重要。
为应对上述挑战，论文《Representation Learning for Attributed Multiplex Heterogeneous Network》提出了一种新颖的方法来捕获丰富的属性信息，并利用来自不同节点类型的多重拓扑结构multiplex topological structure ，即通用属性多重异质网络嵌入 General Attributed Multiplex HeTerogeneous Network Embedding: GATNE。GATNE 的主要特性如下：
- 作者正式定义了 attributed multiplex heterogeneous network embedding 问题，这是现实世界网络的更通用的representation 。
- GATNE 同时支持 attributed multiplex heterogeneous network 的 transductive embedding learning 和 inductive embedding learning 。论文还给出了理论分析，从而证明所提出的 transductive 模型比现有模型（如 MNE 更通用）。
- 论文为 GATNE 开发了高效且可扩展的学习算法，从而能够有效地处理数亿个节点和数十亿条边。
论文进行了广泛的实验，从而在四种不同类型的数据集（Amazon, YouTube, Twitter, Alibaba）上评估所提出的模型。实验结果表明：与 state-of-the-art 方法相比，论文的方法可以实现显著的提升。作者已经在阿里巴巴的分布式系统上部署了所提出的模型，并将该方法应用到了阿里巴巴的推荐引擎中。离线 A/B test 进一步证实了论文所提出方法的效果和效率。
相关工作：这里我们回顾了 network embedding、heterogeneous network embedding、multiplex heterogeneous network embedding、attributed network embedding 相关的 state-of-the-art 方法。
- Network Embedding：network embedding 方面的工作主要包括两类，graph embedding: GE、graph neural network: GNN。
  GE 的代表工作包括：
  - DeepWalk 方法通过随机游走在图上生成语料库，然后在语料库上训练 SkipGram 模型。
  - LINE 学习大型网络上的 node representation，同时保持一阶邻近性和二阶邻近性。
  - node2vec 设计了一个有偏的随机游走程序来有效地探索不同类型的邻域。
  - NetMF 是一个统一的矩阵分解框架，用于从理论上理解和改进 DeepWalk, LINE 。
  GNN 中的热门工作包括：
  - GCN （《Semi-Supervised Classification with Graph Convolutional Networks》）使用卷积运算将邻域的 feature representation 融合到当前节点的 feature representation 中。
  - GraphSAGE 提供了一种将网络结构信息和节点特征相结合的 inductive 方法。GraphSAGE 学习 representation 函数而不是每个节点的直接 embedding，这有助于它可以应用到训练期间 unseen 的节点。
- Heterogeneous Network Embedding ：异质网络包含各种类型的节点和/或边。众所周知，由于异质内容和结构的各种组合，这类网络很难挖掘。目前人们在嵌入动态的、异质的大型网络方面所作的努力有限。
  - HNE 共同考虑网络中的内容和拓扑结构，将异质网络中的不同对象表示为统一的向量 representation 。
  - PTE 从label 信息和不同级别的 word co-occurrence 信息中构建大型异质文本网络，然后将其嵌入到低维空间中。
  - metapath2vec 通过 metapath-based 随机游走来构建节点的异质邻域，然后利用异质 SkipGram 模型来执行 node embedding 。
  - HERec 使用 metapath-based 随机游走策略来生成有意义的节点序列从而学习 network embedding 。这些 embedding 首先通过一组融合函数进行变换，然后集成到扩展的矩阵分解模型中。
- Multiplex Heterogeneous Network Embedding：现有方法通常研究节点之间具有单一类型邻近关系proximity 的网络，它仅捕获网络的单个视图。然而，在现实世界中，节点之间通常存在多种类型的临近关系，产生具有多个视图的网络。
  - PMNE 提出了三种将多重网络投影到连续向量空间的方法。
  - MVE 使用注意力机制将多视图网络嵌入到单个协同的 embedding 中。
  - MNE 对每个节点使用一个 common embedding 以及若干个 additional embedding ，其中每种类型的边对应一个 additional embedding 。这些 embedding 由一个统一的 network embedding 模型来共同学习。
  - mvn2vec 探索了通过同时建模 preservation 和 collaboration 以分别表示不同视图中边语义 edge semantic meaning 从而实现更好的 embedding 结果的可行性。
- Attributed Network Embedding：属性网络旨在为网络中的节点寻找低维向量 representation，以便在 representation 中同时保持原始网络拓扑结构和节点属性邻近性。
  - TADW 在矩阵分解框架下，将节点的文本特征融入 network representation learning 中。
  - LANE 将 label 信息平滑地融合到属性网络 embedding 中，同时保持节点的相关性。
  - AANE 能够以分布式方式完成联合学习过程，从而加速属性网络 embedding 。
  - SNE 提出了一个通用框架，通过捕获结构邻近性和属性邻近性来嵌入社交网络。
  - DANE 可以捕获高度非线性并保持拓扑结构和节点属性中的各种邻近性。
  - ANRL 使用邻域增强自编码器对节点属性信息进行建模，并使用基于属性编码器和属性感知 SkipGram 模型来捕获网络结构。

26.1 模型

26.1.1 基本概念

$\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E$ $\mathcal E=\{e_{i,j}\}$ $e_{i,j} = (v_i,v_j)$ $w_{i,j}\ge 0$ $v_i$ $v_j$ 的关系强度。
$\mathcal G$ $e_{i,j} = e_{j,i}$ $w_{i,j} = w_{j,i}$ $e_{i,j} \ne e_{j,i}$ $w_{i,j} \ne w_{j,i}$ 。
Heterogeneous Network $\mathcal G=(\mathcal V,\mathcal E)$ $\phi:\mathcal V\rightarrow \mathcal O$ $\psi:\mathcal E\rightarrow \mathcal R$ $\mathcal O$ $\mathcal R$ $v\in \mathcal V$ $e\in \mathcal E$ $|\mathcal O| + |\mathcal R|\gt 2$ ，则这个网络被称作是异质的heterogeneous ，否则是同质的 homogeneous 。
$v_i,v_j$ $e_{i,j}^{(r)}$ $v_i$ $v_j$ $r\in \mathcal R$ 的边。
Attributed Network $\mathcal G=(\mathcal V,\mathcal E, \mathcal A)$ $v_i\in \mathcal V$ $\mathbf{\vec x}_i$ $\mathcal A$ $\mathcal A=\{\mathbf{\vec x}_i\mid v_i\in \mathcal V\}$ 。
Attributed Multiplex Heterogeneous Network: AMHEN $\mathcal G=(\mathcal V,\mathcal E,\mathcal A)$ $\mathcal E=\cup_{r\in \mathcal R} \mathcal E_r$ $\mathcal E_r$ $r$ $|\mathcal R| \gt 1$ $\mathcal G$ $\mathcal G_r = (\mathcal V,\mathcal E_r,\mathcal A)$ 。
AMHEN EmbeddingAMHEN $\mathcal G=(\mathcal V,\mathcal E,\mathcal A)$ $r\in \mathcal R$ embedding $r$ $f_r:\mathcal V\rightarrow \mathbb R^d$ $d\ll |\mathcal V|$ 。
$v_i$ $r\in \mathcal R$ 学习一个 embedding ，而不是所有视图共享一个 embedding 。这有两个好处：
- 首先，可以通过各个视图的 embedding 来聚合得到一个所有视图共享的 embedding。
- 其次，各个视图的 embedding 保持了各个视图的语义，因此可以用于 view-level 的任务，例如某个视图下的链接预测。
我们首先在 transductive 上下文中提出 GATNE 框架，对应的模型称作 GATNE-T 。我们还将 GATNE-T 与新的流行模型（如 MNE）之间的联系进行了讨论。
为解决部分观测partial observation 问题，我们进一步将模型扩展到 inductive 上下文中，并提出了 GATNE-I 模型。针对这两个模型，我们还提出了有效的优化算法。

26.1.2 GATNE-T

transductive $v_i$ $r$ 的 overall embedding 拆分为两个部分，如下图所示：
- base embedding $v_i$ 的 base embedding 在节点的不同边类型之间共享。
- edge embedding $v_i$ $\mathcal G_r$ 上 embedding 。
现在考虑 edge embeddingGraphSage $v_i$ $\mathcal G_r$ embedding $K$ $1 \le k \le K$ 层 embedding 为：
${\vec{u}}_{i, r}^{(k)} = agg ({{\vec{u}}_{j, r}^{(k - 1)} ∣ v_{j} \in N_{i, r}})$
其中：
- $\mathcal N_{i,r}$ $v_i$ $\mathcal G_r$ 上的邻居节点集合。
- agg 为一个聚合函数。类似于 GraphSAGE，它可以为均值聚合：
  ${\vec{u}}_{i, r}^{(k)} = σ ({\hat{W}}^{(k)} mean ({{\vec{u}}_{j, r}^{(k - 1)} ∣ v_{j} \in N_{i, r}}))$
  也可以为池化聚合，如最大池化：
  ${\vec{u}}_{i, r}^{(k)} = max ({σ ({\hat{W}}_{p o o l}^{(k)} {\vec{u}}_{j, r}^{(k - 1)} + \hat{{\vec{b}}_{p o o l}^{(k)}}) ∣ v_{j} \in N_{i, r}})$
  $\sigma(\cdot)$ 为激活函数。
- $\mathbf{\vec u}_{i,r}^{(0)}$ 在 transductive 模型中通过随机初始化。
第 Kembedding $\mathbf{\vec u}_{i,r}^{(K)}$ $v_i$ embedding $\mathbf{\vec u}_{i,r}$ $v_i$ $r$ embedding $v_i$ 的 embedding 矩阵：
$U_{i} = ({\vec{u}}_{i, 1}, \dots, {\vec{u}}_{i, | R |}) \in R^{s \times | R |}$
$s$ edge embedding $|\mathcal R|$ 为边的类型数量。
self-attention $\mathbf{\vec a}_{i,r}$ $\{\mathbf{\vec u}_{i,1},\cdots,\mathbf{\vec u}_{i,|\mathcal R|}\}$ $v_i$ 的 edge embedding ：
$\begin{matrix} {\vec{a}}_{i, r} = softmax ({\vec{w}}_{r}^{⊤} \tanh (W_{r} U_{i}))^{⊤} \in R^{| R |} \\ {\hat{\vec{u}}}_{i, r} = U_{i} {\vec{a}}_{i, r} \in R^{s} \end{matrix}$
其中：
- $\mathbf{\vec w}_r\in \mathbb R^{d_a}$ $\mathbf W_r\in \mathbb R^{d_a\times s}$ $r$ 的参数。
- $\hat{\mathbf{\vec u}}_{i,r}$ $v_i$ $r$ 上的 edge embedding 。
注意，这里在每种节点类型上都计算一个 self-attention，而并不是所有节点类型共享同一个 self-attention。
$v_i$ base embedding $\mathbf{\vec b}_i\in \mathbb R^d$ $v_i$ $\mathcal G_r$ embedding $\hat{\mathbf{\vec u}}_{i,r} = \mathbf U_i \mathbf{\vec a}_{i,r}$ $v_i$ $r$ 上的 overall embedding 为：
${\vec{v}}_{i, r} = {\vec{b}}_{i} + α_{r} M_{r}^{⊤} {\hat{\vec{u}}}_{i, r} = {\vec{b}}_{i} + α_{r} M_{r}^{⊤} U_{i} {\vec{a}}_{i, r}$
其中：
- $\mathbf M_r\in \mathbb R^{s\times d}$ 为一个线性映射的转化矩阵，用于将 edge embedding 映射到和 base embedding 的同一空间。
- $\alpha_r$ 为超参数，用于平衡 base embedding 和 edge embedding 的重要性。
  $\tilde{\mathbf M_r} = \alpha_r\times \mathbf M_r$ $\tilde{\mathbf M}_r$ $\alpha_r$ $\mathbf M_r$ $\alpha_r$ 似乎没有必要？
  另外，这里 embedding 训练的目标是什么？要保持什么属性？论文都未提及。根据论文的示意图，猜测是用异质 SoftMax 保持一阶邻近性。

26.1.2 GATNE vs MNE

这里我们讨论 GATNE-T 和 MNE 的关系。在 GATNE-T 中，我们使用 attention 机制来捕获不同边类型之间的影响因子。我们从理论上证明，GATNE-T 是 MNE 的更为泛化的形式，可以提高模型的表达能力。
MNE $v_i$ $r$ 的边上的 overall embedding 为：
${\tilde{\vec{v}}}_{i, r} = {\vec{b}}_{i} + α_{r} X_{r}^{⊤} {\vec{o}}_{i, r}$
$\mathbf X_r$ $r$ 的边采用的映射矩阵。
GATNE-T $v_i$ $r$ 上的 overall embedding 为：
${\vec{v}}_{i, r} = {\vec{b}}_{i} + α_{r} M_{r}^{⊤} U_{i} {\vec{a}}_{i, r} = {\vec{b}}_{i} + α_{r} M_{r}^{⊤} \sum_{p = 1}^{| R |} λ_{p} {\vec{u}}_{i, p}$
$\lambda_p$ $\mathbf{\vec a}_{i,r}$ $p$ 个元素，并且计算为：
$λ_{p} = \frac{\exp ({\vec{w}}_{r}^{⊤} \tanh (W_{r} {\vec{u}}_{i, p}))}{\sum_{t = 1}^{| R |} \exp ({\vec{w}}_{r}^{⊤} \tanh (W_{r} {\vec{u}}_{i, t}))}$
$r\in \mathcal R$ $\mathbf{\vec w}_r$ $\mathbf W_r$ $\mathbf{\vec o}_{i,1},\cdots,\mathbf{\vec o}_{i,|\mathcal R|}\in \mathbb R^s$ $\mathbf X_r\in \mathbb R^{s\times d}$ $\mathbf{\vec u}_{i,1},\cdots,\mathbf{\vec u}_{i,|\mathcal R|}\in \mathbb R^{s+|\mathcal R|}$ $\mathbf M_r\in \mathbb R^{(s+|\mathcal R|)\times d}$ $\mathbf{\vec v}_{i,r}\simeq \tilde{\mathbf{\vec v}}_{i,r}$ 。
证明见原始论文。
因此，GATNE-T 的模型空间几乎包含了 MNE 的模型空间。

26.1.3 GATNE-I

GATNE-T 的局限性在于它无法处理未观测数据。实际很多应用中，我们获得的数据只是部分观测的。这里我们将模型扩展到 inductive 环境中，并提出了 GATNE-I 。
- $v_i$ base embedding $\mathbf{\vec b}_i$ $\mathbf{\vec x}_i$ 的函数：
  ${\vec{b}}_{i} = h_{z} ({\vec{x}}_{i})$
  $h_z$ $z=\phi(i)$ $v_i$ 对应的类型。
  即，不同类型的节点采用不同类型的映射函数。
  $\mathbf{\vec x}_i$ $h_z$ 可能具有不同的形式，如多层感知机。
- $i$ $r$ edge embedding $\mathbf{\vec u}_{i,r}^{(0)}$ $\mathbf{\vec x}_i$ 的函数：
  ${\vec{u}}_{i, r}^{(0)} = g_{z, r} ({\vec{x}}_{i})$
  $g_{z,r}$ $v_i$ $r$ edge embedding $z$ $v_i$ 的节点类型。
- 进一步地，在 inductive 环境下，我们为最终的 overall embedding 添加了一个额外的属性项：
  ${\vec{v}}_{i, r} = h_{z} ({\vec{x}}_{i}) + α_{r} M_{r}^{⊤} U_{i} {\vec{a}}_{i, r} + β_{r} D_{z}^{⊤} {\vec{x}}_{i}$
  $\beta_r$ $\mathbf D_z$ $z$ 的属性映射矩阵。
GATNE-T 仅使用网络结构信息，而 GATNE-ISkipGram $v$ 的邻域的每种节点类型。
$\mathcal V=\mathcal V_1\cup \mathcal V_2\cup \mathcal V_3$ $K_1,K_2,K_3$ $v$ 的不同节点类型的邻域大小。
GATNE-T 和 GATNE-Ibase embedding $\mathbf{\vec b}_i$ edge embedding $\mathbf{\vec u}_{i,r}^{(0)}$ 的生成方式。
- 在 transductive 的 GATNE-Tbase embedding $\mathbf{\vec b}_i$ edge embedding $\mathbf{\vec u}_{i,r}^{(0)}$ 基于网络结构来直接训练，并且 GATNE-T 无法处理训练期间未曾见过的节点。
- 在 inductive 的 GATNE-Ibase embedding $\mathbf{\vec b}_i$ edge embedding $\mathbf{\vec u}_{i,r}^{(0)}$ $h_z(\cdot)$ $g_{z,r}(\cdot)$ $\mathbf{\vec x}_i$ base embedding $\mathbf{\vec b}_i$ edge embedding $\mathbf{\vec u}_{i,r}^{(0)}$ 。这可以适用于训练期间从未出现过的节点。。

26.1.4 模型学习

下面我们讨论如何学习 GATNE-T 和 GATNE-I 。我们使用随机游走来生成节点序列，然后使用 SkipGram 来学习节点 embedding 。由于输入网络的每个视图都是异质的，因此我们使用 metapath-based 随机游走。
$r$ $\mathcal G_r = (\mathcal V,\mathcal E_r,\mathcal A)$ metapath schema $\mathcal T:\mathcal V_1\rightarrow \mathcal V_2\rightarrow\cdots\rightarrow \mathcal V_t\rightarrow\cdots\rightarrow \mathcal V_l$ $l$ schema $t$ 步的转移概率为：
$\begin{matrix} p (v_{j} ∣ v_{i}, T) = {\begin{cases} \frac{1}{| N_{i, r} \cap V_{t} |}, & (v_{i}, v_{j}) \in E_{r}, v_{j} \in V_{t + 1} \\ 0, & (v_{i}, v_{j}) \in E_{r}, v_{j} \notin V_{t + 1} \\ 0, & (v_{i}, v_{j}) \notin E_{r} \end{cases} \end{matrix}$
$v_i\in \mathcal V_t$ $\mathcal N_{i,r}$ $v_i$ $r$ 上的邻域。
基于 metapath 的随机游走策略可以确保不同类型节点之间的语义关系能够适当地融合到 SkipGram 模型中。
$\mathcal G_r$ $l$ $\mathcal P=(v_{p_1},\cdots,v_{p_l})$ $(v_{p_{t-1}},v_{p_t})\in \mathcal E_r, t=2,\cdots,l$ $v_{p_t}$ $\mathcal C = \{v_{p_{k}}\mid v_{p_k}\in \mathcal P, |k-t|\le c,t\ne k\}$ $c$ 为窗口大小。
$v_i$ $\mathcal C$ ，我们的目标是最小化负的对数似然：
$- \log P_{θ} ({v_{j} ∣ v_{j} \in C} ∣ v_{i}) = \sum_{v_{j} \in C} - \log P_{θ} (v_{j} ∣ v_{i})$
$\theta$ 表示所有的参数。
和 metapath2vecheterogeneous softmax $v_j$ $v_i$ $v_j$ 的概率为：
$P_{θ} (v_{j} ∣ v_{i}) = \frac{\exp ({\vec{c}}_{j}^{⊤} {\vec{v}}_{i, r})}{\sum_{k \in V_{t}} \exp ({\vec{c}}_{k}^{⊤} {\vec{v}}_{i, r})}$
$v_j\in \mathcal V_t$ $\mathbf{\vec c}_k$ $v_k$ context embedding $\mathbf{\vec v}_{i,r}$ $v_i$ $r$ 上的overall embedding 向量。
$v_j$ $v_i$ $v_j$ 的类型可能不一致，它们的节点类型规则由 metapath 给出。
heterogeneous negative sampling $(v_i,v_j)$ $-\log P_\theta(v_j\mid v_i)$ ：
$L (v_{i}, v_{j}) = - \log σ ({\vec{c}}_{j}^{⊤} {\vec{v}}_{i, r}) - \sum_{l = 1}^{L} E_{v_{k} \sim P_{t} (v)} [\log σ (- {\vec{c}}_{k}^{⊤} {\vec{v}}_{i, r})]$
$\sigma(x)$ sigmoid $L$ $v_k$ $P_t(v)$ $P_t(v)$ $v_j$ $\mathcal V_t$ 来定义的噪音分布 noise distribution 。
GATNE 算法：
- 输入：
  - $\mathcal G=(\mathcal V,\mathcal E,\mathcal A)$
- overall embedding $d$
  - edge embedding $s$
  - $\eta$
  - 一组 metapath schema
  - $L$
  - $l$
  - $c$
  - $\alpha,\beta$
  - $K$
- $v_i$ $r$ overall embedding $\mathbf{\vec v}_{i,r}$
- 算法步骤：
  - $\theta$ 。
  - $r$ metapath schema $\mathcal P_r$ 。
  - $r$ $\mathcal P_r$ $\{(v_i,v_j,r)\}$ 。
  - 迭代直到收敛。迭代步骤为：
    - pair $(v_i,v_j,r)$ ）：
      - $\mathbf{\vec v}_{i,r} = \mathbf{\vec b}_i+\alpha_r\mathbf M_r^\top \mathbf U_i \mathbf{\vec a}_{i,r}$ GATNE-T $\mathbf{\vec v}_{i,r} = h_z(\mathbf{\vec x}_i) + \alpha_r\mathbf M_r^\top\mathbf U_i\mathbf{\vec a}_{i,r} + \beta_r \mathbf D_z^\top \mathbf{\vec x}_i$ GATNE-I $\mathbf{\vec v}_{i,r}$ 。
      - $L$ $\mathcal L(v_i,v_j) = -\log\sigma\left(\mathbf{\vec c}_j^\top \mathbf{\vec v}_{i,r}\right) - \sum_{l=1}^L \mathbb E_{v_k\sim P_t(v)}\left[\log \sigma\left(-\mathbf{\vec c}_k^\top \mathbf{\vec v}_{i,r}\right)\right]$ 计算损失函数。
      - $\theta \leftarrow \theta-\eta\nabla_{\theta}\mathcal L$ 。
GATNE $O(n\times |\mathcal R|\times dL)$ $n$ $|\mathcal R|$ $d$ overall embedding $L$ 为负采样系数。
$O(n\times (d + |\mathcal R|\times s))$ $s$ 为 edge embedding 维度。

26.2 实验

这里我们首先介绍四个评估数据集和 baseline 算法的细节。我们聚焦于链接预测任务，从而对比我们的方法与其它 state-of-the-art 方法。然后我们讨论参数敏感性、收敛性、可扩展性。最后我们在阿里巴巴推荐系统上报告了我们方法的离线 A/B test 结果。
数据集：
- Amazon Product Dataset：它是来自 Amazon 的商品评论和商品 metadata 的数据集。在我们的实验中，我们仅使用商品 metadata，包含商品属性以及商品之间的共同浏览 co-viewing, 共同购买co-purchasing 关系。商品属性包括：价格、销售排名、品牌、类目。
  $\mathcal O=\{\text{product}\}$ $\mathcal R = \{\text{also_bought},\text{also_viewed}\}$ ，这表示两个商品分别由同一个用户共同购买或者共同浏览。数据集中的商品被划分为很多类目 category。如果考虑所有商品则规模庞大，因此我们选择“电子”类目的商品进行试验。但是对很多 baseline 算法来讲，电子类目的商品数量仍然过于庞大，因此我们从整个图中提取了一个连通子图 connected subgraph 。
- YouTube Dataset：由 15088 个用户的各种互动行为组成的多重网络。一共包含 5 种互动类型，包括：联系 contact ，共享好友shared friends，共享的订阅 shared subscription, 共享的订阅者shared subscribershared favorite vieoes $|\mathcal O| = 1$ $|\mathcal R| = 5$ 。
- Twitter Dataset：包含 2012-07-01 到 2012-07-07 之间与希格斯玻色子Higgs boson 的发现相关的推文。它由 450000 名Twitter 用户之间的四种关系组成，包括：转发re-tweet，回复 reply，提及mentionfriendship/follower $|\mathcal O| = 1$ $|\mathcal R| = 4$ 。
- Alibaba Dataset：包含 user 和 item 两种类型的节点，并且 user-item 之间存在四种交互类型。交互包括：点击click 、添加到收藏add-to-preference 、加到购物车add-to-cartconversion $\mathcal O = \{\text{user},\text{item}\}$ $|\mathcal R |= 4$ 。
  整个数据集太大无法在单台机器上评估不同方法的性能，因此我们在采样后的数据集上评估模型性能。采样的阿里巴巴数据集称作 Alibaba-S 。另外，我们也在阿里巴巴分布式云平台上对完全的数据集进行评估，完整的数据集称作 Alibaba 。
下表给出了这些数据集的统计信息，其中 n-types 和 e-types 分别表示顶点类型和边类型的数量。
另外，由于单台机器的限制，我们用到的公共数据集是从原始公共数据集中采样的子图。下表给出了原始公共数据集的统计信息。
baseline：我们对比了以下几组baseline：
- Network Embedding Method：包括 DeepWalk,LINE,noe2vec 。由于这些方法只能处理同质图，因此我们向它们提供具有不同类型边的独立视图，并为每个视图获取node embedding 。
- Heterogeneous Network Embedding Method：使用 metapath2vec。当网络只有一种类型的节点时，它退化为 DeepWalk 。
- Multiplex Heterogeneous Network Embedding Method：比较的方法包括 PMNE,MVE,MNE。
  我们将 PMNE 的三种方法分别表示为 PMNE(n),PMNE(r),PMNE(c)。MVE 使用 collaborated context embedding 并将注意力机制应用于 view-specific embedding 。MNE 对每种边类型使用一个 comment embedding 和一个 additional embedding，这些 embedding 由统一的 network embedding 共同学习。
- Attributed Network Embedding Method：我们使用 ANRL。ANRL 使用邻域增强自编码器对节点属性信息进行建模，并使用基于属性编码器的属性感知 SkipGram 模型来捕获网络结构。
- Attributed Multiplex Heterogeneous Network Embedding Method：使用我们提出的 GATNE 。
另外，由于阿里巴巴数据集超过 4000 万顶点、5 亿条边，规模太大。考虑其它baseline 的 scalability，我们仅在该数据集上比较 GATNE, DeepWalk, MVE, MNE 等模型。
对于一些没有节点属性的数据集，我们为它们生成节点特征。
运行环境：我们的运行环境分为两个部分：
- 一个是单台 Linux 服务器，其配置为 4 Xeon Platinum 8163 CPU @2.50GHz， 512G Ram，8 NVIDIA Tesla V100-SXM2-16GB 。该服务器用于训练四个较小的数据集。
- 另一个是分布式云平台，包含数千个 worker，每两个 worker 共享一个 NVIDIA Tesla P100 GPU(16GB 显存) 。该平台用于训练最大的完整的阿里巴巴数据集。
单机版可以分为三个部分：随机游走、模型训练和模型评估。随机游走部分参考 DeepWalk 和 metapath2vec 的相应部分来实现。模型训练部分参考 tensorflow 的 word2vec 教程来实现。模型评估部分使用了 scikit-learn 中的一些标准评估函数。模型参数通过使用 Adam 的随机梯度下降进行更新和优化。
分布式版根据阿里巴巴分布式云平台的编程规范来实现，以最大化分布式效率。
参数配置：
- base/overall embedding $d=200$ edge embedding $s=10$ 。
- 每个节点开始的随机游走序列数量为 10，随机游走序列长度为 10，上下文窗口大小为 5，负采样系数为 5 ，用于训练 SkipGram 模型的迭代数量为 100 。
- 对于阿里巴巴数据集，metapath schema 设置为 U-I-U 和 I-U-I。其中 U 表示用户顶点，I 表示item 顶点。（metapath2vec 和 GATNE 都采用这种schema ）
- DeepWalk：对于小数据集（公开数据集和 Alibaba-S 数据集），我们使用原作者的 Github 代码。对于阿里巴巴数据集，我们在阿里云平台上重新实现了 DeepWalk 。
- LINE：我们使用原作者的 Github 代码。我们使用 LINE(1st+2nd) 作为 overall embedding。一阶embedding 和二阶 embedding 大小均为 100。样本量设为 10 亿。
- node2vecGithub $p=2, q=0.5$ 。
- metapath2vec：作者提供的代码仅适用于特定的数据集，无法推广到其它数据集。我们基于原始 C++ 代码，用 python 重新开发从而为任意顶点类型的网络重新实现了 metapath2vec。
  对于三个公共数据集，由于节点类型只有一种，因此 metapath2vec 退化为 DeepWalk。对于阿里巴巴数据集， metapath schema 设置为 U-I-U 和 I-U-I 。
- PMNE：我们使用原作者的 Github 代码，其中 PMNE(c) 的层级转移概率为 0.5 。
- MVE：我们通过 email 从原作者取到代码。每个视图的 embedding 维度为 200，每个 epoch 训练样本为 1 亿，一共训练 10 个 epoch 。
  对于阿里巴巴数据集，我们在阿里云平台上重新实现了该方法。
- MNE：我们使用原作者的 Github 代码。对于阿里巴巴数据集，我们在阿里云平台上重新实现了该方法。
  我们将 additional embedding 维度设为 10 。
- ANRL：我们适用来自阿里巴巴的 Github 代码。
  由于 YouTube 和 Twitter 数据集没有节点属性，因此我们为它们生成节点属性。具体而言，我们将顶点经过DeepWalk 学到的 200 维embedding 视为节点属性。
  对于 Alibba-S 和 Amazon 数据集，我们使用原始特征作为属性。
- GATNE：
  - 最大的 epoch 设为 50。如果 ROC-AUC 指标在验证集上有 1 个训练 epoch 未能改善，则我们执行早停。
  - $r$ $\alpha_r,\beta_r$ 都被设为 1 。
  - 我们使用 tensorflow 的Adam 优化器，并使用默认配置，学习率设为 0.001 。
  - A/B test $N=50$ （用于计算 top N 命中率）。
  - GATNE 可以采用不同的聚合函数，如均值聚合或池化聚合都达到了相似的性能。最终我们在这里使用了均值聚合。
  - GATNE-I $h_z$ $g_{z,r}$ 均为线性函数。
我们通过链接预测任务来比较不同模型的效果。对于每个原始图，我们分别创建了一个验证集和测试集。
- 验证集包含 5% 随机选择的 postive 边、5% 随机选择的 negative 边，它用于超参数选择和早停。
- 测试集包含 10% 随机选择的 postive 边、10% 随机选择的 negative 边，它用于评估模型，并且仅在调优好的超参数下运行一次。我们使用 ROC 曲线（ROC-AUC）、 PR 曲线（ PR-AUC）以及 F1 指标来评估。所有这些指标都在所选择的边类型之间取均值。
我们将剔除这些 postive 边剩下的图作为训练集来训练 embedding 以及分类器。下图给出了三个公共数据集和 Alibba-S 的试验结果。
可以看到：
- GATNE 在所有数据集上优于各种 baseline 。
- 由于节点属性比较少，所以 GATNE-T 在 Amazon 数据集上性能优于 GATNE-I。而阿里巴巴数据集的节点属性丰富，所以 GATNE-I 的性能最优。
- ANRL 对于节点属性比较敏感，由于 Amazon 数据集的节点属性太少，因此其效果相对其它baseline 最差。
  另外，阿里巴巴数据集中 User 和 Item 的节点属性位于不同的空间，因此 ANRL 在 Alibaba-S 数据集上效果也很差。
- 在 Youtube 和 Twitter 数据集上，GATNE-I 性能类似于 GATNE-T，因为这两个数据集的节点属性是 Deepwalk 得到的顶点 embedding，它是通过网络结构来生成的。
进一步地，我们给出阿里巴巴数据集的实验结果。
- GATNE 可以很好地扩展到阿里巴巴数据集上，并实现最佳效果。与之前的 state-of-the-art 算法相比，PR-AUC 提高 2.18%、ROC-AUC 提高 5.78%、F1 得分提高 5.99%。
- 在大规模数据集中，GATNE-I 的性能超越了 GATNE-T，这表明 inductive 方法在 AMHEN 中效果更好。
收敛性分析：我们在阿里巴巴数据集上分析了GATNE 的收敛性，如下图所示。可以看到：在大规模真实数据集上，GATNE-I 的收敛速度更快、性能更好。
可扩展性分析：我们研究了 GATNE 的scalability 。如下图所示，我们给出了阿里巴巴数据集中，不同 worker 数量的加速比。可以看到：GATNE 在分布式平台上具有很好的可扩展性，当增加 worker 数量时训练时间显著降低。
overall embedding $d$ edge embedding $s$ $d=200,s=10$ $d$ $s$ 时 GATNE 的性能。可以看到：GATNE 的性能在较大范围的 d 或 s 时相对稳定，当 d 或 s 太大或太小时性能会有降低。
我们在阿里云分布式平台上为我们的推荐系统部署了 GATNE-I。训练数据集包含 1 亿用户和 1000 万 item，每天有 100 亿次交互。我们用该模型为用户和商品生成 embedding 向量。对于每个用户，我们使用 kNN 和欧式距离来计算用户最有可能点击的 top N item 。我们的目标是最大化 top N 的命中率。
推荐的 topN 列表中包含用户点击的商品，则认为是命中。命中的推荐列表占所有推荐列表的比例，则为命中率。
在 A/B test 框架下，我们对 GATNE-I, MNE, DeepWalk 进行离线测试。结果表明：与 GATNE-I 的命中率比 MNE 提高 3.25%、比 DeepWalk 提高 24.26% 。
这一对比没有多大实际意义，因为阿里巴巴在线推荐框架不太可能是 MNE 或者 DeepWalk 这种简单的模型。
目前已有的一些公共数据集，并没有公开的训练集、验证集、测试集拆分方式。这导致在同一个数据集上进行随机拆分，最终评估的结果会不同。因此，我们无法使用先前论文中的结果。研究人员必须重新实现并运行所有的 baseline 模型，从而减少了他们对于改进自己提出的模型的关注。
这里我们呼吁所有的研究人员提供标准化的数据集，其中包含标准化的训练集、验证集、测试集拆分。研究人员可以在标准环境下评估他们的方法，并直接比较各论文的结果。这也有助于提高研究的可重复性 reproducibility 。
除了网络的异质性之外，网络的动态性对于网络表示学习也至关重要。捕获网络动态信息的方法有三种：
- 可以将动态信息添加到节点属性中。如我们可以用 LSTM 之类的方法来捕获用户的动态行为。
- 动态信息（如每次交互的时间戳）可以视为边的属性。
- 可以考虑代表网络动态演化的几个快照。
我们将动态属性的多重异质网络的representation learning 作为未来的工作。

二十七、MNE[2018]

network embedding （也称作 graph embedding ）使用稠密向量来表达节点，并且已被很好地研究了多年。最近，受循环神经网络 RNN 的启发，人们基于图上的随机游走和随机梯度下降优化从而对 network embedding 进行了重新研究和开发，并可以应用于非常大的图。节点的 embedding 向量可用于编码网络的一些拓扑结构，然后可以作为下游模型的特征。network embedding 已被证明有助于网络分析任务，包括链接预测、节点分类、社区检测。
有些网络呈现多重性multiplexity 的特点，尤其是对于社交网络。在社交网络分析中，多重性是指两个人之间的多方面关系。如果我们把这个思想推广到各种网络，多重网络 multiplex network 是指网络中包含多种类型的关系，其中每一种关系都可以构成网络的一个子网（也称作一层 layer 或子图）。以社交网络为例。在 Facebook 等社交网络中，用户之间存在不同类型的交互，如好友关系、转发文章关系、聊天关系、转账关系。每种关系都将在所有用户之间创建一个子网。如果我们将所有关系视为一个统一的整体，那么我们将得到一个巨大的多重网络。虽然网络的每个子网仅能代表用户之间的一种交互，但是为了更好地理解多重网络整体，最好把来自这些子网的不同类型的信息集成在一起，而不牺牲各种类型信息的特有属性。
考虑到网络可能很大的事实，在论文《Scalable Multiplex Network Embedding》中，作者提出了一种可扩展的多重网络embedding 模型，从而有效地将多类型关系multi-type relation 的信息存储和学习到统一的 embedding 空间中。
- 对于每个节点，论文提出一个高维的 common embedding 向量，该向量在多重网络的所有子网中共享。论文通过 common embedding 向量在网络的不同子网之间建立桥梁。
- 对于每个节点，为了在不同子网上以较低内存需求的方式学习各子网的独有属性，论文还为每种类型的关系提出了一个低维的 additional embedding 。
论文的贡献仅仅是这一个点，总体而言没有什么大的创新点，不够深入，一篇“水文”。
为了将这些不同维度（有高维的、有低维的）的 embedding 对齐，论文为网络的每个子网引入了一个全局变换矩阵global transformation matrix 。遵从 DeepWalk，论文使用随机梯度下降来优化所提出的模型。由于全局变换矩阵的更新次数要比节点向量的更新次数多得多，因此论文添加了一个额外的正则化项来约束全局变换矩阵的范数。
总而言之，本文贡献如下：
- 论文正式定义了多重网络 embedding 问题，以及处理网络的多重属性 multiplexity property 。
- 论文提出了一种可扩展的多重网络 embedding 模型，该模型将来自多类型关系multi-type relation 的信息表达到统一的 embedding 空间中。
- 论文在链接预测、节点分类这两个网络分析任务上评估了所提出的 embedding 算法。和当前的 state-of-the-art 模型相比，所提出的模型实现了更好或相当的性能，并且内存占用更少。
相关工作：
- 多重网络分析：传统上，在社会科学中，多重性multiplexity 被用于描述用户之间社交关系的多个方面。多重性的思想可以推广到各种网络。在数据挖掘社区中，人们有时也使用 “多关系网络” multi-relational network 这个术语来表达社交网络中的多类型关系multi-type relation ，并验证在社交网络中考虑多类型关系可以帮助进行社区挖掘或链接预测等数据挖掘任务。此外，在生物信息学社区中，人们已经表明通过集成多个网络，可以改善 node representation 从而帮助基因功能分析。
  如今，多重网络上的图挖掘方法主要针对特定任务。对于链接预测，可以将传统方法应用于多重网络，而无需考虑边的类型信息。对于社区检测，《A degree centrality in multi-layered social network》 提出了跨子网的中心度centrality 度量从而捕获多重网络中节点的中心度。除此之外，人们还提出了多子网局部聚类系数 multilayered local clustering coefficient: MLCC 和跨子网聚类系数 cross-layer clustering coefficient: CLCC 来描述多重网络中节点的聚类系数。
  在本文中，我们从 network embedding 的角度提出了多重网络分析的通用解决方案。
- network embedding：network embedding（也称作graph embedding）已被很好地研究了很多年。network embedding 也与流形学习manifold learning 有关，而流形学习通常应用于高维数据的降维。network embedding 侧重于为真实网络生成节点的向量representation ，从而促进对网络的进一步分析。传统的 network embedding 方法通常涉及耗时的计算，例如用于分析图的谱属性 spectral property 的特征值分解 eigenvalue decomposition 。然而，由于真实世界的网络规模可能很大，这类方法算法复杂度太高从而不可行。
  最近，受到循环神经网络 RNN 发展的启发，尤其是高效的 word embedding 方法，人们已经提出了许多 network embedding 方法来处理大型社交网络。例如，DeepWalk 提出在网络上执行随机游走从而生成节点序列，然后对这些序列执行 SkipGram 算法从而生成节点 embedding。在 DeepWalk 之上，Node2Vec 增加了两个超参数来控制随机游走过程从而实现有偏biased 的随机游走。其它的一些 embedding 模型专注于网络中特定类型的结构。例如，LINE 尝试使用 embedding 来逼近网络的一阶邻近性和二阶邻近性。
  上述所有模型都已被证明对单一网络single network 的分析有用，但它们都没有考虑多重性。最近，《Principled multilayer network embedding》 提出了三种方法来从多重网络中学习一个整体 embedding 。与该方法不同，我们提出一个高维的 common embedding、以及每种类型的关系一个低维的 additional embedding 。最近的一项工作 《Multi-layered network embedding》 本质上是一个异质的信息网络，因为在该论文中，不同的子网有不同类型的节点。

27.1 模型

multiplex network $\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V=\{v_1,v_2,\cdots,v_n\}$ $M$ $\mathcal E_1,\mathcal E_2,\cdots,\mathcal E_M$ $\mathcal E_m\sub \mathcal E,\quad \bigcup_{m=1}^M \mathcal E_m = \mathcal E$ $m$ $\mathcal G_m(\mathcal V,\mathcal E_m)$ 。
$v_i\in \mathcal V$ common embedding $\mathbf{\vec b}_i\in \mathbb R^d$ ，它在所有关系类型之间共享。我们使用 common embedding 向量作为跨不同关系类型传输信息的桥梁。
$\mathcal G_m$ additional embedding $\mathbf{\vec u}_i^{(m)} \in \mathbb R^s$ $s\ll d\ll n$ 。
为了将 additional embeddingcommon embedding $\mathbf X^{(m)}\in \mathbb R^{s\times d}$ $v_i$ $\mathcal G_m$ 下的 embedding 向量为：
${\vec{v}}_{i}^{(m)} = {\vec{b}}_{i} + w^{(m)} \times X^{(m)^{⊤}} {\vec{u}}_{i}^{(m)}$
$w^{(m)}$ $m$ 的全局重要性。
$\mathcal V$ $w^{(m)}$ 也可以通过模型从数据中学到。
$\mathcal G$ $m$ $\mathcal G_m$ 进行随机游走从而生成节点序列，然后对这些节点序列执行 SkipGram 算法学习 node embedding 。
$\mathcal G_m$ $v_i$ $c$ $\mathcal N^{(m)}_{v_i}$ ，则SkipGram 的目标函数为：
$- \log P^{(m)} (N_{v_{i}}^{(m)} ∣ v_{i}) = - \log \prod_{v_{j} \in N_{v_{i}}^{(m)}} \log p^{(m)} (v_{j} ∣ v_{i})$
$p^{(m)}(\cdot\mid \cdot)$ 为：
$p^{(m)} (v_{j} ∣ v_{i}) = \frac{\exp ({\vec{c}}_{j} \cdot {\vec{v}}_{i}^{(m)})}{\sum_{j^{'} \in G} \exp ({\vec{c}}_{j^{'}} \cdot {\vec{v}}_{i}^{(m)})}$
其中：
- $\mathbf{\vec v}_i^{(m)}$ $v_i$ $\mathcal G_m$ 下的 embedding 。
- $\mathbf{\vec c}_j\in \mathbb R^d$ $v_j$ 的 context embedding，它在所有子网中共享。
  common embedding $\mathbf{\vec b}_i$ context embedding $\mathbf{\vec c}_j$ 也是跨不同关系类型传输信息的桥梁，因为它们都是跨子网共享的。
  此外，假设两个节点在不同子网中共享相同的邻域节点，那么这两个节点之间是相似的，即使它们位于不同的子网。这确保了相似性的跨子网的一致性。
为加速训练，我们采用负采样技术：
$L = - \log σ ({\vec{c}}_{j} \cdot {\vec{v}}_{i}^{(m)}) - \sum_{k = 1}^{K} E_{j^{'} \sim Q_{n}^{(m)} (v)} \log σ (- {\vec{c}}_{j^{'}} \cdot {\vec{v}}_{i}^{(m)})$
$K$ $Q_n^{(m)}(v)$ $\mathcal G_m$ $\sigma(\cdot)$ 为 logistic 函数。
SGD $\mathbf{\vec b}_i,\mathbf{\vec u}_i^{(m)}$ $\mathbf X^{(m)}$ $\mathbf{\vec c}_j$ 。
$\mathcal G_m$ $\mathbf X^{(m)}$ $\mathbf X^{(m)}$ $\mathbf X^{(m)}$ $\left\|\mathbf X^{(m)} \right\| \le r$ $r$ 为超参数。
MNE 算法：
- 输入：
  - $\mathcal G=(\mathcal V,\mathcal E)$ $M$ $\mathcal E_1,\mathcal E_2,\cdots,\mathcal E_M$
  - common embedding $d$
  - additional embedding $s$
  - $\eta$
  - $l$
  - $n_{walk}$
  - $c$
  - $K$
  - $r$
  - $\left\{w^{(m)}\right\}_{m=1}^M$
- $v_i$ $\mathcal G_m$ embedding $\left\{\mathbf{\vec v}_i^{(m)} \right\}_{i=1,\cdots,n}^{m=1,\cdots,M}$
- 算法步骤：
  - $\mathbf{\vec b}_i,\mathbf{\vec u}_i^{(m)},\mathbf X^{(m)}$ $\mathbf{\vec c}_j$ 。
  - $\mathcal G_m$ 进行迭代：
    $\left\{\text{Path}_1^{(m)},\text{Path}_2^{(m)},\cdots,\right\}$ $\text{Path}^{(m)}$ ：
    $v_i\in \text{Path}^{(m)}$ ：
    - $v_i$ $v_j$ ：
      - $K$ 个负样本。
      - $\mathbf{\vec v}_i^{(m)} = \mathbf{\vec b}_i + w^{(m)}\times \mathbf X^{(m)^\top} \mathbf{\vec u}_i^{(m)}$ 。
      - $v_j$ $K$ $\mathbf{\vec b}_i, \{\mathbf{\vec c}_k\}_{k=1}^K, \mathbf{\vec u}_i^{(m)},\mathbf X^{(m)}$ 。
      - $\left\|\mathbf X^{(m)}\right\|\gt r$ ，则进行截断：
        $X^{(m)} \leftarrow \frac{r}{‖ X^{(m)} ‖} X^{(m)}$
  - $v_i$ $\mathcal G_m$ embedding $\left\{\mathbf{\vec v}_i^{(m)} \right\}_{i=1,\cdots,n}^{m=1,\cdots,M}$ 。
$M$ $n$ $O(M\times n)$ $O((d+s\times M)\times n)$ 。

27.2 实验

数据集：
我们选择了Manlio De Domenico 项目公开的四个多重网络，选择标准是：节点数量不能太少，且边不能太稀疏。这意味着每种关系类型的每个节点至少具有一条边。
- Vickers：对澳大利亚维多利亚州一所学校初一年级29 名学生问卷调查得到的数据。问卷调查分三个问题，每个问题创建了网络中的一种关系。
- CKM：由伊利诺伊州、布卢明顿市、昆西市、加勒斯堡市四个镇的医师收集的数据。医师们提出了三个问题，每个问题都创建了网络中的一种关系。
- LAZEGA：多重社交网络，包含企业中的三种关系（工友co-work 、好友、咨询 advice ）。
- C.ELEGANS：神经元多重网络，神经元不同的突触连接创建了网络中的不同关系。连接类型包括： ElectrJ、MonoSyn、PolySyn 。
另外，由于上述多重网络的规模相对较小，为了测试我们模型的可扩展性和效果，我们还选择了两个真实的大型社交网络。
- Twitter：包含一周内关于“希格斯玻色子发现”的所有推文。我们选择最大的两种关系（跟帖following 和转发 retweet ）来构建多重网络。
- Private：一个在线社交网络。在该网络中，用户可以建立好友关系并将自己的文章发送给好友。我们随机选择 40000 名用户，这些用户都有毕业大学的信息，然后我们记录了这些用户一个月内所有文章的转发活动。
  我们在文章内容上应用了主题模型topic model，然后将文章根据主题来分类。最终我们得到了 16 个主题，每个主题都创建了多重关系网络中的一种关系。如果再加上好友关系，则一共有 17 种关系。
baseline 方法：
- DeepWalk：通过随机游走策略构建节点序列，然后在节点序列上应用 SkipGram 算法来生成 node embedding 。
- LINE：保持图的一阶邻近度和二阶邻近度从而得到 node embedding 。
- Node2vec：基于有偏的随机游走得到节点序列，然后在节点序列上应用 SkipGram 算法来生成 node embedding 。
- PMNE：提出三种不同的模型将多重网络聚合，并为每个节点点生成一个 overall embedding。这三种模型分别为 PMNE(n)、PMNE(r)、PMNE(c) 。
除了 embedding based 之外，我们还比较了 structure based 方法，包括：
- Common neighbor:CN：每对节点pair 对，它们的公共邻居节点越多，则存在链接的可能性越大。
- Jaccard Coefficient:JC：每对节点pair 对，使用它们的邻居总数对公共邻居数量进行归一化。
- Adamic/Adar:AA：类似于 JC，但是 AA 给那些邻居更少的节点更大的权重。
评估指标：
- 对于链接预测任务，我们使用 ROC-AUC 作为评估指标。
- embedding $L_2$ 正则化的逻辑回归分类器训练并分类，并评估分类的准确率 accuracy 。
参数配置：
- 所有 embedding 方法的 embedding 维度为 200 。
  由于 LINE 有一阶embedding 和二阶 embedding，因此它们的维度都是 100，最终拼接后的维度是 200 。
- 对于所有基于随机游走的方法，我们将上下文窗口设为 10，负采样比例为 5 。
- node2vec $p=2,q=0.5$ 。
- 对于 PMNE 模型，我们使用原始论文给出的超参数。
- 对于 MNEadditional embedding $s=10$ 。
链接预测任务：对每对节点我们计算其 embedding 的余弦相似度，相似度越大则它们之间越可能存在链接。
- 对于简单网络模型（如 DeepWalk,LINE,Node2Vec），我们将为每个子网训练一个单独的 embedding，并使用该 embedding 来预估对应关系上的链接。这意味着这些embedding 没有来自网络其它类型的信息。
- 对于多重网络模型，我们得到的 node embedding 可以融合网络其它类型的信息。
我们在网络的每个子网上计算 AUC，并取所有子网的 AUC 均值作为最终结果。我们使用五折交叉验证，并报告了结果的均值和标准差。
注意：Twitter 和 Private 数据集中，following 关系和 friendship 关系是其它关系类型的基础。如，我们只能将文章发送给好友。因此在选择子网负边时，我们需要确保选择的是满足基础关系（如 following/friendship 关系）的负边。并且我们不会评估基础网络（即 following/friendship 网络）。
结论：
- 对于几乎所有网络，联合考虑网络的不同关系类型都是有帮助的。这与我们假设一致，即来自任何单个子网的信息不足，并且不同子网的信息可以互补。
- baseline 方法的性能因为不同网络拓扑结构差异很大。如 LAZEGA 或 C.ELEGANS 这样的稠密网络，传统简单方法的性能就足够好，有时甚至比 embedding 方法还要好。但是当网络相对稀疏时，embedding based 方法更好。
- 我们的方法和 PMNE 区别在于：PMNE 为一个节点生成一个 overall embedding，而我们的方法生成一组 embedding 用于捕获每种关系类型的不同信息。实验结果表明，这些信息可能非常重要。
总而言之，我们的方法稳定地超越了其它所有 baseline，或达到 baseline 相当的性能。我们的理解是：模型的 common embedding 会合并来自不同关系类型的信息，而additional embedding 会保留每种关系类型特有的信息。
additional embedding $s$ addtional embedding $\left\{w^{(m)}\right\}_{m=1}^M$ $r$ 。为清楚地了解这些超参数的影响，我们使用不同的配置重复进行连接预测实验。对于四个小数据集，我们取其评估结果的均值来查看变化的趋势。
- (a) $s$ $w^{(m)}=1, r= 1000$ $s=10$ 时模型性能最高。这证明在 common embedding 的帮助下，我们可以使用非常低的维度（约为 common embedding 维度的十分之一）来表达多重网络的每种关系类型。
- (b) $w^{(m)}$ $s=10,r=1000$ ）。但是达到 1.0 之后性能略有下降。
- (c) $r$ $s=10, w^{(m)}=1$ $r\gt 10$ 时模型性能将趋于稳定。
节点分类：我们进行节点分类任务来评估embedding 质量。CKM 社交网络是唯一提供分类标签的多重网络，因此我们将其作为实验数据集，label 为 researcher 的原始公司。考虑数据集的大小，我们使用两折交叉验证。
对于 DeepWalk/LINE/Node2Vec，由于它们是为简单网络设计的，因此我们为每个子图单独训练一个 embedding，然后取所有子图的embeddingembedding $w^{(m)}$ 设置为 1.0 ，然后所有子图 embedding 取平均作为最终 embedding 。
如下图所示，我们的方法在所有 embedding 方法中性能最好。可以看到即使是最简单的embedding 取平均，我们的模型也可以得到高质量的 overall embedding 。
数据集太小太简单，结论没有多大的说服力。
可扩展性：最后我们研究模型的可扩展性。由于现实世界的社交网络可能非常庞大，因此如果我们学习所有子图的 embedding，这些模型的训练和存储可能是一个巨大挑战。因此，我们提出了小维度的 addtional embedding 和变换矩阵的结构，试图在不牺牲整体性能的条件下减小整体模型的大小。
如下所示，我们的方法使用的内存几乎和网络大小成线性关系。
- 与 Node2Vec 和 LINEDeepWalk/Line $O(d\times M\times n)$ $O((d+s\times M)\times n)$ $s\ll d$ ，因此我们模型的空间复杂度要小得多。
- 对于 PMNE，由于它们将多重网络合并到单个网络中，因此它们的模型最小。但是它们的模型也丢失了各种类型关系特有的信息，这些信息在之前的实验中被证明很重要。

二十八、MVN2VEC[2018]

在实际 application 中，对象可以通过不同类型的关系来连接。这些对象及其关系可以自然地由多视图网络 multi-view network 来表达，即多重网络multiplex network 或 multi-view graph。下图给出了一个示例性的多视图网络，其中每个视图对应于一种类型的边，并且所有视图共享同一组节点。作为一个更具体的例子，关于用户节点的四视图网络可用于描述社交网络服务，其中包括好友friendship、关注 following、互发信息message exchange、帖子查看 post viewing 等关系。随着多视图网络的广泛应用，挖掘多视图网络是有意义的。
与此同时，network embedding 已成为一种用于网络数据的、可扩展的representation learning 方法。具体而言，network embedding 将网络的节点投影到 embedding 空间中。通过编码每个节点的语义信息，学到的 embedding 可以直接作为各种下游应用的特征。受到 network embedding 在同质网络中的成功的激励，论文 《MVN2VEC: Preservation and Collaboration in Multi-View Network Embedding》 认为更好地理解多视图网络embedding 很重要。
要设计多视图网络的 embedding 方法，主要挑战在于如何使用来自不同视图的边的类型信息。因此，我们的兴趣集中在以下两个问题：
- 当有多种类型的边可用时，对于多视图网络 embedding 而言，特定specific 的、重要important 的目标是什么？
  即，多视图网络 embedding 要优化的是什么目标？
- 我们可以通过联合建模这些目标来实现更好的 embedding 质量吗？
为了回答第一个问题，我们从嵌入真实世界多视图网络的实践中确定了两个这样的目标：保持preservation 和协同 collaboration 。
- collaboration：在某些数据集中，由于共享的潜在原因，可能观察到同一对节点pair 对之间在不同视图中都存在边。例如，在社交网络中，如果我们在 message exchange 或 post viewing 视图中观察到用户 pair 对之间存在边，那么这两个用户很可能乐意彼此成为好友。在这种情况下，这些视图可能会互补，并且联合嵌入它们可能会比单独嵌入它们产生更好的结果。在联合嵌入多视图过程中，我们将这种协同效应synergetic effect 称作 collaboration 。collaboration 也是大多数现有多视图网络算法背后的主要直觉。
- preservation：另一方面，不同的网络视图可能具有不同的语义。也可能一部分节点在不同视图中具有完全不一致的边，因为不同视图中的边是由不相关的潜在原因unrelated latent reason 而形成的。
  例如，职场关系professional relationship 可能并不总是与好友关系 friendship 保持一致。如果我们将图 (b) 中的职场关系视图和友谊关系视图嵌入到同一个 embedding 空间中，那么 Gary 的 embedding 将靠近 Tilde 和 Elton 。因此，由于传递性，Tilde 的 embedding 也不会离 Elton 太远。然而，这并不是一个理想的结果，因为根据原始的多视图网络，Tilde 和 Elton 在职场关系或好友关系方面都没有密切关联。换句话讲，以这种方式的 embedding 无法保持不同网络视图所携带的、独有 unique 的信息。我们将保持不同视图所携带的 unique 信息的这种需求need 称作保持 preservation 。在论文中，我们将详细讨论 preservation 和 collaboration 的有效性和重要性。
此外，preservation 和 collaboration 的需求可能在同一个多视图网络中共存。有两种场景会导致这种情况：
- 一对视图是由非常相似的潜在原因产生的，而另一对视图是由完全不同的潜在原因产生的。。
- 在同一对视图中，一部分节点在不同视图中具有一致的边，而另一部分节点在不同视图中具有完全不一致的边。例如，在某些国家，职场关系和好友关系并不一致；而在另一些国家，同事之间经常成为好友。
因此，我们也有兴趣通过同时建模 preservation 和 collaboration 来探索实现更好 embedding 质量的可行性。我们将在论文中详细介绍这一点。
我们注意到，与其提出一个超越很多 baseline 方法的、复杂的模型，不如将重点放在多视图网络 embedding 的 collaboration 和 preservation 目标上。在实验中，我们在不同场景中比较了侧重于不同目标的方法。出于同样的原因，本文排除了可以使用监督信息的场景，而从无监督场景学到的经验教训也可以应用于有监督的多视图网络 embedding 算法。此外，通过无监督方法学到的 node embedding 可以直接应用于不同的下游任务，而监督算法产生的 embedding 专有地适合监督信息所在的任务。
总而言之，我们的贡献如下：
- 我们研究了对多视图网络 embedding 而言特定 specific 的、重要 important 的目标，并且从嵌入现实世界的多视图网络的实践中，确定了 preservation 和collaboration 这两个目标。
- 我们探索通过同时建模 preservation 和collaboration 来获得更好 embedding 的可行性，并提出了两种多视图网络 embedding 方法：MVN2VEC-CON 、MVN2VEC-REG 。
- 我们在四个数据集上对各种下游 application 进行了实验。这些实验证实了 preservation 和collaboration 的有效性和重要性，并证明了所提出方法的有效性。
相关工作：
- network embedding：network embedding 已成为学习分布式 node representation 的一种高效的、有效的方法。传统的无监督 feature learning 方法利用了常见的、网络的谱属性 spectral property。与传统方法相反，大多数 network embedding 方法都是根据网络的局部属性local property 来设计的，这些局部属性涉及节点之间的链接和邻近性。这种聚焦于局部属性的方法已被证明更具有可扩展性。
  许多最近的 network embedding 算法的设计都是基于网络的局部属性，并且可以追溯到 SkipGram 模型，其中 SkipGram 模型被证明具有可扩展性和广泛的适用性。为了利用 SkipGram 模型，人们已经提出了各种策略来定义网络场景中的节点上下文。除了 SkipGram 模型之外，在文献中还可以找到保持某些其它网络属性的 embedding 方法。
- 多视图网络：大多数现有的多视图网络方法旨在提高传统任务的性能，如聚类clustering 、分类classification 、稠密子图挖掘dense subgraph mining 等任务。
  另一个研究方向侧重于衡量和分析多视图网络中的交叉视图交互关系 cross-view interrelation 。但是他们没有讨论嵌入多视图网络的目标，也没有研究他们所提出的度量和分析如何与多视图网络的 embedding learning 相关联。
- 多视图网络 embedding：最近，《An attention-based collaboration framework for multi-view network representation learning》 提出了一种基于注意力的协同框架，从而用于多视图网络 embedding。这项工作的 setting 与我们不同，因为该工作需要监督信号从而用于注意力机制。此外，该方法并不直接建模 preservation（该方法重点关注协同），而我们认为 preservation 是对多视图网络 embedding 很重要的目标之一。在该框架中， final embedding 通过线性组合得到，因此是所有视图的 representation 之间的权衡 trade-off 。
  《Co-regularized deep multi-network embedding》 还提出了一种用于嵌入multi-network 的深度学习架构，其中 multi-network 是比多视图网络更通用的概念，并且允许跨网络进行多对多的对应 correspondence 。虽然所提出的模型可以应用于更具体的多视图网络，但是它并不聚焦于多视图网络 embedding 目标的研究。
  另一组相关工作研究了使用潜在空间模型联合建模多个网络视图的问题。这些工作再次没有建模 preservation。还有一些研究涉及多视图网络 embedding ，但是它们即不建模 preservation 和 collaboration，也不旨在提供对这些目标的深入研究。
  此外，多视图矩阵分解问题也与多视图网络 embedding 有关。《Multi-view clustering via joint nonnegative matrix factorization》 提出了一种多视图非负矩阵分解模型，旨在最小化每个视图的邻接矩阵与共识矩阵 consensus matrix 之间的距离。虽然这些方法可以为每个节点生成一个向量，但是这些向量被建模以适应某些具体任务（如矩阵补全或聚类任务），而不是可用于不同下游 application 的、节点的分布式 representation。
- 其它类型网络的 embedding 技术：在更大的范围内，人们最近在嵌入更通用的网络方面进行了一些研究，如异质信息网络 heterogeneous information network: HIN 。有些工作在 metapath 之上构建算法，但是相比于多视图网络， metapath 对于具有多种类型节点的 HIN 而言更有意义。另一些工作是为具有额外辅助信息或特定结构的网络而设计的，这些网络不适用于多视图网络。最重要的是，这些方法是为它们想要嵌入的网络而设计的，因此并不专注于研究多视图网络 embedding 的特定需求和目标。
- 多关系multi-relational 网络 embedding （或知识图谱 embedding）：多关系网络 embedding 体现了与多视图网络 embedding 相关的另一个研究方向。这个方向的研究重点与多视图网络 embeddinghead entity $\mathbf{\vec h}$ tail entity $\mathbf{\vec t}$ $\mathbf{\vec r}$ embedding $(\mathbf{\vec t} + \mathbf{\vec r})$ $\mathbf{\vec h}$ 相似。这种假设对于具有无向子网络视图的多视图网络而言是无效的。

28.1 模型

28.1.1 基本概念

$\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V=\{v_1,v_2,\cdots,v_n\}$ $M$ $\mathcal E_1,\mathcal E_2,\cdots,\mathcal E_M$ $\mathcal E_m\sub \mathcal E,\quad \bigcup_{m=1}^M \mathcal E_m = \mathcal E$ $m$ $\mathcal G_m(\mathcal V,\mathcal E_m)$ 。
embedding $v_i\in \mathcal V$ center embedding $\mathbf{\vec v}_i\in \mathbb R^d$ $d\ll n$ center embedding $v_i\in \mathcal V$ context embedding $\mathbf{\vec c}_i\in\mathbb R^d$ 。此外，当需要把学到的 embedding 用作下游任务的特征向量时，我们遵从常见的做法，将 center embedding 作为特征。

28.1.2 朴素方法

可以通过把简单网络 embedding 方法推广到多视图，从而得到多视图网络 embedding 的两种简单直接的方法：独立模型independent model 、单空间模型 one-space model 。
$v_i$ $m$ embedding $\mathbf{\vec v}_i^{(m)}\in \mathbb R^{d_m}$ $d_m$ $\mathcal G_m$ 的 embedding 维度。
- 独立模型分别独立嵌入每个视图，然后将所有视图的 embedding 拼接从而得到 final embedding ：
  ${\vec{v}}_{i} = ⨁_{m \in M} {\vec{v}}_{i}^{(m)} \in R^{d}$
  $d = \sum_m d_m$ $\bigoplus$ 表示向量拼接。
  这种方法得到的 node embedding 保持了每个视图的信息，但是无法跨不同视图进行协同collaboration 。
- 单空间模型：单空间模型假设每个视图共享相同的参数，final embedding 为：
  ${\vec{v}}_{i} = {\vec{v}}_{i}^{(m)} \in R^{d}$
  $d= d_m$ 。
  在单空间模型中所有视图的 embedding 都相同，它们就是final embedding。因此final embedding和所有视图有关。
  这种方法得到的 node embedding 鼓励不同视图进行协同，但是没有保持每个视图独有的信息。
我们通过 YouTube, Twitter 这两个多视图网络来评估独立模型、单空间模型的效果。
在这两个网络中，每个节点代表一个用户。YouTube 网络有三个视图，分别代表共同观看视频 cmn-vid、共同订阅者 cmnsub、共同好友 cmn-fnd 。Twitter 有两个视图，分别表示回复 reply、提及 mention 。下游任务是评估两个用户是否好友关系。
评估结果如下表所示。可以看到并没有哪个模型的效果始终比另外一个更好。
- 在YouTube 数据集上，独立模型的效果优于单空间模型。
- 在 Twitter 数据集上，单空间模型的效果优于独立模型。
我们认为：不同网络的network embedding 对建模 preservation 和建模collaboration 的需求不同，这使得采用独立模型、单空间模型的效果不同。具体而言：独立模型仅捕获 perservation，单空间模型仅捕获 collaboration。因此：
- 如果某个数据集更需要建模 preservation，那么独立模型的效果将优于单空间模型。
- 如果某个数据集更需要建模 collaboration，那么单空间模型的效果将优于独立模型。
为证明我们的观点，我们检查了数据集中不同网络视图之间信息的一致性。给定两个集合，我们通过 Jaccard 系数来衡量两个集合之间的相似性：
$J (S_{1}, S_{2}) = \frac{| S_{1} \cap S_{2} |}{| S_{1} \cup S_{2} |} \in [0, 1]$
$\mathcal G_{m_1},\mathcal G_{m_2}$ $v_i$ $\mathcal G_{m_1}$ $v_i$ $\mathcal N_{v_i}^{(m_1)}$ $\mathcal G_{m_2}$ $v_i$ $\mathcal N_{v_i}^{(m_2)}$ $v_i$ 在这对视图中的一致性为：
$J_{v_{i}}^{(m_{1}, m_{2})} = J (N_{v_{i}}^{(m_{1})}, N_{v_{i}}^{(m_{2})})$
对于每对视图，我们检查所有节点在它们之间的一致性，并给出一致性大于 0.5 的节点占所有节点的比例。该比例定义为视图之间信息的一致性，即：
$rate (G_{m_{1}}, G_{m_{2}}) = \frac{\sum_{v_{i} \in V} I (J_{v_{i}}^{(m_{1}, m_{2})} > 0.5)}{| V |}$
$\mathbb I(\cdot)$ 为示性函数。
在 YouTube, Twitter 数据集上不同视图的信息一致性结果如下图所示：
- YouTube 数据集中每对视图之间几乎没有一致性。因此，该数据集最需要的是建模 perservation，而不是collaboration 。因此在该数据集上独立模型优于单空间模型。
- Twitter 数据集中每对视图之间一致性较高，因此对该数据集建模 collaboration 可以带来效果的提升。因此该数据集上单空间模型优于独立模型。

28.1.3 MVN2VEC 模型

我们将 preservation 和 collaboration 定义为多视图网络 embedding 中的重要目标。
- 一种极端情况是，每个视图都具有独特的语义。此时仅需要建模 preservation，因此独立模型就可以产生比较好的结果。
- 另一种极端情况是，每个视图都具有相同的语义。此时仅需要建模 collaboration，因此单空间模型就能得到令人满意的结果。
但是，通常多视图网络介于两者之间，因此需要同时建模 preservation 和 collaboration。为此，我们提出两种方法 MVN2VEC-CON 和 MVN2VEC-REG，它们都可以同时捕获这两个目标。其中 MVN2VEC 表示 multi-view network to vector， CON 表示constrained， REG 表示 regularized 。
$v_i$ $m$ embedding $\mathbf{\vec v}_i^{(m)}\in \mathbb R^{d_m}$ $v_i$ $m$ context embedding $\mathbf{\vec c}_i^{(m)}\in \mathbb R^{d_m}$ $d_m = d/M$ 。
$\mathcal G_m$ ，我们定义视图内损失函数 intra-view lossembedding $\mathcal G_m$ 的效果：
$l ({{\vec{v}}_{i}^{(m)}, {\vec{c}}_{i}^{(m)}} ∣ G_{m})$
$l(\cdot)$ 的具体定义，其定义在后续给出。
MVN2VEC-CON：MVN2VEC-CON 方法同时建模 collaboration 和 preservation 。
$\mathbf{\vec v}_i^{(m)}$ 进行进一步处理，从而希望保持每个视图的语义，即建模 preservation。然后，该方法对 context embedding 施加约束：要求不同视图中的 context embedding 共享。具体做法为：
${\vec{c}}_{i}^{(m)} = (1 - θ) \times {\vec{g}}_{i}^{(m)} + θ \times \frac{1}{M} \sum_{m^{'} = 1}^{M} {\vec{g}}_{i}^{(m^{'})}$
$\mathbf{\vec g}_i\in \mathbb R^{d_m}$ $\theta\in [0,1]$ 是控制参数parameter 共享比例的超参数，取值越大则参数共享比例越高，从而更多地建模 collaboration。
$\theta$ 也可以利用模型从数据中自动学习。
最终，MVN2VEC-CON 模型需要求解以下最优化问题：
$min_{{{\vec{v}}_{i}^{(m)}, {\vec{g}}_{i}^{(m)}}} l ({{\vec{v}}_{i}^{(m)}, {\vec{g}}_{i}^{(m)}} ∣ G_{m}; θ)$
$v_i$ 的 final embedding 为：
${\vec{v}}_{i} = ⨁_{m \in M} {\vec{v}}_{i}^{(m)} \in R^{d}$
$\bigoplus$ $\theta=0$ 时，MVN2VEC-CON 模型退化为独立模型。
注意，这里用向量拼接而没有用均值聚合或 sum 聚合。拼接操作能够保持每个视图的语义，即 preservation 。
$\theta$ view-specific $\theta_m$ ，即每个视图都有一个共享比例超参数，我们将该研究作为未来工作。
MVN2VEC-REG：MVN2VEC-REG 方法也同时建模 collaboration 和 preservation 。该方法并未要求不同视图之间的参数共享，而是对不同视图的 embedding 施加正则化。
MVN2VEC-REG 的目标函数为：
$min_{{{\vec{v}}_{i}^{(m)}, {\vec{c}}_{i}^{(m)}}} l ({{\vec{v}}_{i}^{(m)}, {\vec{c}}_{i}^{(m)}} ∣ G_{m}) + γ \times (R_{i}^{(m)} + {\tilde{R}}_{i}^{(m)})$
$\gamma$ $\mathcal R_i^{(m)}$ $\tilde{\mathcal R}_i^{(m)}$ 为正则化项：
$\begin{matrix} R_{i}^{(m)} = {‖ {\vec{v}}_{i}^{(m)} - \frac{1}{M} \sum_{m^{'}} {\vec{v}}_{i}^{(m^{'})} ‖}_{2} \\ {\tilde{R}}_{i}^{(m)} = {‖ {\vec{c}}_{i}^{(m)} - \frac{1}{M} \sum_{m^{'}} {\vec{c}}_{i}^{(m^{'})} ‖}_{2} \end{matrix}$
$||\cdot||_2$ $l_2$ 正则化。
- MVN2VEC-REG $\left\{\mathbf{\vec v}_i^{(m)}\right\}$ $\left\{\mathbf{\vec c}_i^{(m)}\right\}$ 位于view-specific 的 embedding 子空间中，从而建模 preservation。
- 另一方面，MVN2VEC-REG 通过跨视图的正则化来建模 collaboration 。
类似于 MVN2VEC-CONMVN2VEC-REG $\gamma$ collaboration $\gamma= 0$ 时MVN2VEC-REG 模型退化为独立模型。
$\mathcal R_i^{(m)}$ $\tilde {\mathcal R}_i^{(m)}$ 替换为：
$\begin{matrix} R_{i}^{(m)} = {‖ {\vec{v}}_{i}^{(m)} - \frac{\sum_{m^{'}} λ_{m^{'}} \times {\vec{v}}_{i}^{(m^{'})}}{\sum_{m^{'}} λ_{m^{'}}} ‖}_{2} \\ {\tilde{R}}_{i}^{(m)} = {‖ {\vec{c}}_{i}^{(m)} - \frac{\sum_{m^{'}} λ_{m^{'}} \times {\vec{c}}_{i}^{(m^{'})}}{\sum_{m^{'}} λ_{m^{'}}} ‖}_{2} \end{matrix}$
$\lambda_m$ $\mathcal G_m$ 的的重要性。我们将该研究作为未来工作。
intra-view loss $l(\cdot)$ SkipGram $\mathcal G_m$ $v_i$ $B$ $\mathcal C^{(m)}_{v_i}$ 。则视图内损失函数定义为：
$l ({{\vec{v}}_{i}^{(m)}, {\vec{c}}_{i}^{(m)}} ∣ G_{m}) = - \sum_{v_{i} \in V} \sum_{c_{j} \in C_{v_{i}}^{(m)}} \log p^{(m)} (c_{j} ∣ v_{i})$
其中：
$p^{(m)} (c_{j} ∣ v_{i}) = \frac{\exp ({\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j}^{(m)})}{\sum_{j^{'}} \exp ({\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j^{'}}^{(m)})}$
这个损失函数旨在保持视图内的一阶邻近性。
模型推断：为了优化 MVN2VEC-CON 和 MVN2VEC-REGasynchronous stochastic gradient descent: ASGD $p^{(m)}(c_j\mid v_i)$ ，即：
$p^{(m)} (c_{j} ∣ v_{i}) ≃ \log σ ({\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j}^{(m)}) + \sum_{k = 1}^{K} E_{j^{'} \sim P^{(m)}} \log σ (- {\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j^{'}}^{(m)})$
$\sigma(\cdot)$ sigmoid $K$ $P^{(m)}(v)\propto \left(d_v^{(m)}\right)^{3/4}$ $d_v^{(m)}$ $v$ $G_m$ degree $d_v^{(m)}$ $v$ $G_m$ 的所有随机游走序列中出现的次数。
当使用负采样之后：
- MVN2VEC-CON 的目标函数为：
  $\begin{matrix} {\vec{c}}_{i}^{(m)} = (1 - θ) \times {\vec{g}}_{i}^{(m)} + θ \times \frac{1}{M} \sum_{m^{'} = 1}^{M} {\vec{g}}_{i}^{(m^{'})} \\ L_{CON} = - \sum_{v_{i} \in V} \sum_{c_{j} \in C_{v_{i}}^{(m)}} [\log σ ({\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j}^{(m)}) + \sum_{k = 1}^{K} E_{j^{'} \sim P^{(m)}} \log σ (- {\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j^{'}}^{(m)})] \end{matrix}$
- MVN2VEC-REG 的目标函数为：
  $\begin{matrix} R_{i}^{(m)} = {‖ {\vec{v}}_{i}^{(m)} - \frac{1}{M} \sum_{m^{'}} {\vec{v}}_{i}^{(m^{'})} ‖}_{2}, {\tilde{R}}_{i}^{(m)} = {‖ {\vec{c}}_{i}^{(m)} - \frac{1}{M} \sum_{m^{'}} {\vec{c}}_{i}^{(m^{'})} ‖}_{2} \\ L_{REG} = - \sum_{v_{i} \in V} \sum_{c_{j} \in C_{v_{i}}^{(m)}} [\log σ ({\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j}^{(m)}) + γ \times (R_{i}^{(m)} + {\tilde{R}}_{j}^{(m)}) + \sum_{k = 1}^{K} E_{j^{'} \sim P^{(m)}} [\log σ (- {\vec{v}}_{i}^{(m)} \cdot {\vec{c}}_{j^{'}}^{(m)}) + γ \times (R_{i}^{(m)} + {\tilde{R}}_{j^{'}}^{(m)})]] \end{matrix}$
.
pair $N$ $\mathcal G_m$ $n^{(m)}$ $n_{\max} = \max_{m} n^{(m)}$ $S$ $S$ $N=S \times n_\max$ 。
$\mathcal G_m$ ，我们根据现有研究来生成随机游走 pair 对，其中节点的转移概率与所有 outgoing edge 的权重成正比。
《node2vec: Scalable feature learning for networks》 $O(\frac{ML}{B(L-B)})$ $L$ $L$ $B$ $M$ $M$ 的一次关系。
对于模型推断，ASGD(node, context) pair $L$ $B$ $S$ $M$ ASGD $M$ ASGD $M$ 的二次关系。
MVN2VEC 训练算法：
- 输入：
  - $\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal G_m = (\mathcal V,\mathcal E_m)$ $\mathcal E_m\sub \mathcal E$
  - $S$
  - $L$
  - $B$
  - $K$
  - $\theta$ $\gamma$
- embedding $\{\mathbf{\vec v}_i\}$
- 算法步骤：
  - $\mathcal G_m$ $N=S \times n_\max$ $L$ 的随机游走序列。
  - $v_i$ $\mathcal G_m$ $B$ $\mathcal C^{(m)}_{v_i}$ 。
  - $v_i$ $\mathcal C_{v_i}$ 。
  - 迭代（下面的迭代步骤可以并行进行）：
    - $\text{for }(v_i \in \mathcal V,c_j\in \mathcal C_{v_i}):$ 基于梯度更新参数。
  - $v_i\in \mathcal V$ $\mathbf{\vec v}_i = \bigoplus_m \mathbf{\vec v}_i^m$ 。

28.2 实验

28.2.1 人工合成数据集

为直接研究不同模型在具有不同程度的 preservationcollaboration $\mathcal G(p)$ $p\in [0,0.5]$ intrusion probability $G(0)$ ：
- 在带有标签 A 或 B 的所有节点上生成一个随机网络，并在带有标签 CD $\mathcal G_1$ 。

在带有标签 A 或 C 的所有节点上生成一个随机网络，并在带有标签 BD $\mathcal G_2$ 。
preferential attachment process $\mathcal G_1$ 中，标签为 A 或 B 的节点应该和标签为 CD $\mathcal G_2$ 中，标签为 A 或 C 的节点应该和标签为 B 或 D 的节点有区分性。
$\mathcal G(p)$ $\mathcal G(0)$ $1-p$ $p$ $p$ collaboration $p$ preservation $p=0.5$ 的极端情况下，network embeddingcollaboration $\mathcal G_1$ $\mathcal G_2$ 。
$\mathcal G(p)$ 最终包含 4000 个节点、2 个视图。每个节点关联一个 label，label 的取值集合为 {A,B,C,D} ，并且每种类型的 label 有1000 个节点。

$\mathcal G(p)$ ，我们分别应用independent, one-space, MVN2VEC-CON, MVN2VEC-REG 等方法学习 node embedding，然后使用逻辑回归来执行分类任务来评估生成的 embedding 质量。
我们从 4000 个样本中采样得到验证集，通过验证集来调优超参数。同时我们随机抽取一部分节点作为测试集，并给出不同方法生成的 embedding 在测试集上的分类准确性和交叉熵。
结论：
- $p$ 很小时，independent 模型优于 one-space 模型，此时 preservation 占据统治地位。
- $p$ 很大时，one space 模型优于 independent 模型，此时 collaboration 占据统治地位，
- $p$ 接近 0.5 之外），我们提出的 MVN2VEC 性能优于 independent/one-space 模型。这意味着 MVN2VEC 有可能通过同时建模 preservation 和 collaboration 来实现更好的性能。
- $p$ 接近 0.5one-space $\mathcal G(0.5)$ 中不需要 preservation。并且，任何针对 preservatinon 的额外建模都不会提高性能。

28.2.2 真实数据集

数据集：
- Youtube 数据集：一个视频分享网站。我们使用该数据集构建了一个三视图网络，其中核心用户core user 为节点，三个视图分别为：共同好友关系、共同订阅者关系、共同爱好关系（都喜欢某个视频）。注意， core user 为数据集作者通过爬虫爬取到的那些用户，而他们的好友可能不属于 core user 。
  由于没有类别标签，因此我们在该数据集上执行链接预测任务，目标是预测两个 core user 之间是否是好友关系。由于原始数据集只有正样本（好友关系），因此对于每个 core user 的好友关系，我们随机选择 5 个非好友的 core user 来构造负样本。我们将数据集拆分为训练集、验证集、测试集。
- Twitter 数据集：在线新闻和社交网站。我们使用该数据集构建了一个两视图网络，其中用户为节点，两个视图分别为：reply 关系、mention 关系。
  同样地，我们也在该数据集上执行链接预测任务，预测两个用户是否是好友。我们也采用相同的方式构造负样本。训练集、验证集、测试集的拆分方法与 Youtube 数据集中的拆分方法相同。
- Snapchat 数据集：一个多媒体社交网络。我们使用该数据集构建一个三视图网络，其中用户为节点，三个视图分别为：好友关系、聊天关系、故事阅读关系。我们收集了 2017 年春季连续两周的数据作为构建网络的数据，下游评估任务的数据是接下来一周（第三周）收集的数据。
  我们在Snapchat 数据集上采用不同模型学到 node embedding，然后将 node embedding 作为输入从而执行下游的标签分类任务、链接预测任务。
  - 在分类任务中，我们根据第三周用户观看的历史记录，对用户是否观看了 10 个最热门的发现频道 discover channel 进行分类。对于每个频道，观看过该频道的用户都被标记为正样本。我们随机选择未观看该频道的 5 倍用户（正样本的5倍）作为负样本。这是一个多标签分类问题，旨在推断用户对不同发现频道的偏好，从而指导内容服务中的产品设计。
    然后，我们将这些用户随机拆分为训练集、验证集、测试集，拆分比例为 80%:10%:10% 。
  - 在连接预测任务中，我们预测两个用户是否会在第三周阅读彼此发布的 story。正样本是一对好友，他们阅读了对方发布的 story；负样本是一对好友，他们未阅读对方发布的 story 。注意：这种方式产生的正样本比负样本更多，这也是在实验中观察到较高 PRC-AUC 的原因。
    数据被随机分为训练集、验证集、测试集，约束条件是用户最多只能在三个子集中的一个子集中显示为阅读者 viewer 。该任务旨在估计朋友之间阅读故事的可能性，以便 application 可以相应地对故事就那些排名。
  我们提供了 Snapchat 视图的一致性结果，可以看到在 Snapchat 网络中，视图一致性介于 YouTube 和 Twitter 之间。
数据处理：
- 如果节点在多视图中至少一个视图中是孤立节点（在该视图中不与其它任何节点相连），则该节点将从评估中排除。这种处理方式可以确保仅嵌入单个视图时，每个节点都具有有效的embedding 。
- 对于所有三个网络上的每个任务，训练集、验证集、测试集的拆分比例为 80%:10%:10% 。我们重复 20 次随机拆分数据集并执行评估，最终报告每个评估指标的均值和标准差。
baseline 方法：
- independent $\theta = 0$ MVN2VEC-CON $\gamma=0$ 的 MVN2VEC-REG 方法。它保留了每个视图独有的信息，但是不允许嵌入过程中跨视图的协同。
- one-space 模型：它使得不同的视图可以协同学习统一的 embedding，但不会保留每个视图特有的信息。
- view-merging 模型：它首先将所有视图合并为一个统一的视图，然后学习该统一视图的 embedding 。为满足所有视图重要性都相同的假设，我们将统一视图中边的权重调整为所有视图中该边的权重之和。
  这种方法是one-space 的一个替代方法，而且区别在于：随机游走是否能够穿越不同的视图。就像 one-space 一样，view-merging 方法也不会建模 perservation 。
- single-view 模型：它仅从某一个视图中学习 embedding ，目的是为了验证引入更多的视图是否能够带来效果的提升。它等价于使用 DeepWalk 来嵌入多视图网络中的某一个视图。
我们还尝试了两个用于多视图网络 embedding 的其它方法，包括：
- MVE：一种基于注意力机制的多视图网络 embedding 的半监督方法。为了公平地比较，在我们的无监督链接预测实验中，我们将相同的 dummy class label 分配给 1% 随机选择的节点。我们观察到，随机选择节点的比例并不会显著影实验中的评估结果。
- DMNE：一种基于深度学习体系结构的多视图网络embedding 方法。
由于可扩展性的原因，我们在较小的 YouTube 和 Twitter 数据集上比较了这两个 baseline 。
$L_2$ $L_2$ 正则化系数始终通过验证集来选择最优的。
根据 《Line:L arge-scale information network embedding》，每个 embedding 向量通过投影到单位球上从而进行后处理。
在多标签分类任务中，节点特征仅仅是节点的 embedding，并且为每个 label 训练一个独立的逻辑回归模型。在链接预测任务中，节点 pair 对的特征是两个节点 embedding 向量的 Hadamard product，正如 《node2vec: Scalable feature learning for networks》 所建议的。
超参数配置：
- 对于 independent, MVN2VEC-CON, MVN2VEC-REGembedding $d= 128\times M$ embedding $d_m = 128$ 。
  single-view $d = 128$ $d=128$ $d=128\times M$ 。
- $L=20$ $B=3$ Snapchat $S=10$ $S=50$ 。
- SkipGram $K=5$ 。
- 每个模型仅训练一个 epoch 。
- MVN2VEC $\theta,\gamma$ 经过验证集调优。
评估指标：
- 对于链接预测任务，我们使用 ROC-AUC 和 PRC-AUC 这两个指标。
- 对于多标签分类任务，我们先计算每种标签的 ROC-AUC 以及 PRC-AUC，然后报告所有标签在这些指标上的均值。
实验结果：
- 所有利用多视图的模型都优于仅使用单视图的模型，这证明了利用多视图的必要性。
- one-space 方法和 view-merging 方法在所有数据集上的性能都差不多。这是可以预期的，因为它们都仅对 collaboration 进行建模，并且彼此之间的区别仅在于随机游走是否跨网络视图。
- 在 YouTube 上，我们提出的 MVN2VEC 模型表现不错，但是没有明显的超越 independent 模型。这是由于 YouTube 网络中，对 preservation 建模的需求占主导地位。在这种极端情况下，对collaboration 额外的建模并不会带来显著的效果提升。
- 在 Twitter 上，collaboration 比 preservation 更为重要，因此 one-space 方法要比 independent 方法更好。
  此外，MVN2VEC-REG 优于所有的 baseline ，而 MVN2VEC-CON 超越了 independentone-space $\theta\in [0,1]$ context embedding $\left\{\mathbf{\vec c}_i^{(m)}\right\}$ MVN2VEC-CON $\left\{\mathbf{\vec v}_i^{(m)}\right\}$ 相互独立，因此它建模 collaboration 的能力受到限制。
- 就 preservation 和 collaboration 目标而言，Snapchat 网络位于 YouTube 和 Twitter 之间。在 Snapchat 网络上，我们提出的 MVN2VEC 在所有指标上都优于所有 baseline 。这证明了通过同时建模 preservation 和 collaboratioin 来提升模型性能的可行性，并且不会使得模型过度复杂化、也不需要监督信息。
- MVN 在 YouTube 上的表现不如 MVN2VEC，我们认为 MVE 是一个 collaboration 框架，它并未显式地建模 preservation 。而 preservation 目标又是 Youtube 数据集必须的。
  同时，MVE 并未从其注意力机制中获得性能提升，因为在我们的实验设置中，并未为它提供所需要的监督信息。
- DMNE 在 YouTube 上性能较差，原因是我们采用原始论文的超参数。另外，DMNE 是为更通用的多网络 multi-network 而设计，并不是专门针对多视图网络而设计。
这些观察结果共同证明了通过同时建模 preservation 和 collaboration 来提高性能的可行性，而不会使得模型过度复杂化，也不需要监督信息。
最后我们研究超参数的影响。
- embedding $d$ $d$ $\mathcal G(0)$ $\mathcal G(0)$ 仅需要对 preservation 进行建模。
  结论：
  - one-space $d=256$ $d=256$ 的 independent 效果更差。不能期望 one-space 方法采用更大维度的 embedding 空间来保持多视图中不同视图携带的信息。
  - independent $d=512$ 时效果最佳。
  - $d=256\sim 512$ one-space $d$ 值最小。这是意料之中的，因为 one-space 不会划分 embedding 空间从而适应多个视图。
- $\theta,\gamma$ $\theta_m,\gamma_m$ ，每个视图个性化的配置留待未来研究。
  我们首先关注 snapchat 网络。
  - MVN2VEC-REG $\gamma = 0$ preservation $\gamma$ collaboration $\gamma = 0.01\sim 0.1$ 之间达到。
  - MVN2VEC-CON $\theta = 0$ preservation $\theta$ collaboration $\theta = 1$ 时，MVN2VEC-CONcontext embedding $\left\{\mathbf{\vec c}_i^{(m)}\right\}$ $\left\{\mathbf{\vec v}_i^{(m)}\right\}$ 相互独立，这阻止了 MVN2VEC-CON 来建模更多的 collaboration 。
  YouTube $\theta,\gamma$ 怎样变化 MVN2VEC 都不会明显优于 independent，因为 YouTube 网络被 preservation 统治。
  Twitter $\gamma$ 较大时 MVN2VEC-REGone-space $\theta$ 怎样变化 MVN2VEC-CON 都无法超越 one-space，因为 Twitter 网络更多地需要建模 collaboration，而MVN2VEC-CON 的设计阻止了它建模更多的 collaboration 。

二十九、SNE[2018]

社交网络是一类重要的网络，涵盖各种媒体，包括 Facebook 和 Twitter 等社交网站、学术论文的引文网络、移动通信的 caller–callee 网络等等。许多 application 需要从社交网络中挖掘有用的信息。例如，内容供应商content provider 需要将用户分组从而用于定向广告投放targeted advertising，推荐系统需要估计用户对 item 的偏好从而进行个性化推荐。为了将通用机器学习技术应用于网络结构化数据，学习有信息量informative 的node representation 是有必要的。
最近，人们对 representation learning 的研究兴趣已经从自然语言扩展到网络数据。人们已经提出了许多 network embedding 方法，并在各种 application 中展示出有前景的性能。然而，现有的方法主要集中在通用网络上，并且仅利用结构信息。对于社交网络，论文《Attributed Social Network Embeddin》指出：除了链接结构之外，几乎总是存在关于社交参与者social actor 的丰富信息。例如，社交网站上的用户可能拥有年龄、性别、文本评论等画像信息。我们将所有此类辅助信息称为属性attribute ，这些辅助信息不仅包含人口统计学数据，还包括其它信息如附属文本、可能存在的标签等等。社交参与者的这些丰富的属性信息揭示了同质效应homophily effect，该效应对社交网络的形成产生了巨大的影响。
本质上，属性对社交网络的组织产生巨大的影响。许多研究证明了属性的重要性，从客观的人口统计学数据，到主观的政治取向和个人兴趣等偏好数据。为了说明这一点，我们从三个视图绘制了 Facebook 数据集的 user-user 友谊矩阵。每一行或每一列代表一个用户，一个彩色点表示对应的用户是好友关系。每个视图是用户按照“年级”class year 、“专业”major、“宿舍” dormitory 等特定属性重新排序的结果。例如，图 (a) 首先按照 “年级” 属性对用户进行分组，然后按照时间顺序对 “年级” 进行排序。可以看到，每个视图中都存在清晰的块状结构block structure，其中块内的用户的连接更紧密。每个块结构实际上都指向相同属性的用户，例如，图 (a) 的右下角对应于 2009 年毕业的用户。这个现实世界的例子支持了属性同质性attribute homophily 的重要性。通过共同考虑属性同质性和网络结构，我们相信可以学到更有信息量的 node representation。此外，通过利用辅助的属性信息，可以很大程度上缓解链接稀疏link sparsity和冷启动cold-start问题。
在论文《Attributed Social Network Embedding》 中，作者提出了一个叫做 SNE 的神经网络框架，用于从社交网络数据中学习 node representation。SNE 是使用实值特征向量的通用machine learner ，其中每个特征表示节点的 ID （用于学习网络结构）或一个属性。通过这种方式，我们可以轻松地集成任何类型和数量的属性。在论文的 SNE 框架下，每个特征都关联一个 embedding，节点的 final embedding 是从节点的 ID embedding （保持结构邻近性structural proximity)）和属性 embedding （保持属性邻近性attribute proximity ）聚合而成。为了捕获特征之间的复杂交互，论文采用多层神经网络来利用深度学习的强大的 representation 和 generalization 能力。
总之，论文贡献如下：
- 论文证明了集成网络结构和属性对于学习更有信息量的社交网络 node representation 的重要性。
- 论文提出了一个通用框架 SNE，该框架通过保持社交网络的结构邻近性和属性邻近性来执行社交网络 embedding 。
- 论文对四个数据集进行了广泛的实验，其中包括链接预测、节点分类这两个任务。实验结果和案例研究证明了 SNE 的效果和合理性。
相关工作：这里我们简要总结了关于属性同质性attribute homophily 的研究，然后我们讨论与我们的工作密切相关的 network embedding 方法。
- 社交网络中的属性同质性：社交网络属于一类特殊的网络，其中社交关系的形成不仅涉及自组织的网络过程self-organizing network process ，还涉及基于属性的过程attribute-based process 。在 embedding 过程中考虑属性邻近性的动机源自属性同质性的巨大影响，其中属性邻近性在基于属性的过程中起着重要作用。因此，我们在这里对同质性研究进行简要概述。
  一般而言，“同质性原则”homophily principle （即，“物以类聚，人以群分”）是社交生活中最引人注目和最强大的经验规律之一。
  - 相似的人倾向于成为好友的假设至少可以追溯到上世纪 70 年代。在社会科学中，人们普遍预期：个体与大约同龄的其他人建立好友关系（《“Friendships and friendly relations》）。
  - 在 《Homophily in voluntary organizations: Status distance and the composition of face-to-face groups》 中，作者研究了群体的同质构成homogeneous composition 和同质性出现the emergence of homophily 的相互联系。
  - 在《Homophily in online dating: when do you like someone like yourself?》 中，作者试图找出同质性在用户做出的在线约会选择中的作用。他们发现，在线约会系统的在线用户寻找像他们一样的人的频率要比系统预测的要高得多，就像在离线世界中一样。
  - 近年来，《Origins of homophily in an evolving social network》 调查了大型大学社区中同质性的起源，该论文记录了随着时间推移的交互interaction 、属性attribute 、以及附属关系affiliation。
  毫不奇怪，人们已经得出结论，除了结构邻近性之外，属性相似性的偏好也为社交网络的形成过程提供了一个重要因素。因此，为了获得更多关于社交网络的、有信息量的 representation，我们应该考虑属性信息。
- network embedding：一些早期的工作，例如局部线性嵌入Local Linear Embedding: LLE、IsoMap、Laplacian Eigenmap 首先将数据转换为基于节点的特征向量的亲和图 affinity graph（例如节点的 k 近邻），然后通过求解亲和矩阵affinity matrix 的 top-n 的 eigenvector 来嵌入 graph 。
  最近的工作更侧重于将现有网络嵌入到低维向量空间中，从而帮助进一步的网络分析并实现比早期工作更好的性能。
  - 在 《Deepwalk: Online learning of social representations》 中，作者在网络上部署了截断的随机游走来生成节点序列。生成的节点序列在语言模型中被视为句子，并馈送到 SkipGram 模型来学习 node mebdding 。
  - 在 《node2vec: Scalable feature learning for networks》 中，作者通过平衡广度优先采样和深度优先采样，从而改变了生成节点序列的方式，最终实现了性能的提升。
  - 《Line: Large-scale information network embedding》 没有在网络上随机游走，而是提出了显式的目标函数来保持节点的一阶邻近性和二阶邻近性。
  - 《Structural deep network embedding》 也没有在网络上随机游走，并且引入了具有多层非线性函数的深度模型来捕获高度非线性的网络结构。
  然而，所有这些方法都只利用了网络结构。在社交网络中，存在大量的属性信息。单纯基于结构的方法无法捕获这些有价值的信息，因此可能会导致信息量少的 embedding。此外，当发生链接稀疏问题时，这些方法很容易受到影响。最近的一些工作探索了集成内容从而学习更好的 representation 的可能性。
  - 例如，TADW 提出了关联文本的 DeepWalk ，从而将文本特征融合到矩阵分解框架中。但是，TADW 仅能处理文本属性。
  - 面对同样的问题，TriDNR 提出从基于结构的 DeepWalk 和label-fused 的 Doc2Vec 模型中分别学习 embedding，学到的 embedding 以 iterative 的方式线性组合在一起。在这样的方案下，两个独立模型之间的知识交互knowledge interaction 只经过一系列的加权和运算，并且缺乏进一步的收敛约束convergence constrain 。
    相比之下，我们的方法以端到端的方式同时建模结构邻近性和属性邻近性，并且没有这些限制。此外，通过早期融合结构模型和属性模型，这两部分将相互补充从而产生足够好的知识交互。
  也有工作致力于探索用于 network embedding 的半监督学习。
  - 《Deep learning via semi-supervised embedding》 将基于 embedding 的正则化器与监督学习器结合起来，从而集成了标签信息。
  - 《Revisiting semi-supervised learning with graph embeddings》 没有强迫正则化，而是使用 embedding 来预测 graph 中的 context，并利用标签信息来构建 transductive 公式和 inductive 公式。在我们的框架中，标签信息可用的时候可以通过类似的方式融合。我们将这种扩展作为未来的工作，因为我们的工作聚焦于 network embedding 的属性建模。

29.1 模型

29.1.1 基本概念

$G=(\mathcal U,\mathcal E,\mathcal A)$ $\mathcal U=\{u_1,\cdots,u_n\}$ $\mathcal E=\{e_{i,j}\}$ $\mathcal A$ 为节点属性集合，如用户画像。
$e_{i,j}$ $s_{i,j}$ $u_i, u_j$ $s_{i,j} = 1$ 。实际上我们的方法也可以通过邻域采样策略来推广到带权图。
社交网络embedding 的目的是将节点映射到低维向量空间中。由于网络结构和节点属性提供了不同的信息源，因此关键是要同时捕获这两者。
如下图所示，数字代表节点编号，相同的颜色代表相同的属性。基于网络结构embeddingembedding $(u_1,u_2,u_3,u_4,u_5)$ $(u_8,u_9,u_{11},u_{12})$ $(u_2,u_9,u_{11},u_{12})$ computer science $u_2$ $u_9,u_{11},u_{12}$ $(u_9,u_{11},u_{12})$ $u_2$ 可能也会感兴趣。
要学到用户的更有信息量的 representation，必须捕获属性信息。在这项工作中，我们努力开发 embedding 方法从而同时保持社交网络的结构邻近性和属性邻近性。
我们首先定义结构邻近性和属性邻近性：
- Structural Proximity $u_i$ $u_j$ $e_{i,j}$ $u_j$ $u_i$ 的上下文内，则表示间接邻近。直观而言，直接邻近性对应于一阶邻近性，间接邻近性对应于高阶邻近性。产生上下文的一种流行方法是通过网络中执行随机游走，这里我们采用 node2vec 的随机游走策略。
- Attribute Proximity $u_i$ $u_j$ $u_i$ $\mathcal A_i$ $u_j$ $\mathcal A_j$ 的交集表示属性邻近性。通过属性邻近性的强制约束，我们可以建模属性同质效应，使得具有相似属性的用户在 embedding 空间中彼此靠近。
  这里假设用户属性特征都是离散型的（如果有连续型属性则可以离散化）。

29.1.2 SNE 模型

结构建模Structure Modeling ：根据结构邻近性的定义，网络结构建模的关键在于定义节点的 pairwise 邻近性。
$f(\cdot,\cdot)$ $u_i,u_j$ $u_i$ $u_j$ $u_i$ 存在链接的概率为：
$p (u_{j} ∣ u_{i}) = \frac{\exp (f (u_{i}, u_{j}))}{\sum_{j^{'} = 1}^{n} \exp (f (u_{i}, u_{j^{'}}))}$
$u_i$ $\mathcal N_i$ （包括了直接邻居、高阶邻居），我们假设链接存在概率的条件独立性，则有：
$p (N_{i} ∣ u_{i}) = \prod_{j \in N_{i}} p (u_{j} ∣ u_{i})$
通过最大化所有节点上的这种条件概率，我们可以实现保持网络结构邻近性的目标。具体而言，我们建模全局网络结构的目标函数为：
$L = \prod_{i = 1}^{n} p (N_{i} ∣ u_{i}) = \prod_{i = 1}^{n} \prod_{j \in N_{i}} p (u_{j} ∣ u_{i})$
建立了学习的目标函数之后，现在我们需要设计一个 embeddingpairwise $f(u_i,u_j)$ 。先前的大多数工作都是采用浅层模型来建模节点邻近性，如矩阵分解、单层神经网络。这些方法将两个节点的邻近性建模为 embedding 向量的内积。但是，众所周知，简单地将 embedding 向量内积会限制模型的表达能力，并导致较大的 ranking loss 。为了捕获现实世界网络的复杂非线性，我们建议采用一种深度架构来对节点的 pairwise 邻近性建模：
$f (u_{i}, u_{j}) = {\tilde{\vec{u}}}_{j} \cdot σ_{L} (W^{(L)} (\dots σ_{1} (W^{(1)} {\vec{u}}_{i} + {\vec{b}}^{(1)}) \dots) + {\vec{b}}^{(L)})$
其中：
- $\mathbf{\vec u}_i$ $u_i$ 的 embedding 向量。
- $\tilde{\mathbf{\vec u}}_i$ $u_i$ 作为上下文时的 context embedding 向量。
- $L$ $\mathbf W^{(l)},\mathbf{\vec b}^{(l)}$ $l$ $\sigma_l(\cdot)$ $l$ 层的激活函数。
$u_i$ 都有两个潜在的 embeddingembedding $\mathbf{\vec u}_i$ context embedding $\tilde{\mathbf{\vec u}}_i$ embedding $u_i$ 在下游任务中的 embedding 。根据经验，这种方式效果更好。
浅层 embedding 模型到深层 embedding 模型是一种很自然的想法。
属性编码Encoding Attributes ：很多现实世界的社交网络包含丰富的属性信息，这些属性信息可能是异质并且多样化的。为了避免人工特征工程，我们将所有属性转化为通用的 feature vector 的形式，从而有助于设计一种从属性数据中学习的通用方法。无论属性的语义如何，我们都可以将属性分为两类：
- 离散属性：我们通过 one-hot encoding 将离散属性转换为一组 binary feature{male, female} $\mathbf{\vec v} = (0,1)$ 来表示其性别为 female 。
- 连续属性：社交网络上自然地存在连续属性，如图像原始特征和音频原始特征。或者也可以通过离散变量人为地转换生成连续属性，如通过 TF-IDF 将文档的 bag-of-words representation 转换为实值向量。另一个例子是历史特征，如用户购买 item 历史行为特征、用户 checkin 地点的历史行为特征，它们总是被归一化为实值向量从而减少可变长度的影响。
$\mathbf{\vec v}$ $S$ $s$ embedding $\mathbf{\vec e}_s$ $\mathbf W^\text{att}$ $s$ 列，如下图
所示。然后我们聚合用户所有的属性特征embedding ：
${\vec{u}}^{'} = \sum_{s = 1}^{S} v_{s} {\vec{e}}_{s} = W^{att} \vec{v}$
这里没有进行连续特征离散化，而是将连续特征直接嵌入并乘以特征取值。此外，这里直接均值聚合，可以结合 attention 机制进行聚合。
类似于网络结构建模，节点属性建模的目标是采用深度模型来近似属性之间的复杂的相互作用，从而对属性邻近性建模：
$f (u_{i}, u_{j}) = {\tilde{\vec{u}}}_{j}^{'} \cdot σ_{K} (W^{(K)^{'}} (\dots σ_{1} (W^{(1)^{'}} {\vec{u}}_{i}^{'} + {\vec{b}}^{(1)^{'}}) \dots) + {\vec{b}}^{(K)^{'}})$
$K$ $\tilde{\mathbf{\vec u}}_j$ $u_j$ 作为上下文时的 context embedding 向量。
pair-wise 属性邻近性建模从直觉上需要馈入两个节点的内容，但是这里只有一个节点内容和另一个节点的 context embedding ？
SNE 模型：为了结合网络结构建模和节点属性建模，一种直观的方法是：将各自模型学到的 embedding 拼接起来，即后期融合late fusion方案。这种方法的主要缺点是：各个模型在彼此不知道对方的情况下单独训练，训练之后简单地组合各模型的 embedding 从而得到结果。相反，早期融合early fusion方案允许同时优化所有参数，因此属性建模和结构建模相互补充，使得两个部分密切交互。从本质上讲，早期融合方案在端到端深度学习方法中更为可取，因此，我们提出了如下所示的通用社交网络嵌入框架 SNE，它通过在输入层之后进行早期融合来集成网络结构建模和节点属性建模。
- 输入层：
  - 网络结构建模的输入层为节点的 one-hot 。
  - $\mathbf{\vec v}$ 。
- embedding 层：
  - 网络结构建模的 embeddingone-hot $\mathbf{\vec u}$ 上。
  - embedding $\mathbf{\vec u}^\prime$ 。
- $L$ $\mathbf{\vec h}^{(1)},\cdots,\mathbf{\vec h}^{(L)}$ 。其中：
  $\begin{matrix} {\vec{h}}^{(0)} = [\begin{matrix} \vec{u} \\ λ {\vec{u}}^{'} \end{matrix}] \\ {\vec{h}}^{(k)} = σ_{k} (W^{(k)} {\vec{h}}^{(k - 1)} + {\vec{b}}^{(k)}), k = 1, 2, \dots, L \end{matrix}$
  $\lambda\in \mathbb R$ $\mathbf{\vec h}_i^{(L)}$ $u_i$ 的embedding 向量。
  注意：一种常见的网络架构设计是使用塔式结构，即每层的神经元数量从底部到顶部依次减少。我们也遵循该设计原则，如下图所示。
- $u_j$ context embedding $\tilde{\mathbf{\vec u}}_j$ $\tilde{\mathbf U}$ $j$ $u_i$ $u_j$ 的邻近性为：
  $f (u_{i}, u_{j}) = {\tilde{\vec{u}}}_{j} \cdot {\vec{h}}_{i}^{(L)}$
  context embedding 中缺乏节点的属性信息。
  $u_j$ $u_i$ 存在链接的概率为：
  $p (u_{j} ∣ u_{i}) = \frac{\exp ({\tilde{\vec{u}}}_{j} \cdot {\vec{h}}_{i}^{(L)})}{\sum_{j^{'} = 1}^{n} \exp ({\tilde{\vec{u}}}_{j^{'}} \cdot {\vec{h}}_{i}^{(L)})}$
  $\mathbf{\vec h}_i^{(L)}$ $\mathbf{\vec o}_i$ $u_i$ 链接到其它所有节点的概率：
  ${\vec{o}}_{i} = (p (u_{1} ∣ u_{i}), \dots, p (u_{n} ∣ u_{i}))^{⊤}$
优化Optimization ：为求解模型参数，我们需要选择一个目标函数来进行优化。我们的目标函数是：使得所有节点上的条件链接概率最大化。即：
$\begin{matrix} Θ^{*} = \arg max_{Θ} \prod_{i = 1}^{n} \prod_{j \in N_{i}} p (u_{j} ∣ u_{i}) = \arg max_{Θ} \sum_{i = 1}^{n} \sum_{j \in N_{i}} \log p (u_{j} ∣ u_{i}) \\ = \arg max_{Θ} \sum_{i = 1}^{n} \sum_{j \in N_{i}} \log \frac{\exp ({\tilde{\vec{u}}}_{j} \cdot {\vec{h}}_{i}^{(L)})}{\sum_{j^{'} = 1}^{n} \exp ({\tilde{\vec{u}}}_{j^{'}} \cdot {\vec{h}}_{i}^{(L)})} \end{matrix}$
$\Theta$ $\mathcal N_i$ $u_i$ 的邻居集合（包括了直接邻居、高阶邻居）。
$u_i$ $u\in \mathcal N_i$ $u_i$ $u\notin \mathcal N_i$ 之间的相似性。但是这带来两个问题：
- $u_i$ $u\notin \mathcal N_i$ 之间用户不相似是不合适的。
- $p(u_j\mid u_i)$ ，我们需要遍历所有节点。这种计算效率非常低下。
为避免这些问题，我们使用负采样，从整个社交网络中采样一小部分负样本。主要思想是在梯度计算过程中进行近似，即：
$\nabla \log p (u_{j} ∣ u_{i}) = \nabla f (u_{i}, u_{j}) - \sum_{j^{'} \in M} p (u_{j}^{'} ∣ u_{i}) \nabla f (u_{i}, u_{j^{'}})$
$f(u_i,u_j) = \tilde{\mathbf {\vec u}}_j\cdot \mathbf{\vec h}_i^{(L)}$ $\mathcal M$ 为负采样的节点集合。
$u_i$ $\nabla f(u_i,u_{j^\prime})$ $\mathbb E\left[\nabla f(u_i,u_{j^\prime})\right]$ $u_i$ 未链接到的其它用户节点施加过强的约束。
为优化上述框架，我们使用了 Adam 优化算法。此外，我们还使用了 batch normalization 。在 embedding layerdropout $\mathbf{\vec h}^{(L)} + \tilde{\mathbf{\vec u}}$ 来作为节点的final embedding 。

29.1.3 与其它模型关联

这里我们讨论 SNE 框架与其它相关模型的联系。我们展示了 SNE 包含了 state-of-the-art 的 network embedding 方法 node2vec，也包含了线性潜在因子模型 SVD++。具体而言，这两个模型可以视为浅层 SNE 的一个特例。为便于进一步讨论，我们首先给出单层 SNE 的预测模型为：
$\begin{matrix} f (u_{i}, u_{j}) = {\tilde{\vec{u}}}_{j} \cdot σ_{1} (W^{(1)} [\begin{matrix} {\vec{u}}_{i} \\ λ {\vec{u}}_{i}^{'} \end{matrix}] + {\vec{b}}^{(1)}) \end{matrix}$
- $\lambda = 0$ $\sigma_1$ $\mathbf W^{(1)}$ $\mathbf{\vec b^{(1)}} = \mathbf{\vec 0}$ 时，上式退化为：
  $f (u_{i}, u_{j}) = {\tilde{\vec{u}}}_{j} \cdot {\vec{u}}_{i}$
  此时 SNE 退化为 node2vec 。
- $\lambda =1$ $\sigma_1$ $\mathbf{\vec b^{(1)}} = \mathbf{\vec 0}$ $\mathbf W^{(1)} = [\mathbf I, \mathbf I]$ 为两个单位矩阵拼接而成时，上式退化为：
  $\begin{matrix} f (u_{i}, u_{j}) = {\tilde{\vec{u}}}_{j} \cdot W^{(1)} [\begin{matrix} {\vec{u}}_{i} \\ {\vec{u}}_{i}^{'} \end{matrix}] = {\tilde{\vec{u}}}_{j} \cdot ({\vec{u}}_{i} + {\vec{u}}_{i}^{'}) = {\tilde{\vec{u}}}_{j} \cdot ({\vec{u}}_{i} + \sum_{s = 1}^{S} v_{s} {\vec{e}}_{s}) \end{matrix}$
  此时 SNE 退化为 SVD++ 。
通过 SNE 与一系列浅层模型的联系，我们可以看到我们设计 SNE 背后的合理性。具体而言，SNE 加深了浅层模型，从而捕获网络结构和属性之间的底层交互。在建模可能具有复杂的、非线性固有结构的真实世界数据时，我们的 SNE 更有表达能力，并且可以更好地拟合真实世界数据。

29.2 实验

这里我们对四个可公开访问的社交网络数据集进行实验，旨在回答以下研究问题。
- 与 state-of-the-art 的 network embedding 相比，SNE 能否学到更好的 node representation？
- 导致 SNE 学到更好 representation 的关键原因是什么？
- 更深的隐层是否有助于学到更好的社交网络 embedding ？
数据集：
- 社交网络：我们使用 Facebook 的两个网络，分别包含来自两所美国大学的学生： University of Oklahoma（OKLAHOMA）、University of North Carolina at Chapel Hill（UNC）。除了用户 ID 之外，还有七个用户属性：状态、性别、专业、第二专业、宿舍、高中、入学年份。注意，并非所有学生都有这七个属性，如在 UNC 数据集中的 18163 个学生中只有 4018 个学生包含所有属性。
- 引文网络：我们使用 DBLP 和 CITESEER 数据集，每个节点代表一篇论文。属性为去除停用词以及词干化之后每篇论文的标题和内容。DBLP 数据集由计算机科学四个研究方向的会议论文组成。CITESEER 数据集由来自十个不同研究领域的科学出版物组成。这些研究方向或研究领域在节点分类任务中被视为标签。

评估方式：我们采用了链接预测和节点分类任务。链接预测任务评估 node representation 在重建网络结构中的能力，节点分类评估 node representation 是否包含足够的信息用于下游应用。
- 链接预测任务：我们随机将 10% 的链接作验证集来调整超参数，随机将 10% 的链接作为测试集，剩下 80% 的链接作为训练集来训练 SNE 。由于测试集/验证集仅包含正样本，因此我们随机选择数量相等、不存在的边作为负样本。我们使用 AUROC 作为评估指标（ROC 曲线的面积），该指标越大越好。
- 节点分类任务：我们首先在训练集上训练模型（包含所有节点、所有边、所有属性，但是没有节点 label ），从而获得node embedding 。其中模型的超参数通过链接预测任务来选取。然后我们将 node embeddingLIBLINEAR $\rho\in \{10\%,30\%,50\%\}$ 的标记节点作为训练集，然后剩余的标记节点作为测试集。
  根据链接预测任务获取节点分类任务的超参数，这种做法可能不是最佳的，应该根据节点分类任务来得到模型超参数。但是这里是两阶段的，因此如何根据第二阶段的标签信息来得到第一阶段的模型超参数，这是一个问题。
  我们重复该过程十次并报告平均的 Macro-F1 和 Micro-F1 得分。注意：由于只有 DBLP 和 CITESEER 数据集包含节点的类别标签，因此仅针对这两个数据集执行节点分类任务。
baseline 方法：这里我们将 SNE 和若干个 state-of-the-art 的network embedding 方法进行比较。
- node2vec：基于有偏的随机游走产生节点序列，然后对节点序列应用 SkipGramnode embedding $p$ $q$ $p$ $q$ 设置为 1.0 时，node2vec 降级为 DeepWalk 。
- LINE：分别通过保持网络的一阶邻近性和二阶邻近性来为每个节点学习一阶邻近性 embedding 和二阶邻近性 embedding 。节点的 final embedding 为二者的拼接。
- TriDNR：通过耦合多个神经网络来联合建模网络结构、node-content 相关性、label-contentnode embedding $tw$ $[0.0,0.2,\cdots,1.0]$ 。
所有的 baseline 都采用原始作者发布的实现。注意，node2vec/LINE 都是仅考虑结构信息，为了和利用属性信息的 SNE 进行公平的比较，我们将它们学到的 node embedding 和属性向量拼接起来，从而扩展为包括属性的形式。我们称这类变体为 node2vec+attr 和 LINE+attr 。此外，我们了解到最近的 network embedding 工作 《Label informed attributed network embedding》 也考虑了属性信息，但是由于他们的代码不可用，因此我们没有进一步比较它。
SNE参数配置：
- 和node2vec/LINEembedding $d=128$ 。用于控制随机游走的超参数 p/q 和 node2vec 相同。
- 我们的实现基于 tensorflow ，选择 mini-batch 的 Adam 优化器，搜索的batch size 范围从 [8,16,32,64,128,256] ，搜索的学习率从 [0.1,0.01,0.001,0.0001] 。
- $\lambda$ $[0.0,0.2,\cdots,1.0]$ $\lambda=0$ 时SNE 退化为仅考虑网络结构。
- 我们使用 softsign 函数作为隐层激活函数。我们尝试了多种激活函数，最终发现 softsign的效果最好。
- 我们使用均值 0.0、标准差 0.01 的高斯分布来随机初始化模型参数。
- $L=2$ 。
下表给出了通过验证集择优的每种方法的最佳超参数。
不同方法在四个数据集上链接预测任务的效果如下图所示。为探索不同网络稀疏性条件下各方法的鲁棒性，我们改变了训练链接的比例并研究了性能的变化。
结论：
- SNE 在所有方法中效果最佳。值得注意的是：和单纯的基于网络结构的 node2vec/LINE 相比，SNE 在使用一半链接的条件下，性能更好。这证明了节点属性在链接预测方面的有效性，以及 SNE 通过节点属性学到更好的 node embedding 的合理性。
  此外，我们观察到 node2vec/LINE 在 DBLP 和 CITESEER 上的性能随着训练比例越低，性能下降的更为明显。原因是 DBLP/CITESEER 数据集本身的链接就很少，因此当训练链接的比例降低时，链接的稀疏问题变得更加严重。相反，当我们使用更少的链接进行训练时，我们的 SNE 表现出更高的稳定性。这证明了对属性建模是有效的。
- 聚焦于带属性的方法，我们发现集成属性的方式对于性能起着关键作用。
  - 带属性的 node2vec+attr/LINE+attr 相比 node2vec/LINE 略有改进，但是改进的幅度不大。这表明简单地将节点属性和 embedding 向量进行拼接的方式，无法充分利用属性中丰富的信号。这说明了将节点属性融合到网络 embedding 过程中的必要性。
  - SNE 始终优于 TriDNR。尽管 TriDNR 也是联合训练节点属性，但是我们的方法是在模型早期（输入层之后）就无缝地融合了属性信息，使得随后的非线性隐层可以捕获复杂的 ”网络结构-节点属性“ 交互信息，并学习更有效的 node embedding 。
- 在基于结构的 embedding 方法中，我们观察到 node2vec 在四个数据集中都优于 LINE。一个合理的原因是：通过在社交网络上执行随机游走，node2vec 可以捕获更高阶的邻近信息。相比之下，LINE 仅对一阶邻近性和二阶邻近性建模，无法为链接预测捕获足够的信息。为验证这一点，我们进一步探索了一个额外的 baseline：在随机游走时，选择和当前节点共享最多邻居的节点，从而直接利用二阶邻近性（即选择二阶邻近性最大的节点来游走）。不出所料，该baseline 在所有数据集上的表现都很差（低于每个子图的底线）。这再次表明需要建模网络的高阶邻近性。
  由于 SNE 使用和 node2vec 相同的随机游走过程，因此它可以从高阶邻近性中学习，并通过属性信息得到进一步补充。
不同方法在两个数据集上的节点分类任务效果如下表所示。性能趋势和链接预测任务中的趋势一致。
- 在所有情况下，SNE 方法均超越了所有 baseline 。
- 仅使用网络结构的 node2vec 和 LINE 表现最差，这进一步证明了社交网络上建模节点属性的有效性，并且正确建模属性信息可以导致更好的 representation learning 并有利于下游 application。
$\lambda$ $\lambda$ $\lambda\in \{0,0.01,0.1,1,10,100\}$ 时，SNE 模型的效果。我们以相同的方式来评估链接预测任务、节点分类任务，其中链接预测任务采用 80% 的链接作为训练集，节点分类任务采用 50% 的标记节点作为训练集。
$\lambda = 0$ $\lambda$ 较大时会近似于单纯的属性建模而不考虑网络结构信息。
- $\lambda\in [0,1]$ $\lambda$ $\lambda$ $[0,1]$ ，探索的步长为 0.2 。
- SNE $\lambda$ SNE $\lambda$ 从 0.0 增加到 0.2时，我们观察到 CITESEER 的性能显著提高。由于该数据集的链接较少，因此性能的提升表明属性有助于缓解链接稀疏问题。
- $\lambda =0$ 时（仅考虑网络结构信息）SNE 的效果优于 node2vecnode2vec $p,q$ ，因此我们认为性能的提升来自于隐层引入的非线性。
为了解 SNE 为什么要比其它方法效果好，这里我们对 DBLP 数据集进行研究。我们首先用每种方法学习每个节点的 embedding，然后给定 query paper 我们利用 node embedding 检索最相似的三篇论文。其中，相似性是通过 embedding 的余弦相似度来衡量。
为了和基于结构的方法进行公平比较，我们选择了 KDD 2006 的一篇热门论文 Group formation in large social networks: membership, growth, and evolution ，该论文引用量达到 1510 。根据这篇论文的内容，我们预期相关结果应该是关于社交网络中群体或社区的结构演变。不同embedding 方法检索到的最相关论文如下表。
结论：
- SNE 返回了非常相关的结果：三篇论文都是关于动态社交网络分析和社区结构的。
- 仅利用结构信息，node2vec 返回的结果似乎与 query 不太相似。node2vec 似乎倾向于找到相关性较低、但是引用率较高的论文。这是因为随机游走过程可能容易偏向于具有更多链接的热门节点。尽管 SNE 也依赖于随机游走，但是 SNE 可以通过利用属性信息在一定程度上纠正这种偏差。
- LINE 也返回了和 query 不太相似的结果。这可能是由于仅建模一阶邻近性和二阶邻近性，忽略了丰富的属性信息。
通过以上定性分析我们得出结论：使用网络结构和节点属性都有利于检索相似节点。和单纯的基于结构的 embedding 方法相比，SNE 返回的结果与 query 更为相关。值得注意的是，对于本次研究，我们特意选择了一个热门的节点来缓解稀疏性问题，这实际上有利于基于结构的方法。即便如此，基于结构的方法也无法识别相关的结果。这揭示了仅依赖网络结构进行社交网络 embedding 的局限性，也证明了对节点属性进行建模的重要性。
最后我们探索隐层对于 SNE 的影响。众所周知，增加神经网络的深度可以提高模型的泛化能力，但是由于优化困难这也可能降低模型性能。因此我们迫切想知道：使用更深层的网络是否可以提升 SNE 的性能。我们在 DBLP 上验证了SNE 模型不同数量的隐层对应的链接预测、节点分类任务的性能。在其它数据集上的结论也是类似的，因此我们仅以 DBLP 为例。由于最后一层隐层的大小决定了 SNE 模型的表达能力，因此我们将所有模型的最后一层隐层都设为 128 维从而公平地比较。对每个比较的模型，我们都重新调优超参数从而充分发挥模型的能力。
结论：
- 可以看到一个趋势：隐层越多模型性能越好。这表明在 SNE 中使用更深的网络效果更好。但是，其代价是更多的训练时间。在普通的商用服务器上（2.4GHz 的 Intel Xeon CPU），单层SNE 耗时 25.6秒/epoch、三层 SNE 耗时 81.9秒/epoch 。
- 我们停止探索更深层的模型，因为当前的 SNE 使用全连接层，而深层的全连接层很难优化。并且很容易随着层的加深出现过拟合 over-fitting 和退化 degrading 。表中效果提升的衰减也暗示了这一点。
  为了解决该问题，我们建议采用现代的神经网络设计方法，如残差单元 residual unit 或highway network 。我们将该工作留给未来的工作。
- 值得注意的是：当没有隐层时SNE 的性能会很差，与 TriDNR 处于同一水平。当增加了一层隐层时，模型效果大幅提升。这证明了以非线性方式学习 “网络结构 -- 节点属性” 交互的有效性。为证明这一点，我们进一步尝试在隐层使用恒等函数 identity 替代 softsign 激活函数，最终效果要比非线性 softsign 激活函数差得多。

三十、ProNE[2019]

在过去的几年里，representation learning 为网络挖掘和分析提供了一种新的范式。representation learning 的目标是将网络结构投影到一个连续的 embedding 空间，同时保持网络的某些属性。广泛的研究表明，学到的 embedding 可以使得众多的数据挖掘任务受益。
network embedding 的最新进展大致可以分为三类：基于矩阵分解的方法，如 SocDim, GraRep, HOPE, NetMF；基于 SkipGram 的模型，如 DeepWalk, LINE, node2vec；基于图神经网络graph neural network: GNN的方法，如 Graph Convolution, GraphSage, Graph Attention。通常，前两种方法预训练的 embedding 被输入到下游任务的学习模型中。因此，高效地生成有效的 network embedding 从而服务于大型网络application 至关重要。然而，大多数现有模型都聚焦于提高 embedding 的效果effectiveness ，使得模型的效率efficiency 和可扩展性scalabilityGraRep $O(n^3)$ $n$ 为网络中的节点数量，这使得在大型网络中的计算成本太高。在基于 SkipGram 的模型中，当使用默认超参数时，在现代服务器上使用 20 个线程来学习一亿个节点、五亿条边的网络的 embedding，LINE 将花费数周时间，DeepWalk/node2vec 将花费数月时间。
为了解决当前工作的效率和可扩展性的限制，论文《ProNE: Fast and Scalable Network Representation Learning》 提出了一种高效的、且可扩展的 network embedding 算法 ProNE。ProNE 的总体思想是：首先以有效的方式初始化 network embedding，然后增强这些 embedding 的表达能力。受大多数真实网络的长尾分布及其产生的网络稀疏性network sparsity 的启发，第一步是通过将 network embedding 形式化为稀疏矩阵分解来实现。第二步是利用高阶 Cheeger 不等式对初始化的 embedding 进行谱域传播，目标是捕获网络的局部平滑localized smoothing 信息和全局聚类global clustering 信息。
这种设计使得 ProNE 成为一个速度极快的 embedding 模型，同时保持效果上的优势。论文在五个真实世界网络和一组随机网络上进行了实验。大量实验表明，单线程 ProNE 模型要比具有 20 个线程的、流行的 network embedding benchmark （包括 DeepWalk, LINE, node2vec ）快大约 10 ~ 400 倍，如下图所示。论文的可扩展性分析表明，ProNE 的时间成本与network volume 和 network density 呈线性相关，使得 ProNE 可以扩展到数十亿规模的网络。事实上，通过仅使用一个线程，ProNE 只需要 29 个小时来学习上述一亿个节点的网络的 embedding 。注意，ProNE 也很容易并行化。
除了效率和可扩展性优势之外，ProNE 在多标签节点分类任务的所有数据集中也始终优于所有 baseline。更重要的是，ProNE 中的第二步（即，谱域传播 spectral propagation ）是增强 network embedding 的通用框架。通过将 DeepWalk, LINE, node2vec, GraRep, HOPE 生成的 embedding 作为输入，论文的谱域传播策略在一秒钟内为所有这些 embedding 进行了增强，并带来了平均 +10% 的相对提升。
这篇论文的基本思想是：首先训练一个 initial embedding ，然后通过消息传递机制在network 上传播这个 initial embedding 从而 refine 。它复用了标签传播的思想，并没有太大的创新。至于 initial embedding 方法可以有多种选择，不一定必须采用论文中提到的方法。
相关工作：最近出现的 network embedding 很大程度上是由 SkipGram 在自然语言和网络挖掘中的应用所引发的。network embedding 的历史可以追溯到谱聚类 spectral clustering 和社交维度学习 social dimension learning 。在 network embedding 的发展过程中，大多数方法旨在隐式地或显式地建模节点之间分布式distributional 的相似性。
受word2vec 模型的启发，人们已经提出了一系列基于 SkipGram 的 embedding 模型，用于将网络结构编码为连续空间，如 DeepWalk, LINE, node2vec 。最近的一项研究 《Neural word embedding as implicit matrix factorization》 表明，基于 SkipGram 的 network embedding 可以理解为隐式矩阵分解。此外，受到该研究的启发，《Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec》 提出了 NetMF 模型来执行显式矩阵分解从而学习 network embedding 。NetMFNetMF $O(n^3)$ $n$ 为网络节点数量），而我们的 ProNEnetwork embedding $O(|\mathcal E|)$ $|\mathcal E|$ 为网络中边的数量）。
其它一些近期的、基于矩阵分解的 network embedding 模型包括 GraRep 和 HOPE 。谱域的network emebdding 与谱域降维方法有关，例如 Isomap、Laplacian Eigenmap 、spectral clustering 。这些基于矩阵分解的方法通常需要昂贵的计算、以及过多的内存消耗，因为它们的时间复杂度和空间复杂度都很高。
另一个重要的工作方向是将图谱 graph spectral 推广到监督的 graph learning 中，如图卷积网络 graph convolution network: GCN 。在 GCN 中，卷积操作是在谱空间中定义的，参数化的 filter 是通过反向传播来学习的。与它们不同的是，我们的 ProNE 模型具有一个带通滤波器 band-pass filter （该滤波器的参数是人为设定的，因此不需要学习），该滤波器同时结合了空间局部平滑spatial locality smoothing 和全局聚类global clustering 两个特点。此外，ProNE 是一种无监督且任务无关的模型，旨在预训练通用的 embedding，而大多数 GCN 是以辅助特征side feature （例如由 ProNE 学到的 network embedding ）作为输入的监督学习。

30.1 模型

$G=(\mathcal V,\mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ $\mathbf A$ $G$ degree matrix $\mathbf D = \text{diag}(D_{i,i})$ $D_{i,i} = \sum_j A_{i,j}$ 。这里我们仅考虑无向图（不考虑有向图），边可以是带权重的也可以是无权重的。
$G=(\mathcal V,\mathcal E)$ network embedding $f: \mathcal V\rightarrow \mathbb R^d,d\ll n$ $v_i$ $\mathbf{\vec v}_i\in \mathbb R^d$ $\mathbf{\vec v}_i$ 捕获了网络结构信息。广泛的研究表明，学到的 node representation 可以使得各种下游的图挖掘任务受益。然而，目前的一个主要挑战是：大多数network embedding 模型处理大规模网络在计算上不可行。例如，即使使用 20 个线程，DeepWalk 学习一个包含一亿节点的稀疏图的embedding 需要耗时几个月。
我们提出的ProNE是一种用于大规模网络的 embedding 的非常快速且可扩展的模型，它由两个步骤组成，如下图所示：
- 首先 ProNE 将network embedding 建模为稀疏矩阵分解，从而获得节点的有效初始 embedding。
- 然后 ProNE 利用高阶 Cheeger 不等式来调制 modulate 谱域空间，并在调制后的谱域空间传播学到的 embedding ，从而集成了局部平滑信息和全局聚类信息。

30.1.1 稀疏矩阵分解

分布式假设 distributional hypothesis 启发了最近出现的 word embedding 和 network embedding。这里我们展示了如何将基于分布式相似性 distributional similarity-based 的 network embedding 形式化为矩阵分解。
network embedding 作为稀疏矩阵分解：通常我们利用结构上下文structural context 来建模节点相似性。我们建议利用最简单的结构，即 edge ，来表示 node-context 的 pairnode-context $\mathcal D$ $\mathcal D = \mathcal E$ $v_i$ context $v_j$ $\hat p_{i,j} = \sigma(\mathbf{\vec c}_j \cdot \mathbf{\vec v}_i)$ $\sigma(\cdot)$ sigmoid $\mathbf{\vec c}_j$ $v_j$ context embedding $\mathbf{\vec v}_i$ $v_i$ 的 embedding 。
这里我们的上下文只考虑直接相连的节点（即，随机游走序列中的上下文窗口大小为 1 ）。
$\mathcal L = -\sum_{(v_i,v_j)\in \mathcal D} \log \hat p_{i,j}$ 。考虑到不同节点的 degree 不同，因此我们对损失函数进行加权：
$L = - \sum_{(v_{i}, v_{j}) \in D} p_{i, j} \times \log {\hat{p}}_{i, j}$
$p_{i,j} = A_{i,j}/ D_{i,i}$ $(v_i,v_j)$ $v_i$ $\hat p_{i,j}$ 的预估越重要。
$v_i,v_j$ $\hat p_{i,j} = 1$ $(v_i,v_j)$ $\mathcal L$ 只有“正边”、没有“负边”（即不存在的链接）。因此我们将损失函数修改为：最大化“正边”概率，且最小化“负边”概率。
$\lambda$ $v_j$ $P_{\mathcal D,j}$ ，则有：
$L = - \sum_{(v_{i}, v_{j}) \in D} (p_{i, j} \times \log σ ({\vec{c}}_{j} \cdot {\vec{v}}_{i}) + \sum_{k = 1, v_{k} \in V}^{k = λ} P_{D, k} \times \log σ (- {\vec{c}}_{k} \cdot {\vec{v}}_{i}))$
$\mathcal P_{\mathcal D,j}$ 定义为：
$P_{D, j} \propto {(\sum_{v_{i} : (v_{i}, v_{j}) \in D} p_{i, j})}^{α} = {(\sum_{v_{i} : (v_{i}, v_{j}) \in D} \frac{A_{i, j}}{D_{i, i}})}^{α}$
$\alpha = 1.0$ $0.5$ 。
$\frac{\partial \mathcal L}{\partial (\mathbf{\vec c}_j \cdot \mathbf{\vec v}_{i })} = 0$ ，我们得到：
${\vec{c}}_{j} \cdot {\vec{v}}_{i} = \log p_{i, j} - \log (λ P_{D, j}), (v_{i}, v_{j}) \in D$
proximity matrix $\mathbf M$ 为：
$\begin{matrix} M_{i, j} = {\begin{cases} \log p_{i, j} - \log (λ P_{D, j}), & (v_{i}, v_{j}) \in D \\ 0, & (v_{i}, v_{j}) \notin D \end{cases} \end{matrix}$
network embedding $\mathbf M$ 进行矩阵分解。我们使用谱方法，截断的奇异值分解truncated Singular Value Decomposition:tSVD ，来求解，即：
$M ≃ U_{d} Σ_{d} V_{d}^{⊤}$
$\Sigma_d$ top d $\mathbf U_d$ $\mathbf V_d$ 分别为奇异值分解中对应的分解矩阵的前 d 列。
$\mathbf U_d \Sigma_d^{1/2}$ embedding $i$ $v_i$ 的 embedding 向量。
$\mathbf M$ $\mathbf M$ 为一个稀疏矩阵。
用于快速 embedding 的稀疏化随机 tSVD ：虽然可以通过矩阵分解来求解 network embedding，但是在大规模矩阵上执行 tSVD 的时间复杂度、空间复杂度仍然非常高。为了实现快速的 network emebdding ，我们建议使用随机 tSVD。根据随机矩阵理论，该方法可以大大加快 tSVD 的速度，并具有理论的近似保证。
- $\mathbf Q\in \mathbb R^{n\times d}$ $d$ $\mathbf M\simeq \mathbf Q\mathbf Q^\top \mathbf M$ 。
- $\mathbf Q$ $\mathbf H = \mathbf Q^\top\mathbf M\in \mathbb R^{d\times n}$ ，它是一个小得多的矩阵，并可以通过标准的 SVD 进行高效地分解。
- $\mathbf H = \mathbf S_d\Sigma_d\mathbf V_d^\top$ $\mathbf M\simeq \mathbf Q\mathbf Q^\top \mathbf M =( \mathbf Q\mathbf S_d)\Sigma_d\mathbf V_d^\top$ embedding $( \mathbf Q\mathbf S_d)\Sigma_d^{1/2}$ $\mathbf S_d\in \mathbb R^{d\times d}$ 。
$\mathbf Q$ ：
- $n\times d$ $\mathbf\Omega\in \mathbb R^{n\times d }$ $\Omega_{i,j}\in \mathcal N(0,\frac 1d)$ 。
- $\mathbf Y = \mathbf M \mathbf\Omega$ $\mathbf Y$ QR $\mathbf Y = \mathbf Q\mathbf R$ $\mathbf Q\in \mathbb R^{n\times d}$ 就是我们希望找到的。
已有工作证明，基于 SkipGramnetwork embedding $O(n^3)$ $O(|\mathcal E|)$ 。

30.1.2 embedding 谱域传播

与 DeepWalk,LINE 等其它流行方法类似，通过稀疏矩阵分解得到的 embedding 仅捕获局部结构信息。为了进一步集成全局网络属性（如社区结构），我们提出在谱域中传播 embedding 。注意，该策略是通用的，也可用于提升现有的 embedding 模型。
network embedding 与 graph spectrum 和 graph partition 的关联：高阶 Cheeger 不等式表明，graph spectral 中的特征值与网络的空间局部平滑 spatial locality smoothing 、全局聚类global clustering 密切相关。我们首先介绍公式，然后展示如何帮助增强 network embedding 。
在图论中，归一化的图拉普拉斯矩阵定义为：
$L = I - D^{- 1} A$
$\mathbf L$ $\mathbf L = \mathbf U \Lambda \mathbf U^{-1}$ ，其中：
- $\Lambda = \text{diag}(\lambda_1,\cdots,\lambda_n)$ $0=\lambda_1\le \cdots\le \lambda_n$ $\mathbf L$ 的特征值。
- $\mathbf U$ $i$ $\lambda_i$ 对应的特征向量。
$\mathbf{\vec x}$ $\hat{\mathbf{\vec x}} = \mathbf U^{-1} \mathbf{\vec x}$ $\mathbf{\vec x}= \mathbf U \hat{\mathbf{\vec x}}$ $\mathbf D^{-1}\mathbf A \mathbf{\vec x}$ $\mathbf{\vec x}$ 通过傅里叶变换转换到谱域，然后在谱域根据拉普拉斯矩阵的特征值进行缩放，最后把谱域缩放后的信号逆变换为空域。
$\mathbf D^{-1}\mathbf A \mathbf{\vec x}$ $\frac{A_{i,j}}{D_{i,i}}$ 。
$G$ $\mathcal S\sube \mathcal V$ ，我们通过定义 Cheeger 常数来衡量图的划分效果：
$C_{S} = \frac{| E (S) |}{min (vol (S), vol (V - S))}$
$\mathcal E(\mathcal S)$ $\mathcal S$ $\mathcal S$ $\text{vol}(S)$ $\mathcal S$ 中所有节点的 degree 之和。
Cheeger $\mathcal S$ $\mathcal V-\mathcal S$ 中节点的一条边，这条边扩展到集合外的概率。
$G$ 的一个 k-way 划分：
$\begin{matrix} S_{1} \cup S_{2} \cup \dots \cup S_{k} = V \\ S_{1} \cap S_{2} = S_{1} \cap S_{3} = \dots = S_{k - 1} \cap S_{k} = ϕ \end{matrix}$
定义 kCheeger $\rho_G(k) = \max\{C_{\mathcal S_i} \}$ $k$ 个部分的效果，取值越小则说明划分得越好。高阶 Cheeger 不等式给出了graph partition 和 graph spectrum之间的联系：
$\frac{λ_{k}}{2} \leq ρ_{G} (k) \leq O (k^{2}) \sqrt{λ_{k}}$
可以看出：
- $\lambda_k =0$ $\rho_G(k)=0$ 来导出。
- 小特征值通过将网络划分为几个大的部分，从而控制网络的全局聚类效果；大特征值通过将网络划分为很多小部分，从而控制网络的局部平滑效果。
  这启发我们通过在划分后的（或者说调制后的）网络的谱域中传播 embedding，从而将全局信息和局部信息集成到 network embedding 中。
node embedding $\mathbf R_d$ ，经过谱域空间传播后的 embedding 为：
$R_{d} \leftarrow (I - \tilde{L}) R_{d}$
其中：
- $\tilde{\mathbf L} = \mathbf U g(\Lambda) \mathbf U^{-1}$ $g$ modulated $g$ 称作谱域调制器 spectral modulator 。
- $(\mathbf I - \tilde{\mathbf L})$ $g$ $\mathbf I - \mathbf L = \mathbf D^{-1} \mathbf A$ 。
为同时考虑全局结构信息和局部结构信息，我们选择谱域调制器为：
$g (λ) = \exp (- \frac{1}{2} ((λ - μ)^{2} - 1) θ)$
$\mu$ $\theta$ $g(\lambda)$ $\rho_G(k)$ 针对 toptop $\tilde{\mathbf L} = \mathbf U\text{diag}(g(\lambda_1),\cdots,g(\lambda_n)) \mathbf U^\top$ 。
为什么选择这种结构的谱域调制器，作者并未说明原因。另外，是否可以考虑简单地邻域聚合方式来 refine embedding 。
注意：
- 带通滤波器是通用的谱域网络调制器，也可以使用其它类型的滤波器。
- $\tilde{\mathbf L}$ 的显式特征值分解和傅里叶变换。
- 为了保持由稀疏 tSVDembedding $\mathbf R_d$ 上应用 SVD 。
算法复杂度：
- $\mathbf H$ SVD $O(n\times d^2)$ $\mathbf Y$ QR $O(n\times d^2)$ 。
- $|\mathcal E|\ll n\times n$ $\mathbf M$ $\mathbf M$ $O(|\mathcal E|)$ 。
$O(n\times d^2 + |\mathcal E|)$ $\tilde{\mathbf L}$ embedding $O(k\times |\mathcal E| + n\times d^2)$ ProNE $O(n\times d^2 + k\times |\mathcal E|)$ $k$ ProNE $O(n\times d + |\mathcal E|)$ 。
并行性：ProNE 计算的主要时间消耗在稀疏矩阵乘法上，用单线程来处理足够高效，因此ProNE 主要是单线程的。另外，目前稀疏矩阵乘法的并行化已经取得了一些进展，我们预期将来可以通过多线程的稀疏矩阵乘法进一步提升ProNE 的训练效率。

30.2 实验

数据集：我们使用五个广泛使用的数据集来证明 ProNE 的有效性，另外我们还使用一组人工合成网络来评估其效率和可扩展性。
- BlogCatalog 数据集：一个社交博客网络，其中博主的兴趣作为label 。
- Wiki 数据集： Wikipedia dump 文件前一百万个字节中的单词共现网络，其中节点标签是单词的的词性 tag 。
- PPI 数据集：一个 PPI 网络的子集，其中节点标签是从基因组中提取的，代表生物学状态。
- DBLP 数据集：一个学术引文网络，节点代表作者，会议conference 为标签。
- YouTube 数据集：一个 YouTube 用户之间的社交网络，其中节点标签代表基于所喜欢视频类型的用户分组。
baseline 方法：我们将 ProNE 和流行的 baseline 比较，其中包括基于 SkipGram 的方法（DeepWalk, LINE, node2vec ），以及基于矩阵分解的方法（GraRep, HOPE ）。
我们并未考虑基于卷积的方法，因为大多数基于卷积的方法都是监督的或半监督的，这要求额外的标签信息。
配置：
- embedding $d=128$ 。对其它超参数，我们使用原始论文中的值。
- 对于 DeepWalk,node2vec，我们选择窗口大小为 10，每个节点开始的随机游走序列的数量为 10，随机游走序列长度为 40 。
- node2vec $p,q$ 的搜索空间为 {0.25,0.50,1,2,4} 。
- LINE $k=5$ $T=r\times t\times |\mathcal V|$ 。
- 对于 GraRepembedding $d=128$ 。
- HOPE $\beta$ 根据作者的代码来计算，并从 (0,1) 之间搜索最佳的值。
- ProNE $k=10$ $\mu = 0.1$ $\theta = 0.5$ 。
运行配置：在 Intel Xeno(R) CPU E5-4650(2.70GHz) ，以及 1T RAM 的 Red Hat server 上运行。
评估方式：我们随机抽取不同比例的标记节点从而训练 liblinear 分类器，并将剩余的标记节点用于测试。我们重复训练和预测十次，报告平均的 Micro-F1 。Macro-F1 的结果也类似，但是由于篇幅有限我们并未显示。
我们根据 wall-clock 时间来评估算法效率，并通过多种规模的网络中的学习时间来分析 ProNE 的可扩展性。
效率：我们比较了不同方法的训练时间，并展示了 ProNE 的可扩展性，如下图所示（单位为秒）。我们仅给出最快的三个 baseline 方法，因为矩阵分解的baseline 方法 GraRep, HOPE 比它们要慢得多。
注意：所有baseline 都使用了 20 个线程，而 ProNE 仅使用单个线程。
结论：单线程 ProNE 模型比 20 线程的 LINE, DeepWalk, node2vec 模型快 10~400 倍，也远远超越了其它矩阵分解方法。
可扩展性：我们通过人工合成网络来评估 ProNE 的可扩展性。首先我们生成节点 degree 固定为 10 的随机图，节点规模从 1000 到 1 亿。
- 图 (a) 给出不同大小随机图上 ProNE 的学习时间，这表明 ProNE 的时间代价随着网络规模的增加而线性增加。
  我们在图上也标注出 ProNE 在五个真实数据集上的学习时间，其趋势也是和网络规模呈线性。另外，蓝色曲线表示 ProNE 的稀疏矩阵分解sparse matrix factorization:SMF 的时间代价。
- 图 (b) 给出了 ProNE 在固定大小的 1 万个节点上，且节点 degree 从 100 到 1000 之间变化的随机图上的学习时间。可以看到：ProNE 的学习效率和网络密度线性相关。
结论：ProNE 是一种可扩展的 network embedding 方法，它可以处理大规模、稠密的网络。
效果：我们在下表给出了不同模型预测的效果（给出了Micro-F1 的均值和标准差）。除了 ProNE，我们还报告了 ProNE 中由稀疏矩阵分解 SMF 步骤生成的初始 embedding 结果。另外对于 YouTube，node2vec 在五天内无法完成，而 HOPE,GraRep 由于内存消耗太多而无法处理。
结论：
- ProNE 在五个数据集中始终比 baseline 效果更好，这证明了其有效性。
- ProNE 中第一步使用的简单稀疏矩阵分解 SMF 的效果与 baseline 相比相差无几甚至更好。随着谱域传播技术的进一步结合，由于有效地建模了局部结构平滑信息和全局聚类信息，ProNE 在所有 baseline 中产生了最佳性能。
用于 embedding 增强的谱域传播：最后我们将 DeepWalk, LINE, node2vec, GraRep, HOPE 学到的 embedding 输入到 ProNE 的谱域传播步骤中。下图显示了 Wiki 上的原始结果和增强结果（称作 ProBaseline ），说明了 Pro 版本对所有五个 baseline 的显著改进。平均而言，我们的谱域传播策略可以为所有方法提供 +10% 的相对提升，例如HOPE 的改善为 25% 。另外，所有增强实验都在1 秒钟内完成。
结论：ProNE 的谱域传播是有效的，并且是改善 network embedding 的通用且高效策略。