2018_xDeepFM

一、xDeepFM [2018]

《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》

特征在很多预测系统（predictive system）的成功中起着核心作用。因为使用原始特征很少能带来最佳结果，所以数据科学家通常会在原始特征的转换（transformation）上花费大量工作，从而生成最佳预测系统或赢得数据挖掘（data mining）游戏。
特征转换的一种主要类型是对离散特征（categorical feature）的叉积（cross-product）转换。这些特征称作交叉特征（cross feature）或者多路特征（multi-way feature），用于衡量多个原始特征的交互（interaction）。例如，如果用户在微软亚研院工作，并且在周一看到一篇关于深度学习的技术文章，那么 3-way 特征 AND(user_organization=msra, item_category=deeplearning, time=monday) 取值为 1 。
传统的交叉特征的特征工程存在三个主要缺点：
- 首先，获得高质量的特征需要付出高昂的代价。由于正确的特征通常是特定于任务的（task-specific），因此数据科学家需要花费大量时间从产品数据中探索潜在模式，然后才能成为领域专家（domain expert）并提取有意义的交叉特征。
- 其次，在 web-scale 推荐系统等大规模预测系统中，大量的原始特征使得手动提取所有交叉特征变得不可行。
- 第三，手动制作的交叉特征无法推广到训练数据中未见（unseen）的交互。
因此，在无需手动特征工程的情况下学习交叉特征是一项有意义的任务。
Factorization Machine: FM $i$ $\mathbf{\vec v}_i = (v_{i,1},\cdots,v_{i,D})^\top\in \mathbb R^D$ 中，pairwise 特征交互被建模为潜在向量的内积：
$f^{(2)} (i, j) = ({\vec{v}}_{i}^{⊤} {\vec{v}}_{j}) x_{i} x_{j}$
$x_i$ $i$ $x_j$ $j$ bit $v_{i,1}$ ）。
经典的 FM 可以扩展到任意的高阶特征交互（即 HOFM），但是一个主要缺点是：HOFM 提出对所有特征交互进行建模，包括有用的组合以及无用的组合。正如 AFM 所揭示的，跟无用特征的交互可能会引入噪声并降低性能。
近年来深度神经网络 DNN 凭借强大的 feature representation learning 能力，在计算机视觉、语音识别、自然语言处理方面取得了成功。 DNN 很有希望用于学习复杂的、有选择性的特征交互。
- 《Deep learning over multi-field categorical data》 提出 Factorization-machine supported Neural Network: FNN 来学习高阶特征交互。在应用 DNN 之前，FNN 使用预训练的 FM 用于 field embedding 。
- 《Product-based neural networks for user response prediction》 进一步提出了 Product-based Neural Network: PNN 。PNN 在 embedding layer 和 DNN layer 之间引入了一个 product layer，并且不依赖于预训练的 FM。
  FNN 和 PNN 的主要缺点是它们更关注于高阶特征交互，而很少捕获低阶特征交互。
- Wide & Deep 和 DeepFM 模型通过引入混合架构克服了这个问题，其中包含一个浅层组件和一个深层组件，目的是同时学习 memorization 和 generalization 。因此，他们可以共同学习低阶特征交互和高阶特征交互。
所有上述模型都利用 DNN 来学习高阶特征交互。然而，DNN 以隐式方式对高阶特征交互进行建模。DNN 学习到的最终函数可以是任意的，对于特征交互的最大阶次（maximum degree）是什么，并没有理论上的结论。此外，DNN 在 bit-wise level 对特征交互进行建模，这与传统的 FM 框架在 vector-wise level 对特征交互进行建模不同。因此，在推荐系统领域，DNN 是否确实是表达高阶特征交互的最有效模型仍然是一个悬而未决的问题。
在论文 《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》 中，作者提出了一种基于神经网络的模型，以显式的、vector-wise 方式学习特征交互。论文的方法基于深度交叉网络（Deep & Cross Network: DCN），旨在有效地捕获有界阶次（bounded degree）的特征交互。然而，作者将在论文中论证 DCN 将导致一种特殊的交互形式。因此，论文设计了一种新颖的压缩交互网络（compressed interaction network: CIN）来代替 DCN 中的交叉网络。CIN 显式地学习特征交互，交互的阶次（degree）随着网络深度的增加而增长。
遵循 Wide & Deep 和 DeepFM 模型的精神，论文将具有隐式交互模块的显式高阶交互模块与传统 FM 模块相结合，并将联合模型命名为 eXtreme Deep Factorization Machine: xDeepFM 。新模型不需要手动特征工程，并将数据科学家从繁琐的特征搜索工作中解放出来。总而言之，论文的贡献如下：
- 提出了一种名为 eXtreme Deep Factorization Machine: xDeepFM 的新模型。xDeepFM 可以有效地联合学习显式高阶特征交互和隐式高阶特征交互，并且不需要手动特征工程。
- 在 xDeepFM 中设计了一个压缩交互网络（compressed interaction network: CIN）。CIN 可以显式地学习高阶特征交互。论文表明特征交互的阶次在每一层都会增加，并且特征在 vector-wise level 而不是 bit-wise level 交互。
- 对三个真实世界的数据集进行了大量实验，结果表明 xDeepFM 显著优于几个 SOTA 的模型。
相关工作：
- 经典的推荐系统
  - non-factorization 模型：对于 web-scale 的推荐系统，输入特征通常是稀疏的、categorical-continuous 混合的、高维的。
    线性模型（例如具有 FTRL 的逻辑回归模型）因为易于管理、维护、部署而被广泛采用。由于线性模型缺乏学习特征交互的能力，数据科学家不得不在交叉特征的特征工程上花费大量的工作才能获得更好的性能。
    考虑到一些隐藏特征（hidden feature）很难手动设计，一些研究人员利用提升决策树（boosting decision tree: BDT）来帮助构建特征变换。
  - factorization 模型：上述模型的一个主要缺点是它们无法推广到训练集中未见（unseen）的特征交互。
    分解机（Factorization Machine: FM）通过将每个特征嵌入到一个低维潜在向量中从而克服这个问题。矩阵分解（Matrix Factorization: MF）仅仅将 ID 视为特征，可以看作是一种特殊的 FM。推荐是通过两个潜在向量的乘积而做出的，因此不需要用户和 item 在训练集中同时出现。MF 是推荐系统文献中最流行的 model-based 协同过滤（collaborative filtering: CF）方法。一些工作将 MF 扩展到利用辅助信息（side information），其中包括线性模型和 MF 模型。
    另一方面，对于很多推荐系统只有隐式反馈数据集，如用户的观看历史和浏览活动可用。因此，研究人员将 factorization 模型扩展到 Bayesian Personalized Ranking: BPR 框架从而用于隐式反馈。
- 深度学习的推荐系统：深度学习技术在计算机视觉、语音识别、自然语言理解方面取得了巨大成功。因此，越来越多的研究人员对于DNN 用于推荐系统感兴趣。
  - 深度学习用于高阶交互：为了避免手动构建高阶交叉特征，研究人员将 DNN 应用于 field embedding，从而可以自动学习来自离散特征交互（categorical feature interaction）的模式。代表性模型包括 FNN、PNN、DeepCross、NFM、DCN、Wide & Deep、DeepFM。这些模型与我们提出的 xDeepFM 高度相关。我们将在下文中对它们进行回顾。我们将证明，与这些模型相比，我们提出的 xDeepFM 具有两个特殊属性：xDeepFM 同时以显式方式和隐式方式学习高阶特征交互；xDeepFM 在 vector-wise level 而不是 bit-wise level 学习特征交互。
  - 深度学习用于精细的 Representation Learning：这里我们给出一些基于深度学习的推荐系统，它们不太关注于学习特征交互。
    - 一些早期的工作主要使用深度学习来对辅助信息进行建模，例如视觉数据和音频数据。
    - 最近，深度神经网络被用于对推荐系统中的协同过滤CF 进行建模。《Neural collaborative filtering》 提出了一种神经协同过滤（Neural Collaborative Filtering: NCF），以便可以通过神经架构用任意函数替换 MF 中的内积。
    - 《Autorec: Autoencoders meet collaborative filtering》 和 《Collaborative denoising auto-encoders for top-n recommender systems》 基于自编码器范式建模 CF，他们通过实验证明了基于自编码器的 CF 优于几个经典的 MF 模型。自编码器可以进一步用于联合建模 CF 和辅助信息，从而生成更好的潜在因子。
    - 《A multi-view deep learning approach for cross domain user modeling in recommendation systems》 和 《CCCFNet: a content-boosted collaborative filtering neural network for cross domain recommender systems》 使用神经网络联合训练多个 domain 的潜在因子。
    - 《Attentive collaborative filtering: Multimedia recommendation with item-and component-level attention》 提出了注意力协同过滤（Attentive Collaborative Filtering: ACF），从而同时在 item-level 和 component-level 学习更精细的偏好。
    - 《Deep interest network for click-through rate prediction》 表明传统的推荐系统无法有效地捕获兴趣多样性（interest diversity）和局部激活（local activation），因此他们引入了深度兴趣网络（Deep Interest Network: DIN）来通过注意力激活机制（attentive activation mechanism）来表达用户的多样化兴趣。

1.1 基本概念

embedding 层（Embedding Layer）：在计算机视觉或自然语言理解中，输入数据通常是图像信号或文本信号，这些信号在空间或/和时间上是相关的，因此 DNN 可以直接应用于具有稠密结构（dense structure）的原始特征。然而，在 web-scale 的推荐系统中，输入特征稀疏、维度巨大，并且没有明显的空间相关性或时间相关性。因此，multi-field 的 categorical 形式被广泛采用。例如，一个样本的输入 [user_id=s02,gender=male, organization=msra,interests=comedy&rock] 通常通过 field-aware 的 one-hot 编码转换为高维稀疏特征：
$[\underset{user id}{\underset{⏟}{0, 1, 0, \dots, 0}}] [\underset{gender}{\underset{⏟}{1, 0}}] [\underset{organization}{\underset{⏟}{0, 1, 0, 0, \dots, 0}}] [\underset{interests}{\underset{⏟}{0, 1, 0, 1, \dots, 0}}]$
embedding layer 应用于原始特征输入从而将其压缩为低维、稠密的实值向量。
- 如果field 是单值（univalent）的，则使用 feature embedding 作为 field embedding。例如，将特征 male 的 embedding 作为 field gender 的 embedding。
- 如果 field 的多值（multivalent）的，则使用 feature embedding 的 sum 作为 field embedding。
embedding layer 如下图所示，embedding size = 4 。
embedding layer 的结果是一个宽的、拼接的向量：
$\vec{e} = [{\vec{e}}_{1} ∥ {\vec{e}}_{2} ∥ \dots ∥ {\vec{e}}_{m}] \in R^{m D}$
$m$ field $\|$ $\mathbf{\vec e}_i\in \mathbb R^D$ field $i$ 的 embedding 。
embedding size $mD$ $D$ 为 field embedding 维度。
隐式高阶交互（Implicit High-order Interactions）：FNN、Deep Crossing、Wide & Deep 中的 deepfield embedding $\mathbf{\vec e}$ 之上的前馈神经网络来学习高阶特征交互。前向传播过程为：
$\begin{matrix} {\vec{x}}^{(1)} = σ (W^{(1)} \vec{e} + {\vec{b}}^{(1)}) \\ {\vec{x}}^{(k)} = σ (W^{(k)} {\vec{x}}^{(k - 1)} + {\vec{b}}^{(k)}) \end{matrix}$
$k$ $k$ $\sigma(\cdot)$ $\mathbf{\vec x}^{(k)}$ $k$ $\mathbf W^{(k)},\mathbf{\vec b}^{(k)}$ $k$ 层的参数。
这个前向传播过程的视觉结构（visual structure）和下图中所示的网络结构（PNN 和 DeepFM ）非常相似，只是这个前向传播过程不包含 FM Layer 或者 Product Layer。这个前向传播过程以 bit-wise 方式对交互进行建模。也就是说，即使是同一个 field embedding 内的元素也会相互影响。
PNN 和 DeepFMembedding $\mathbf{\vec e}$ 上应用 DNN 之外，它们还在架构中添加了 2-way 的交互层（interaction layer）（PNN 的 product layer、DeeFM 的 FM layer）。因此，它们的模型中同时包含了 bit-wise 交互和 vector-wise 交互。PNN 和 DeepFM 的主要区别在于：PNN 将 product layer 的输出连接到 DNN，而 DeepFM 将 FM layer 直接连接到输出单元，如下图所示。图中的红色连线代表 weight-1 的连接、灰色连线代表神经网络连接红色，另外 DeepFM 忽略了线性回归部分。
显式高阶交互（Explicit High-order Interactions）：DCN 提出了交叉网络（Cross Network: CrossNet），其架构如下图所示。DCN 旨在显式地对高阶特征交互进行建模。和经典的全连接前馈神经网络不同，DCN 的隐层通过以下交叉操作（cross operation）计算：
${\vec{x}}_{k} = {\vec{x}}_{0} {\vec{x}}_{k - 1}^{⊤} {\vec{w}}_{k} + {\vec{b}}_{k} + {\vec{x}}_{k - 1}$
$\mathbf{\vec w}_k,\mathbf{\vec b}_k,\mathbf{\vec x}_k\in \mathbb R^{mD}$ $k$ 层的权重向量、bias 向量、输出向量。
我们认为：CrossNetCrossNet $\mathbf{\vec x}_0$ 的标量倍数。
CrossNet 可以非常高效地学习特征交互。与 DNN 相比，CrossNet 的复杂度可以忽略不计。但是 CrossNet 的缺点是：
- CrossNet $\mathbf{\vec x}_0$ 的标量倍数。
- 特征交互是以 bit-wise 方式进行的。
$k$ $i$ $\mathbf{\vec x}_{i} = \mathbf{\vec x}_0\mathbf{\vec x}_{i-1}^\top\mathbf{\vec w}_{i} + \mathbf{\vec x}_{i-1}$ $\mathbf{\vec x}_k$ $\mathbf{\vec x}_0$ 的标量倍数。
$k=1$ 时，根据矩阵乘法的结合律和分配律，我们有：
$\begin{matrix} {\vec{x}}_{1} = {\vec{x}}_{0} {\vec{x}}_{0}^{⊤} {\vec{w}}_{1} + {\vec{x}}_{0} \\ = {\vec{x}}_{0} ({\vec{x}}_{0}^{⊤} {\vec{w}}_{1}) + {\vec{x}}_{0} \\ = {\vec{x}}_{0} ({\vec{x}}_{0}^{⊤} {\vec{w}}_{1} + 1) = α_{1} {\vec{x}}_{0} \end{matrix}$
$\alpha_1 = \mathbf{\vec x}_0^\top\mathbf{\vec w}_1 +1$ $\mathbf{\vec x}_0$ $k=1$ 时命题成立。
$k=i$ $k=i+1$ 时，
$\begin{matrix} {\vec{x}}_{i + 1} = {\vec{x}}_{0} {\vec{x}}_{i}^{⊤} {\vec{w}}_{i + 1} + {\vec{x}}_{i} \\ = {\vec{x}}_{0} ({(α_{i} {\vec{x}}_{0})}^{⊤} {\vec{w}}_{i + 1}) + α_{i} {\vec{x}}_{0} = α_{i + 1} {\vec{x}}_{0} \end{matrix}$
$\alpha_{i+1} = \alpha_i \left(\mathbf{\vec x}_0^\top \mathbf{\vec w}_{i+1} + 1\right)$ $k=i+1$ $\mathbf{\vec x}_k$ $\mathbf{\vec x}_0$ 的标量倍数。
$\mathbf{\vec x}_k$ $\mathbf{\vec x}_0$ $\alpha_{k}$ $\mathbf{\vec x}_0$ 的函数。

1.2 模型

1.2.1 CIN

我们设计了一个新的交叉网络，称作压缩交互网络（Compressed Interaction Network: CIN）。CIN 具有以下考虑：交互应用在 vector-wise level 而不是 bit-wise level ；显式高阶交互；网络的复杂度不会随着交互的阶次呈指数型增长。
由于 embedding 向量被视为 vector-wisefield embedding $\mathbf X^{(0)} \in \mathbb R^{m\times D}$ $\mathbf X^{(0)}$ $i$ $i$ 个 fieldembedding $\mathbf X^{(0)}_{i,*} = \mathbf{\vec e}_i\in \mathbb R^{D}$ $D$ 为 field embedding 的维度。
CIN $k$ $\mathbf X^{(k)}\in \mathbb R^{H_k\times D}$ $H_k$ $k$ 层输出的 embeddingfeature vector $H_0=m$ CIN $\mathbf X^{(k)}$ 计算为：
$X_{h, *}^{(k)} = \sum_{i = 1}^{H_{k - 1}} \sum_{j = 1}^{m} W_{i, j}^{(k, h)} \times (X_{i, *}^{(k - 1)} ⊙ X_{j, *}^{(0)}), 1 \leq h \leq H_{k}$
其中：
- $\mathbf W^{(k,h)}\in \mathbb R^{H_{k-1}\times m}$ $k$ $h$ feature vector $(i,j)$ $k-1$ $i$ 个输出 feature vector0 $j$ 个输出feature vector交互的权重。
- $\odot$ 为向量的逐元素乘积。
$\mathbf X^{(k)}$ $\mathbf X^{(k-1)}$ $\mathbf X^{(0)}$ 之间的交互推导而来的，因此特征交互可以显式度量，并且交互的阶次（degree）随着层的深度增加而增长。
CIN 的结构与循环神经网络（Recurrent Neural Network: RNN）非常相似，其中下一个隐层的输出取决于上一个隐层和一个额外的输入。我们在所有层都以 embedding 向量为单位参与计算，因此交互是在 vector-wise level 应用的。
有趣的是，上述方程与计算机视觉中著名的卷积神经网络（Convolutional Neural Network: CNN）有着很强的联系。
- $\mathbf Z^{(k+1)}\in \mathbb R^{D\times H_k\times m}$ $\mathbf X^{(k)}$ $\mathbf X^{(0)}$ embedding $\mathbf Z^{(k+1)}$ $\mathbf W^{(k+1,h)}\in \mathbb R^{H_k\times m}$ $H_{k+1}$ 个滤波器。
- 如下图所示，我们沿着 embeddingD $\mathbf Z^{(k+1)}$ $\mathbf X^{(k+1)}_{i,*}$ feature map $\mathbf X^{(k)}$ $H_k$ 个不同 feature map 的集合。
  $\text{feature map 1}$ $\mathbf W^{(k+1,1)}$ embedding $\text{feature map } H_{k+1}$ $\mathbf W^{(k+1,H_{k+1})}$ 沿着 embedding 维度滑动。
CINcompressed $k$ $H_{k-1}\times m$ $H_k$ 个向量。
CIN $T$ $\mathbf X^{(k)}\in \mathbb R^{H_k\times D}, 1\le k\le T$ 都与输出单元连接。
- 我们首先在隐层的每个 feature map 上沿着 embedding 维度应用 sum 池化：
  $p_{i}^{(k)} = \sum_{j = 1}^{D} X_{i, j}^{(k)}, 1 \leq i \leq H_{k}$
  $\mathbf {\vec p}^{(k)} = \left(p_1^{(k)},p_2^{(k)},\cdots,p_{H_k}^{(k)}\right)^\top$ 。
- 来自隐层的所有池化向量在连接到输出单元之前进行拼接：
  ${\vec{p}}^{(+)} = [{\vec{p}}^{(1)} ∥ {\vec{p}}^{(2)} ∥ \dots ∥ {\vec{p}}^{(T)}] \in R^{\sum_{k = 1}^{T} H_{k}}$
  其中 || 表示向量拼接。
- CIN $\mathbf{\vec p}^{(+)}$ 之上的一个 sigmoid 节点：
  $\hat{y} = \frac{1}{1 + \exp ({({\vec{p}}^{(+)})}^{⊤} {\vec{w}}_{o})}$
  $\mathbf{\vec w}_o\in \mathbb R^{\sum_{k=1}^T H_k}$ 为输出层参数。

1.2.2 CIN 分析

我们分析了CIN 从而研究模型的复杂性和潜在的有效性。
Space Complexity $k$ $h$ feature map $H_{k-1}\times m$ $\mathbf W^{(k,h)}$ size $k$ $H_k$ feature map $k$ $H_k\times H_{k-1}\times m$ $\sum_{k=1}^T H_k$ CIN $\sum_{k=1}^T H_k\times (1+H_{k-1}\times m)$ 。注意，CINembedding $D$ 无关。
- $T$ DNN $m\times D\times H_1 +\sum_{k=2}^T H_k\times H_{k-1}+ H_T$ embedding $D$ 的增加而增加。
- $m$ $H_{k}$ $\mathbf W^{(k,h)}$ size $L$ $\mathbf W^{(k,h)}$ $\mathbf U^{(k,h)}\in \mathbb R^{H_{k-1}\times L}, \mathbf V^{(k,h)}\in \mathbb R^{m\times L}$ ：
  $W^{(k, h)} = U^{(k, h)} {(V^{(k, h)})}^{⊤}$
  $L\ll H, L\ll m$ 。
- $H_1=\cdots H_T=H$ ）的 feature map 。
  $L$ CIN $O(mTH^2)$ $O(mTHL + TH^2L)$ DNN $O(mDH+TH^2)$ field embedding $D$ 敏感。
Time Complexity $\mathbf Z^{(k+1)}$ $O(mHD)$ $H$ feature map $T$ CIN $O(mH^2DT)$ $T$ DNN $O(mHD + H^2T)$ 时间。因此，CIN 的主要缺点在于时间复杂度。
多项式近似（ Polynomial Approximation）：接下来我们检查 CIN 的高阶交互特性（property）。为简单起见，我们假设隐层的 feature mapfield $m$ $h$ feature map $\mathbf{\vec x}^{(1)}_h\in \mathbb R^D$ ，计算为：
${\vec{x}}_{h}^{(1)} = \sum_{i = 1}^{m} \sum_{j = 1}^{m} W_{i, j}^{(1, h)} ({\vec{x}}_{i}^{(0)} ⊙ {\vec{x}}_{j}^{(0)})$
feature map $O(m^2)$ pair-wise $h$ 个 feature map 为：
$\begin{matrix} {\vec{x}}_{h}^{(2)} = \sum_{i = 1}^{m} \sum_{j = 1}^{m} W_{i, j}^{(2, h)} ({\vec{x}}_{i}^{(1)} ⊙ {\vec{x}}_{j}^{(0)}) \\ = \sum_{i = 1}^{m} \sum_{j = 1}^{m} \sum_{s = 1}^{m} \sum_{t = 1}^{m} W_{i, j}^{(2, h)} W_{s, t}^{(1, i)} ({\vec{x}}_{j}^{(0)} ⊙ {\vec{x}}_{s}^{(0)} ⊙ {\vec{x}}_{t}^{(0)}) \end{matrix}$
$s,t$ $\mathbf{\vec x}_i^{(1)}$ feature map $O(m^2)$ 个新的参数对 3-way 交互进行建模。
$k$ $O(m^k)$ 个系数。我们将表明 CINfeature map $O(km^3)$ $k$ $h$ 个 feature map 为：
$\begin{matrix} {\vec{x}}_{h}^{(k)} = \sum_{i = 1}^{m} \sum_{j = 1}^{m} W_{i, j}^{(k, h)} ({\vec{x}}_{i}^{(k - 1)} ⊙ {\vec{x}}_{j}^{(0)}) \\ = \sum_{i = 1}^{m} \sum_{j = 1}^{m} \dots \sum_{r = 1}^{m} \sum_{t = 1}^{m} \sum_{l = 1}^{m} \sum_{s = 1}^{m} W_{i, j}^{(k, h)} \dots W_{l, s}^{(1, r)} \underset{k vectors}{\underset{⏟}{({\vec{x}}_{j}^{(0)} ⊙ \dots ⊙ {\vec{x}}_{s}^{(0)} ⊙ {\vec{x}}_{l}^{(0)})}} \end{matrix}$
$\vec\alpha = (\alpha_1,\cdots,\alpha_m)\in \mathbb N^m$ multi-index $\alpha_i$ $|\vec\alpha| = \sum_{i=1}^m \alpha_i$ $\mathbf{\vec x}_i^{(0)}$ $\mathbf{\vec x}_i$ 来代替，因为在最终展开的表达式中只有来自第 0 层的 feature mapfield embedding $\mathbf{\vec x}_i^3 = \mathbf{\vec x}_i\odot \mathbf{\vec x}_i\odot \mathbf{\vec x}_i$ 。
$VP_k(\mathbf X)$ $k$ 阶的 multi-vector 多项式：
$V P_{k} (X) = {\sum_{\vec{α}} w_{\vec{α}} {\vec{x}}_{1}^{α_{1}} ⊙ {\vec{x}}_{2}^{α_{2}} ⊙ \dots ⊙ {\vec{x}}_{m}^{α_{m}} | 2 \leq | \vec{α} | \leq k}$
vector $O(m^k)$ CIN $w_{\vec\alpha}$ ：
${\hat{w}}_{\vec{α}} = \sum_{i = 1}^{m} \sum_{j = 1}^{m} \sum_{\vec{B} \in P_{\vec{α}}} \prod_{t = 2}^{| \vec{α} |} W_{i, B_{t}}^{(t, j)}$
$\vec B=(B_1,\cdots,B_{|\vec\alpha|})^\top$ multi-index $\mathbb P_{\vec\alpha}$ $(\underbrace{1,\cdots,1}_{\alpha_1 \text{ times}},\cdots,\underbrace{m,\cdots,m}_{\alpha_m \text{ times}})$ 的所有排列组合构成的索引集合。

1.2.3 与隐式网络结合

如前所述，普通 DNN 学习隐式高阶特征交互。由于CIN 和普通 DNN 可以互补，因此使模型更强大的一种直观方法是将这两种结构结合起来。最终得到的模型与 Wide & Deep 或 DeepFM 模型非常相似，架构如下图所示。我们将新模型命名为 eXtreme Deep Factorization Machine: xDeepFM 。一方面 xDeepFM 同时包含低阶特征交互和高阶特征交互，另一方面xDeepFM 同时包含隐式特征交互和显式特征交互。
xDeepFM 的输出单元结果为：
$\hat{y} = σ ({\vec{w}}_{linear}^{⊤} \vec{a} + {\vec{w}}_{dnn}^{⊤} {\vec{x}}_{dnn}^{(k)} + {\vec{w}}_{cin}^{⊤} {\vec{p}}^{(+)} + b)$
$\sigma(\cdot)$ $\mathbf{\vec a}$ $\mathbf{\vec x}^{(k)}_\text{dnn}$ DNN $\mathbf{\vec p}^{(+)}$ CIN $\mathbf{\vec w}_\text{linear},\mathbf{\vec w}_\text{dnn},\mathbf{\vec w}_\text{cin}$ $b$ 为 bias。
对于二元分类问题，损失函数为 log loss：
$L = - \frac{1}{N} \sum_{i = 1}^{N} y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})$
$N$ 为训练样本总数。
$\mathcal J = \mathcal L + \lambda_* \|\mathbf\Theta\|$ $\lambda_*$ $\mathbf \Theta$ 为包括线性部分、CIN 部分、DNN 部分的训练参数集合。
和 FM, DeepFM 的关系：假设所有字段都是单值（univalentCIN $k=1$ feature map $H_k=1$ 时，xDeepFM 是DeepFM 的推广，通过学习 FM 层的线性回归权重（注意，在 DeepFM 中，FM 层的单元直接连接到输出单元，没有任何系数）。
当我们进一步移除 DNN 部分时，同时对 feature map 使用一个 constant 的 sumsum $W_{i,j}^{(1,1)}=1$ ）时，那么 xDeepFM 就降级（downgraded）为传统的 FM 模型。

1.3 实验

这里我们进行了大量实验来回答以下问题：
- Q1：我们提出的 CIN 在高阶特征交互学习中的表现如何？
- Q2：推荐系统是否需要结合显式高阶特征交互和隐式高阶特征交互？
- Q3：网络的超参数如何影响 xDeepFM 的性能？
我们将在介绍一些基本的实验配置之后回答这些问题。
数据集：我们将在以下三个数据集中评估我们提出的方法。
- Criteo 数据集：它是一个可以公开访问的、著名的工业 benchmark 数据集，用于开发点击率预估模型。给定用户和他正在访问的网页，目标是预估用户点击给定广告的概率。
- DianPing 数据集：大众点评网是中国最大的消费者评论网站。它提供多种特征，如评论、签到（check-in）、以及商店的元信息（包括地理位置和商店属性）。我们为餐厅推荐实验收集了 6 个月的用户 check-in 记录。给定用户的用户画像、目标餐厅的属性、以及用户最近访问的三个point of interest: POI，我们希望预测他将访问目标餐厅的概率。
  对于用户 check-in 样本中的每家餐厅（postive 餐厅），我们根据 POI 热度（popularity）对 postive 餐厅 3 公里范围内的四家餐厅进行采样作为负样本。
- Bing News 数据集：Bing News 是微软 Bing 搜索引擎的一部分。为了评估我们模型在真实商业数据集中的性能，我们收集了新闻阅读服务上连续五天的曝光日志。我们使用前三天的数据进行训练和验证、用最后两天的数据进行测试。
对于 Criteo 和 Dianping 数据集，我们按照 8:1:1 随机拆分样本用于训练、验证、测试。
下表给出了这三个数据集的统计特性。
评估指标：我们使用两个指标 AUC 和 Logloss 从不同角度来评估模型性能。
- AUC 衡量一个正样本的排序高于随机选择的负样本的概率。它仅考虑预测样本的相对排序，对于类别不平衡问题（class imbalance problem）不敏感。
- 相反，Logloss 衡量每个样本的预测 score 和真实 label 之间的距离。
有时我们更多地依赖 Logloss，因为我们需要使用预估点击率来估计排序策略的收益（通常使用 eCPM = pCTR x bid 来排序）。
baseline 方法：我们将 xDeepFM 和 logistic regression: LR、FM、DNN（普通深度神经网络）、PNN（从 IPNN 和 OPNN 中选择更好的那个）、Wide & Deep、DCN 、DeepFM 进行比较。如前所述，这些模型与我们的 xDeepFM 高度相关，其中一些是推荐系统的 SOTA 模型。
注意，本文的重点是自动学习特征交互，因此我们不包括任何手工制作的交叉特征。
配置：
- 我们使用 Tensorflow 实现我们的方法。
- 每个模型的超参数通过在验证集上进行网格搜索来调优，每个模型的最佳 setting 将在相应部分显示。
- 学习率设置为 0.001，优化器为 Adam ，batch size = 4096。
- DNN, DCN, Wide & Deep, DeepFM, xDeepFM $\lambda = 0.0001$ 的 L2 正则化。对于 PNN，采用 dropout rate = 0.5 的 dropout 正则化。
- 每层神经元数量的默认设置为：DNN 部分每层 400 个神经元；CIN 部分在 Criteo 数据集上每层 200 个神经元、在Dianping 数据集和 Bing News 数据集上每层 100 个神经元。
- 由于本文关注的是神经网络结构，因此我们将所有模型的 field embedding 维度设为固定值 10。
我们使用 5 个 Tesla K80 GPU 并行进行不同 setting 的实验。源代码可以在 github 上获取。

1.3.1 Q1: 单个神经网络组件的性能比较

我们想知道单体 CIN 的效果。注意：FM 显式地建模二阶特征交互，DNN 隐式地建模高阶特征交互，CrossNet 尝试使用少量参数建模高阶特征交互（如前所述，这被证明无效），而CIN 显式地建模高阶特征交互。理论上无法保证某个单体（individual）模型优于其它单体模型，因为这确实取决于数据集。例如，如果实际数据集不需要高阶特征交互，那么 FM 可能是最好的单体模型。因此，我们对哪个模型在这个实验中表现最好没有任何预期。
下表显式了所有单体模型在三个实际数据集上的表现，Depth 列表示超参数调优找到的最佳网络深度。这里 CIN 是 xDeepFM 的 CIN 网络，不包含 xDeepFM 的 DNN 部分。CrossNet 是 DCN 的 cross network 部分，也不包含 DNN 部分。
令人惊讶的是，我们的 CIN 始终优于其它模型。
- 一方面，结果表明：对于实际数据集，稀疏特征上的高阶交互是必要的。这可以通过 DNN、CrossNet、CIN 在所有三个数据集上显著优于 FM 的事实来验证。
- 另一方面，CIN 是最好的单体模型，这证明了 CIN 在显式建模高阶特征交互方面的有效性。
$k$ CIN $k$ 阶特征交互进行建模。同样有趣的是，CIN 需要 5 层才能在 Bing News 上产生最佳结果。

1.3.2 Q2: 整体模型的性能比较

xDeepFM 将 CIN 和 DNN 集成到端到端模型中。虽然 CIN 和 DNN 在学习特征交互方面涵盖了两个不同的属性，但是我们有兴趣知道它们结合在一起进行联合的显式学习和隐式学习是否确实有必要和有效。在这里，我们比较了几个强baseline，其中不限于单体模型（individual model）。结果如下表所示，可以看到：
- LR 远比所有其它模型差，这表明 factorization-based 的模型对预测稀疏特征至关重要。
- Wide & Deep, DCN, DeepFM, xDeepFM 明显优于 DNN，这直接反映了虽然简单，但是融合了混合组件（hybrid components）对于提高预测系统的准确性很重要。
- 我们提出的 xDeepFM 在所有数据集上都实现了最佳性能，这表明结合显式高阶特征交互和隐式高阶特征交互是必要的，并且 xDeepFM 在学习此类组合时是有效的。
- 另一个有趣的观察是，所有基于神经网络的模型都不需要非常深的网络结构以获得最佳性能。depth 超参数的典型设置为 2 和 3，xDeepFM 的最佳深度为 3，这表明我们学习的交互最多为 4 阶。
表中的 Depth 列给出整体模型通过超参数调优得到的各个组件的最佳深度，格式为 ” cross 层深度，DNN 层深度“。

1.3.3 Q3: 超参数研究

这里我们研究超参数对 xDeepFM 的影响，包括：隐层数量、每层神经元数量、激活函数。我们通过保持 DNN 部分的最佳设置的同时改变 CIN 部分的setting 来进行实验。
隐层深度：下图展示了隐层数量的影响。可以看到：
- xDeepFM 的性能在开始时随着网络深度的增加而增加。
- 然而，当网络深度大于 3 时，模型性能会下降。这是由于过拟合引起的，因为我们发现当添加更多隐层时，训练损失仍然在不断下降。
每层神经元数量：增加每层神经元数量表示增加 CIN 中的 feature map 数量。如下图所示，当我们将每层神经元数量从 20 增加到 200 时，Bing News 数据集上的模型性能稳步提高。而在 Dianping 数据集上，100 是最佳的每层神经元数量。在这个实验中，我们将隐层深度固定为 3 。
注：由于 field embedding 固定为 10，因此 CIN20 $H_k = 2$ 。
激活函数：注意，我们在CIN 神经元上用恒等映射作为激活函数。深度学习文献中一种常见做法是在隐层神经元上使用非线性激活函数。因此，我们在 CIN 上比较不同激活函数的结果（对于 DNN 中的神经元，我们保持使用 relu 激活函数）。如下图所示，恒等映射确实是最适合 CIN 中神经元的激活函数。
未来工作有两个方向：
- 首先，目前我们仅使用 sum 池化来嵌入多元（multivalent）的 field。我们可以探索使用 DIN 机制根据候选 item 来捕获相关的 activation 。
- 其次，如前所述，CIN 模块的时间复杂度很高。我们有兴趣开发一个分布式版本的 xDeepFM，它可以在 GPU 集群上有效地训练。