循环神经网络 RNN

recurrent neural network:RNN $\mathbf x_i = \{\mathbf{\vec x}^{(1)}_i,\mathbf{\vec x}^{(2)}_i,\cdots,\mathbf{\vec x}^{(\tau_i)}_i\}$ $\mathbf x_i$ $i$ $\mathbf x_i$ 是一个序列，序列的长度可以是固定的、也可以是变化的。
- $\mathbf x_i$ $\tau_i = \tau$ 。
- $\mathbf x_i$ $\tau_i$ $\mathbf x_j$ $\tau_j,i\ne j$ 。
循环神经网络是一种共享参数的网络：参数在每个时间点上共享。
传统的前馈神经网络在每个时间点上分配一个独立的参数，因此网络需要学习每个时间点上的权重。而循环神经网络在每个时间点上共享相同的权重。
$t$ 无关。
就像几乎所有函数都可以被认为是前馈神经网络，几乎任何涉及循环的函数都可以被认为是循环神经网络。

一、RNN计算图

1.1 展开图

$\mathbf{\vec h}^{(t)}=f(\mathbf{\vec h}^{(t-1)};\Theta)$ $\mathbf{\vec h}^{(t)}$ $\Theta$ 为参数。
$\tau$ $\tau-1$ 次定义可以展开这个图：
$\mathbf{\vec h}^{(\tau)}=f(\mathbf{\vec h}^{(\tau-1)};\Theta)=\cdots=f(\cdots f(\mathbf{\vec h}^{(1)};\Theta)\cdots ;\Theta)$
利用有向无环图来表述：
$\mathbf{\vec x}^{(t)}$ $t$ $\mathbf{\vec h}^{(t)}=f(\mathbf{\vec h}^{(t-1)},\mathbf{\vec x}^{(t)};\Theta)$ 。
RNN $\mathbf{\vec h}^{(t)}$ 作为过去序列信息的一个有损的representation 。
- representation $\mathbf{\vec h}^{(t)}$ $\{\mathbf{\vec x}^{(1)},\cdots,\mathbf{\vec x}^{(t-1)}\}$ 。
- 根据不同的训练准则，representation 可能会有选择地保留过去序列的某些部分。如 attention 机制。
$\mathbf{\vec h}^{(0) }$ 的设置有两种方式：
- 固定为全零。这种方式比较简单实用。
  $\mathbf{\vec h}^{(0) }$ $\mathbf{\vec h}^{(0) }$ 全零导致对应参数的梯度贡献也为 0 。
- $\mathbf{\vec h}^{(0)}_{i+1} = \mathbf{\vec h}_i^{(\tau_i)}$ 。
  这种场景通常是样本之间存在连续的关系（如：样本分别代表一篇小说中的每个句子），并且样本之间没有发生混洗的情况。此时，后一个样本的初始状态和前一个样本的最后状态可以认为保持连续性。
另外注意：模型更新过程中
展开图的两个主要优点：
- $\tau$ $\mathbf{\vec x}^{(t)}$ 都是相同大小的。
- $f$ $\Theta$ 也就在每个时间步上共享。
这些优点直接导致了：
- $f$ 成为可能。
- $f$ 泛化到没有见过的序列长度。
- 学习模型所需的训练样本远少于非参数共享的模型（如前馈神经网络）。

1.2 网络模式

基于图展开和参数共享的思想，可以设计不同模式的循环神经网络。根据输入序列的长度，RNN 网络模式可以划分为：输入序列长度为01 $\tau$ 。
$\mathbb X = \{\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_N\}$ ，其中每个样本为：
- $\mathbf x_i = \mathbf{\vec x}_i$ 。
- $\mathbf x_i = \{\mathbf{\vec x}^{(1)}_i,\mathbf{\vec x}^{(2)}_i,\cdots,\mathbf{\vec x}^{(\tau_i)}_i\}$ $\tau_i$ $i$ 个样本的序列长度。
$\mathbb Y = \{\mathbf y_1,\mathbf y_2,\cdots,\mathbf y_N\}$ ，其中每个样本的标记为：
- $\mathbf y_i = y_i$ $\mathbf o_i = \mathbf{\vec o}_i$ 。
- $\mathbf y_i = \{y_i^{(1)},y_i^{(2)},\cdots,y_i^{(\tau_i)}\}$ $\tau_i$ $i$ 个样本的序列长度。
  $\mathbf o_i = \{\mathbf{\vec o}^{(1)}_i,\mathbf{\vec o}^{(2)}_i,\cdots,\mathbf{\vec o}^{(\tau_i)}_i\}$ 。
$y_i$ $\mathbf {\vec o}_i$ 为预测为各类别的概率分布（经过 softmax 归一化的概率）。则该样本的损失函数为：
$L_i =\sum_{t=1}^{\tau_i} L^{(t)}(y_i^{(t)},\mathbf{\vec o}_i^{(t)})$
$L^{(t)}(\cdot)$ $t$ 个时间步的损失函数。通常采用负的对数似然作为损失函数，则有：
$L_i = - \sum_{t=1}^{\tau_i}\sum_{k=1}^K \mathbb I_\left({k = y_i^{(t)}}\right) \log o_{i,k}^{(t)}$
$K$ $o_{i,k}^{(t)}$ $\mathbf{\vec o}_i^{(t)}$ $k$ $\mathbb I(\cdot)$ 为示性函数：
$\mathbb I(true) = 1, \mathbb I(false) = 0$
$y_i ^{(t)}$ $\mathbf{\vec y}_i^{(t)}=(0,\cdots,0,1,0,\cdots,0)$ $y_i^{(t)}$ $L^{(t)}(\cdot)$ $\mathbf{\vec y}_i^{(t)}$ $\mathbf{\vec o}_i^{(t)}$ 的交叉熵：
$L^{(t)}(y_i^{(t)},\mathbf{\vec o}_i^{(t)}) = - \mathbf{\vec y}_i^{(t)} \cdot \log \mathbf{\vec o}_i^{(t)}$
数据集的经验损失函数为：
$\mathcal L = - \sum_{i=1}^N\sum_{t=1}^{\tau_i} \mathbf{\vec y}_i^{(t)} \cdot \log \mathbf{\vec o}_i^{(t)}$
.

1.2.1 零长度输入序列

输入序列长度为0：此时网络没有外部输入，网络将当前时刻的输出作为下一个时刻的输入（需要提供一个初始的输出作为种子）。
$y^{( 0)}$ $t$ $t+1$ 时刻的单词；如果遇到某个输出为停止符，或者句子长度达到给定阈值则停止生成。
在这个任务中，任何早期输出的单词都会对它后面的单词产生影响。
RNN $\{y^{(1)}y^{(2)},\cdots,y^{(t-1)}\}$ $\mathbf{\vec h}^ {(t)}$ $y^{(t)}$ $y^{(i)},i=1,2,\cdots,t-1$ $y^{(t)}$ 。
该模型的数学表示为：
$o^{(t)}_k=p(y^{(t)} = k \mid y^{(0)},y^{(1)},\cdots,y^{(t-1)}),\quad k = 1,2,\cdots,K$
$o^{(t)}_k$ $t$ $\mathbf{\vec o}_i^{(t)}$ $k$ 个分量。
单个样本的损失为：
$L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
更新方程：
$\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec y}^{(t-1)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)$
$\mathbf U$ $\mathbf V$ $\mathbf W$ $\mathbf{\vec b},\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。

1.2.2 单长度输入序列

1 $\mathbf{\vec x}$ $\mathbf{\vec x}$ $\mathbf{\vec x}$ $\mathbf{\vec h}^{(0)}$ 、以及这两种方式的结合。
- $\mathbf{\vec x}$ 作为每个时间步的输入：
  - $o^{(t)}_k=p(y^{(t)} = k \mid y^{(1)},\cdots,y^{(t-1)},\mathbf{\vec x}),\quad k = 1,2,\cdots,K$
  - $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
  - 更新方程：
    $\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec y}^{(t-1)}+ \mathbf R\mathbf{\vec x}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)$
    $\mathbf R$ $\mathbf U$ $\mathbf V$ $\mathbf W$ $\mathbf{\vec b},\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。
- $\mathbf{\vec x}$ $\mathbf{\vec h}^{(0)}$ ：
  - $o^{(t)}_k=p(y^{(t)} = k \mid y^{(1)},\cdots,y^{(t-1)}),\quad k = 1,2,\cdots,K$
  - $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
  - 更新方程：
    $\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec y}^{(t-1)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)$
    .
$\mathbf{\vec x}$ $t$ $t+1$ 时刻的单词。
$y^{(t)}$ $t+1$ $y^{(t+1)}$ $t$ $L^{(t)}$ 。
$\mathbf{\vec x}$ $\mathbf{\vec h}^{(0)}$ 时，每个时间步也没有额外的输入。它与零输入RNN 网络的区别在于：
RNN $y^{(0)}$ $\mathbf{\vec h}^{(0)}$ 是给定的。

1.2.3 多长度输入序列

多长度输入序列的RNN 包含了多输出&隐-隐连接RNN、多输出&输出-隐连接RNN、单输出&隐-隐连接RNN 等网络类型。
多输出&隐-隐连接循环网络：每个时间步都有输出，并且隐单元之间有循环连接。
- 该网络将一个输入序列映射到相同长度的输出序列。
- $o^{(t)}_k=p(y^{(t)} = k \mid \mathbf{\vec x}^{(1)},\cdots,\mathbf{\vec x}^{(t )}),\quad k = 1,2,\cdots,K$
- $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
- 更新方程：
  $\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec x}^{(t)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)$
  $\mathbf U$ $\mathbf V$ $\mathbf W$ $\mathbf{\vec b},\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。
多输出&输出-隐连接循环网络：每个时间步都有输出，只有当前时刻的输出和下个时刻的隐单元之间有循环连接。
- 该网络将一个输入序列映射到相同长度的输出序列。
- $o^{(t)}_k=p(y^{(t)} = k \mid \mathbf{\vec x}^{(1)},\cdots,\mathbf{\vec x}^{(t )}),\quad k = 1,2,\cdots,K$
- $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
- 更新方程：
  $\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec o}^{(t-1)}+\mathbf U\mathbf{\vec x}^{(t)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)$
  $\mathbf U$ $\mathbf V$ $\mathbf W$ $\mathbf{\vec b},\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。
单输出&隐-隐连接 循环网络：隐单元之间存在循环连接，但是读取整个序列之后产生单个输出。
- 单输出&隐-隐连接RNN将一个输入序列映射到单个输出。
- $o^{(\tau)}_k=p(y^{(\tau)} = k \mid \mathbf{\vec x}^{(1)},\cdots,\mathbf{\vec x}^{(\tau )}),\quad k = 1,2,\cdots,K$
- $L = - \sum_{k=1}^K \mathbb I_\left({k = y^{(\tau)}}\right) \log o_{k}^{(\tau)}$
- 更新方程：
  $\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec x}^{(t)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(\tau)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(\tau)}\right)$
  $\mathbf U$ $\mathbf V$ $\mathbf W$ $\mathbf{\vec b},\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。
多输出&输出-隐连接循环网络比较于多输出&隐-隐连接循环网络，该网络的表达能力更小。
- 多输出&隐-隐连接 $\mathbf{\vec h}$ $\mathbf{\vec h}$ 传播到未来。
- 多输出&输出-隐连接 $\mathbf{\vec o}$ $\mathbf{\vec o}$ $\mathbf{\vec h}$ ，并且缺乏过去的重要信息。
多输出&输出-隐连接 $y^{(t-1 )}$ $\mathbf{\vec o}^{(t-1 )}$ ，使得每个时间步可以与其他时间步分离训练，从而允许训练期间更多的并行化。

1.3 输出序列长度

对于输入序列长度为零或者为1的RNN模型，必须有某种办法来确定输出序列的长度。有三种方法来确定输出序列的长度：
- 当输出是单词时，可以添加一个特殊的标记符。当输出遇到该标记符时，输出序列终止。
  此时需要改造训练集，对训练数据的每个输出序列末尾手工添加这个标记符。
- 在模型中引入一个额外的二元输出单元，该输出单元用于指示：当前时间步是继续生成输出序列，还是停止生成。
  - 这种办法更普遍，适用于任何RNN 。
  - 该二元输出单元通常使用sigmoid单元，被训练为最大化正确地预测到每个序列结束的对数似然。
- $\tau$ 本身。
  - 这种方法需要在每个时间步的循环更新中增加一个额外输入，从而通知循环：是否已经到达输出序列的末尾。
  - $P(y^{(1)},y^{(2)},\cdots,y^{(\tau)})=P(\tau)P(y^{(1)},y^{(2)},\cdots,y^{(\tau)}\mid\tau)$ 。

二、训练算法

2.1 BPTT 算法

多输出&隐-隐RNN $\mathbf U$ $\mathbf V$ $\mathbf W$ $\mathbf{\vec b},\mathbf{\vec c}$ $\tanh$ 。
$\mathbf{\vec h}^{(0)}$ $t=1$ $t=\tau$ 的每个时间步，则有更新方程：
$\mathbf{\vec a}^{(t)}=\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec x}^{(t)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)$
多输出&隐-隐RNN $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$ 。该损失函数的梯度计算代价较高：
- $O(\tau)$ 。
- $O(\tau)$ 。
- 采用 tanh 激活函数而不是 ReLU 激活函数的原因是为了缓解长期依赖。
back-propagation through time:BPTT $O(\tau)$ 。
由 BPTT 计算得到梯度，再结合任何通用的、基于梯度的技术就可以训练 RNN 。
$\mathbf U,\mathbf V,\mathbf W,\mathbf{\vec b},\mathbf{\vec c}$ $t$ $\mathbf{\vec x}^{(t)}, y^{(t)}, \mathbf{\vec h}^{(t)},\mathbf{\vec o}^{(t)}$ $L^{(t)}$ 。
- $L=\sum_{t=1}^{\tau} L^{(t)}$ $\frac{\partial L}{\partial L^{(t)}}=1$ 。
- $\mathbf{\vec s}^{(t)} = \mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}$ $\mathbf{\vec o}^{(t)}=\text{softmax}(\mathbf{\vec s}^{(t)})$ 。则有：
  $L^{(t)} = - \sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)} = -s^{(t)}_{y^{(t)}} + \log \sum_{k=1}^K \exp(s_k^{(t)})$
  $s_k^{(t) }$ $\mathbf{\vec s}^{(t)}$ $k$ 个分量。
  则有：
  $\left(\nabla_{\mathbf{\vec s}^{(t)}}L\right)_k=\frac{\partial L}{\partial s_k^{(t)}}=\frac{\partial L}{\partial L^{(t)}}\times \frac{\partial L^{(t)}}{\partial s_k^{(t)}}=1\times \frac{\partial L^{(t)}}{\partial s_k^{(t)}}\\ =-\mathbb{ I}_{k= y^{(t)}}+\frac{\exp(s^{(t)}_k)}{\sum_{k^\prime=1}^{K}\exp(s^{(t)}_{k^\prime})} =o^{(t)}_k-\mathbb{ I}_{k= y^{(t)}}$
  $\left(\nabla_{\mathbf{\vec s}^{(t)}}L\right)_k$ $\left(\nabla_{\mathbf{\vec s}^{(t)}}L\right)$ $k$ $\mathbb I(\cdot )$ 为示性函数。写成向量形式为：
  $\nabla_{\mathbf{\vec s}^{(t)}}L = \mathbf{\vec o}^{(t)} - \mathbf{\vec y}^{(t)}$
  $\mathbf{\vec y}^{(t)}=(0,\cdots,0,1,0,\cdots,0)$ $y^{(t)}$ $y_i^{(t)}$ 位置上的分量为 1，而其它位置上的分量为 0。
- $\mathbf{\vec h}^{(t+1)}=\tanh(\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t)}+\mathbf U\mathbf{\vec x}^{(t+1)})$ ，得到：
  $h^{(t+1)}_i=\tanh\left(b_i+\sum_{j}W_{i,j}h^{(t)}_j+\sum_{j}U_{i,j}x_j^{(t+1)}\right)$
  $d\frac{\tanh(x)}{d x}=1-\tanh^2(x)$ ，则有：
  $\frac{\partial h_i^{(t+1)}}{\partial h_j^{(t)}}=\left(1-(h_i^{(t+1)})^2\right)W_{i,j}$
  $n$ ，定义：
  $\frac{\partial\mathbf{\vec h}^{(t+1)}}{\partial\mathbf{\vec h}^{(t)} }=\begin{bmatrix} \frac{\partial h_1^{(t+1)}}{\partial h_1^{(t)}}&\cdots &\frac{\partial h_n^{(t+1)}}{\partial h_1^{(t)}}\\ \vdots&\ddots&\vdots\\ \frac{\partial h_1^{(t+1)}}{\partial h_N^{(t)}}&\cdots &\frac{\partial h_n^{(t+1)}}{\partial h_1^{(t)}} \end{bmatrix}\\ \quad\\ \text{diag}\left(1-(\mathbf{\vec h}^{(t+1)})^{2}\right)=\begin{bmatrix} 1-(h_1^{(t+1)})^2&0&\cdots&0\\ 0&1-(h_2^{(t+1)})^2&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&1-(h_n^{(t+1)})^2 \end{bmatrix}$
  $\frac{\partial\mathbf{\vec h}^{(t+1)}}{\partial\mathbf{\vec h}^{(t)} } =\text{diag}\left(1-(\mathbf{\vec h}^{(t+1)})^{2}\right) \mathbf W$ 。
  $\mathbf{\vec s}^{(t)} = \mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}$ $s^{(t)}_i=c_i+\sum_{j}V_{i,j}h^{(t)}_j$ $\frac{\partial s^{(t)}_i}{\partial h_j^{(t)}}=V_{i,j}$ ，记作：
  $\frac{\mathbf{\partial \vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} } =\mathbf V$
  因此得到隐单元的梯度：
  - $t=\tau$ $\mathbf {\vec h}^{(\tau)}$ $\mathbf{\vec o}^{(\tau)}$ $\mathbf{\vec s}^{(\tau)}$ ），因此有：
    $\nabla_{\mathbf{\vec h}^{(\tau)}}L=\left(\frac{\mathbf{\partial \vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(\tau)}}L$
  - $t\lt \tau$ $\mathbf {\vec h}^{(t)}$ $\mathbf {\vec o}^{(t)},\mathbf {\vec h}^{(t+1)}$ 两个后续节点，因此有：
    $\nabla_{\mathbf{\vec h}^{(t)}}L=\left(\frac{\partial\mathbf{\vec h}^{(t+1)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec h}^{(t+1)}}L+\left(\frac{\partial \mathbf{\vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L\\ =\mathbf W^{T}(\nabla_{\mathbf{\vec h}^{(t+1)}}L)\text{diag}\left(1-(\mathbf{\vec h}^{(t+1)})^{2}\right)+\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L$
    $\nabla_{\mathbf{\vec h}^{(t)}}L$ $\nabla_{\mathbf{\vec h}^{(t+1)}}L$ ，因此求解隐单元的梯度时，从末尾开始反向计算。
一旦获得了隐单元及输出单元的梯度，则可以获取参数节点的梯度。
注意：由于参数在多个时间步共享，因此在参数节点的微分操作时必须谨慎对待。
$\nabla _{\mathbf A}f$ $\mathbf A$ $f$ $t$ $\mathbf A$ $t+1$ $\mathbf A$ ，.... 。
$\mathbf A^{(t)}$ $\mathbf A$ $\nabla _{\mathbf A^{(t)}} f$ $\mathbf A$ $t$ $\nabla _{\mathbf A}f$ 。
$\mathbf{\vec s}^{(t)}=\mathbf{\vec c}^{(t)}+\mathbf V\mathbf{\vec h}^{(t)}$ $s^{(t)}_i=c_i+\sum_{j}V_{i,j}^{(t)}h^{(t)}_j$ 。则有：
$\frac{\partial \mathbf{\vec s}^{(t)}}{\partial \mathbf{\vec c}^{(t)}}=\mathbf I,\quad \frac{\partial s^{(t)}_i}{\partial V_{i,j}^{(t)}}=h_j^{(t)}$
- $\mathbf{\vec c}$ $\mathbf{\vec o}^{(1)},\cdots,\mathbf{\vec o}^{(\tau)}$ 都有贡献，因此有：
  $\nabla _{\mathbf{\vec c}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial \mathbf{\vec s}^{(t)}}{\partial \mathbf{\vec c}^{(t)}}\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\sum_{t=1}^{t=\tau}\nabla_{\mathbf{\vec s}^{(t)}}L$
- 记：
  $\nabla_{V_{k,:}^{(t)}}s_i^{(t)}=\begin{cases}\mathbf{\vec h}^{(t)},&i=k\\ \mathbf{\vec 0},&i\ne k \end{cases}$
  $\mathbf V$ $\mathbf{\vec o}^{(1)},\cdots,\mathbf{\vec o}^{(\tau)}$ 都有贡献，因此有：
  $\nabla_{V_{i,:}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial L}{\partial s_i^{(t)}}\right)\nabla_{V_{i,:}^{(t)}} s_i^{(t)}=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec s}^{(t)}}L)_i\mathbf{\vec h}^{(t)}$
  $(\nabla_{\mathbf{\vec s}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec s}^{(t)}}L$ $i$ 个分量。
$\mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec b}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec x}^{(t)})$ ，即：
$h^{(t)}_i=\tanh\left(b_i+\sum_{j}W_{i,j}^{(t)}h^{(t-1)}_j+\sum_{j}U_{i,j}x_j^{(t)}\right)$
则有：
$\frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec b}^{(t)}}=\text{diag}\left(1-(\mathbf{\vec h}^{(t)})^{2}\right),\quad \frac{\partial h_i^{(t)}}{\partial W^{(t)}_{i,j}}=(1-h_i^{(t)2})h_j^{(t-1)},\quad \frac{\partial h_i^{(t)}}{\partial U_{i,j}^{(t)}}=(1-h_i^{(t)2})x_j^{(t)}$
- $\mathbf{\vec b}$ $\mathbf{\vec h}^{(1)},\cdots,\mathbf{\vec h}^{(\tau)}$ 都有贡献，因此有：
  $\nabla _{\mathbf{\vec b}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec b}^{(t)}}\right)^{T}\nabla_{\mathbf{\vec h}^{(t)}}L=\sum_{t=1}^{t=\tau}\text{diag}\left(1-(\mathbf{\vec h}^{(t)})^{2}\right)\nabla_{\mathbf{\vec h}^{(t)}}L$
- 记：
  $\nabla_{W^{(t)}_{k,:}}h_i^{(t)}=\begin{cases}(1-h_i^{(t)2})\mathbf{\vec h}^{(t-1)},&i=k\\ \mathbf{\vec 0},&i\ne k \end{cases}$
  $\mathbf W^{(t)}$ $L$ 有贡献，则：
  $\nabla_{W_{i,:}} L=\sum_{t=1}^{t=\tau}\left(\frac{\partial L}{\partial h_i^{(t)}}\right) \nabla_{W^{(t)}_{i,:}} h_i^{(t)} =\sum_{t=1}^{t=\tau} (\nabla_{\mathbf{\vec h}^{(t)}}L)_i \left(1-h_i^{(t)2}\right)\mathbf{\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec h}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec h}^{(t)}}L$ $i$ 个分量。
- 记：
  $\nabla_{U_{k,:}^{(t)}}h_i^{(t)}=\begin{cases}(1-h_i^{(t)2})\mathbf{\vec x}^{(t)},&i=k\\ \mathbf{\vec 0},&i\ne k \end{cases}$
  $\mathbf U^{(t)}$ $L$ 有贡献，则：
  $\nabla_{U_{i,:}} L=\sum_{t=1}^{t=\tau}\left(\frac{\partial L}{\partial h_i^{(t)}}\right) \nabla_{U_{i,:}^{(t)}} h_i^{(t)} =\sum_{t=1}^{t=\tau} (\nabla_{\mathbf{\vec h}^{(t)}}L)_i \left(1-h_i^{(t)2}\right)\mathbf{\vec x}^{(t)}$
  $(\nabla_{\mathbf{\vec h}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec h}^{(t)}}L$ $i$ 个分量。
$\mathbf{\vec x}^{(t)}$ $\nabla _{\mathbf{\vec x}^{(t)}} L$ 。

2.2 Teacher forcing 算法

多输出&输出-隐连接RNN模型可以使用 teacher forcing 算法进行训练。
- $o^{(t)}_k=p(y^{(t)} = k \mid y^{(t-1)},\mathbf{\vec x}^{(t)}),\quad k = 1,2,\cdots,K$
- $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
- $t+1$ $\mathbf{\vec y}^{(t)}$ $t$ $\mathbf{\vec o}^{(t)}$ 。
- $\mathbf{\vec o}^ {(t)}$ 。
teacher forcing $y^{(t)}$ 已知，因此这种连接被切断。
- 如果模型的隐状态依赖于早期时间步的隐状态，则需要采用 BPTT算法。
- 某些模型训练时，需要同时使用teacher forcing和BPTT算法。

三、长期依赖

3.1 长期依赖

长期依赖的问题是深度学习中的一个主要挑战，其产生的根本问题是：经过许多阶段传播之后，梯度趋向于消失或者爆炸。
- 长期依赖的问题中，梯度消失占大部分情况，而梯度爆炸占少数情况。但是梯度爆炸一旦发生，就优化过程影响巨大。
- RNN 涉及到许多相同函数的多次复合作用，每个时间步一次。这种复合作用可以导致极端的非线性行为。因此在RNN 中，长期依赖问题表现得尤为突出。
$\mathbf{\vec h}^{(t)}=\mathbf W\mathbf{\vec h}^{(t-1)}$ 。则有：
$\mathbf{\vec h}^{(t)}=\mathbf W^{t}\mathbf{\vec h}^{(0)}\\ \frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec h}^{(t-1)}}=\mathbf W,\quad \frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec h}^{(0)}}=\mathbf W^t\\ \nabla_{\mathbf{\vec h}^{(0)}}L= \frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec h}^{(0)}}\nabla_{\mathbf{\vec h}^{(t)}}L= \mathbf W^t\nabla_{\mathbf{\vec h}^{(t)}}L$
$\mathbf W$ $\mathbf W=\mathbf Q\mathbf \Lambda \mathbf Q^{T}$ $\mathbf Q$ $\mathbf \Lambda$ 为特征值组成的三角阵。则：
$\mathbf{\vec h}^{(t)}=\mathbf Q\mathbf\Lambda^{t}\mathbf Q^{T}\mathbf{\vec h}^{(0)}\\ \nabla_{\mathbf{\vec h}^{(0)}}L= \frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec h}^{(0)}}\nabla_{\mathbf{\vec h}^{(t)}}L= \mathbf Q\mathbf\Lambda^{t}\mathbf Q^{T}\nabla_{\mathbf{\vec h}^{(t)}}L$
- 前向传播：
  - $\mathbf{\vec h}^{(0)}$ $t$ 衰减到 0 。
  - $\mathbf{\vec h}^{(0)}$ $t$ 指数级增长。

反向传播：
- $t$ 衰减到 0 。
- $t$ 指数级增长。

$\mathbf{\vec h}^{(t+1)}=\tanh(\mathbf{\vec b}+\mathbf W\mathbf{\vec h}^{(t)}+\mathbf U\mathbf{\vec x}^{(t+1)})$ ，有：
$\frac{\partial\mathbf{\vec h}^{(t+1)}}{\partial\mathbf{\vec h}^{(t)} } =\text{diag}\left(1-(\mathbf{\vec h}^{(t+1)})^{2}\right) \mathbf W$
- 前向传播：
  $\mathbf{\vec h}$ $\tanh (\cdot)$ 函数限制在 (-1,1) 之间，因此前向传播并不会指数级增长。
  这也是为什么 RNN 使用 tanh 激活函数，而不使用 relu 的原因。
- 反向传播：
  $\tanh (\cdot)$ (-1,1) $\text{diag}\left(1-(\mathbf{\vec h}^{(t+1)})^{2}\right) \mathbf W$ $\mathbf W$ $\mathbf{\vec h}^{(t+1)}$ 越大，结果越小。
  - $\mathbf W$ 的特征值经过这样的缩小之后，在每个时刻都远小于1（因为每个时刻缩小的比例会变化），则该梯度部分将衰减到 0 。
  - $\mathbf W$ 的特征值经过这样的缩小之后，在每个时刻都远大于1，则该梯度部分将指数级增长。
  - $\mathbf W$ 的特征值经过这样的缩小之后，在不同的时刻有时候小于1有时候大于1（因为每个时刻缩小的比例会变化），则该梯度部分将比较平稳。
对于非循环神经网络，长期依赖的情况稍好。
- $w$ $w^{(t)}$ $w^{(t)}$ $v$ $\prod_t w^{(t)}$ $O(v^{n})$ 。
- 非常深的前馈神经网络通过精心设计可以避免梯度消失和梯度爆炸问题。

3.2 多时间尺度

缓解长期依赖的一个策略是：设计多个时间尺度的模型：在细粒度的时间尺度上处理近期信息、在粗粒度时间尺度上处理远期的信息。
得到粗粒度时间尺度的一种方法是跳跃连接：增加从远期的隐变量到当前隐变量的直接连接。
- RNN $t$ $t+1$ $t$ $t+d$ 隐变量的连接。
  注意：是增加而不是替代。
- $d$ 延时的循环连接可以减轻梯度消失的问题。
  $\frac{\tau}{d}$ $\tau$ 相关。这允许算法捕捉到更长时间的依赖性。但是这种做法无法缓解梯度指数级爆炸的问题。
得到粗粒度时间尺度的另一种方法是删除连接：主动删除时间跨度为 1 的连接，并用更长的连接替换。
删除连接与跳跃连接的区别：
- 删除连接不会增加计算图中的连接，而跳跃连接会增加计算图中的连接。
- 删除连接强迫单元在长时间尺度上工作；而跳跃连接可以选择在长时间尺度上工作，也可以在短时间尺度上工作。

3.3 渗漏单元

缓解梯度爆炸和梯度消失的一个方案是：尽可能的使得梯度接近1。这可以通过线性自连接单元来实现。
$h^{(t)}$ $x^{(t)}$ 为输入）
$h^{(t)}=\alpha h^{(t-1)}+(1-\alpha)x^{(t)}$
- $\alpha$ $h^{(t)}$ 能记住过去很长一段时间的输入信息
- $\alpha$ $h^{(t)}$ 只能记住附近的一小段输入信息。
拥有类似行为的隐单元称作渗漏单元。
渗漏单元与跳跃连接的区别：
- $d$ $d$ 个时间步之前的输入值所影响。
- $\alpha$ $\alpha$ 值，可以更灵活的确保隐单元访问到过去不同时间步的输入值。
$\alpha,d$ 参数有两种设置方式：
- 手动设置为常数。如：初始化时从某些分布采样它们的值。
- 让它们成为可训练的变量，从训练中学习出来。
可以使得不同的循环单元在不同时间尺度上工作：
- $\alpha,d$ 参数。
- $\alpha,d$ 参数，但是在梯度下降的参数更新中，显式使得不同循环单元的参数采用不同的更新频率。

3.4 梯度截断

对于长期依赖问题中的梯度爆炸，最常用的解决方案是梯度截断。
$\mathbf{\vec g}=(g_1,g_2,\cdots,g_n)^{T}$ ：
- $v$ $g_i$ 的上界：
  $g_i=\begin{cases} g_i&, if\; g_i<=v\\ \text{sign}(g_i) \times v&,else \end{cases}$
- $v$ 是梯度范数的上界：
  $\mathbf{\vec g}=\begin{cases} \mathbf{\vec g}&, if\; ||\mathbf{\vec g}||<=v\\ \frac{\mathbf{\vec g}\times v}{||\mathbf{\vec g}||}&,else \end{cases}$
第二种方案可以确保截断后的梯度仍然是在正确的梯度方向上。但是实践表明：两种方式的效果相近。因为逐元素的梯度截断时，梯度更新的方向不仅不再是真实梯度方向，甚至也不是mini-batch的梯度方向。但是它仍然是一个使得目标值下降的方向。
$v$ 的向量来作为梯度。因为这样通常会使得梯度离开数值不稳定的状态。
如果在mini-batch 梯度下降中应用了梯度范数截断，则真实梯度的方向不再等于所有mini-batch梯度的平均。
对于一个mini-batch ，梯度范数截断不会改变它的梯度方向。对于许多个mini-batch，使用梯度范数截断之后，它们的平均值并不等同于真实梯度的范数截断。
因此使用范数截断的mini-batch 梯度下降，引入了额外的梯度误差。这种误差有助于随机梯度下降算法逃离局部极小值。

3.5 引导信息流的正则化

梯度截断有助于解决梯度爆炸，但是无助于解决梯度消失。为解决梯度消失，有两种思路：
- 让路径的梯度乘积接近1 ，如 LSTM 及其他门控机制。
- 正则化或者约束参数，从而引导信息流。
$\nabla _{\mathbf{\vec h}^{(t)}}L$ $\nabla _{\mathbf{\vec h}^{(t-1)}}L$ $\nabla _{\mathbf{\vec h}^{(t)}}L$ 尽可能一样大。
考虑到
$\nabla _{\mathbf{\vec h}^{(t-1)}}L=\left(\frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec h}^{(t-1)}} \right)^T\nabla _{\mathbf{\vec h}^{(t)}}L$
Pascanu et al. 给出了以下正则项：
$\Omega=\sum_t\left(\frac{||\left( \frac{\partial \mathbf{\vec h}^{(t)}}{\partial \mathbf{\vec h}^{(t-1)}}\right)^T\nabla _{\mathbf{\vec h}^{(t)}}L||}{||\nabla _{\mathbf{\vec h}^{(t)}}L||}-1\right)^{2}$
- Pascanu et al. $\nabla _{\mathbf{\vec h}^{(t)}}L$ 考虑作为恒值来近似。
- 实验表明：如果与梯度截断相结合，该正则项可以显著增加 RNN可以学习的依赖跨度。
- 该方法的一个主要缺点是：在处理数据冗余的任务时，如语言模型，它并不像 LSTM一样有效。

四、常见 RNN 变种

4.1 双向 RNN

RNN $t$ $\{\mathbf{\vec x}^{(1)},\mathbf{\vec x}^{(2)},\cdots,\mathbf{\vec x}^{(t-1)} \}$ $\mathbf{\vec x}^{(t)}$ 来决定。
$\mathbf{\vec o}^{(t)}$ 可能依赖于整个输入序列。如：语音识别任务中，当前语音对应的单词不仅取决于前面的单词，也取决于后面的单词。因为词与词之间存在语义依赖。
双向 RNN 就是为了解决这种双向依赖问题，它在需要双向信息的应用中非常成功。如：手写识别、语音识别等。
典型的双向 RNN 具有两条子RNN：
- $\mathbf{\vec h}^{(t)}$ RNN $\mathbf{\vec g}^{(t)}$ 代表通过时间向过去移动的子 RNN 的状态，向左传播信息。
- $t$ $\mathbf{\vec o}^{(t)}$ $t$ $\mathbf{\vec x}^{(t)}$ 。
- $o^{(t)}_k=p(y^{(t)} = k \mid \mathbf{\vec x}^{(1)},\cdots,\mathbf{\vec x}^{(t )}),\quad k = 1,2,\cdots,K$
- $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
- 更新方程：
  $\mathbf{\vec a}_1^{(t)}=\mathbf{\vec b}_1+\mathbf W_1\mathbf{\vec h}^{(t-1)}+\mathbf U_1\mathbf{\vec x}^{(t)}\\ \mathbf{\vec a}_2^{(t)}=\mathbf{\vec b}_2+\mathbf W_2\mathbf{\vec g}^{(t+1)}+\mathbf U_2\mathbf{\vec x}^{(t)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}_1^{(t)}),\quad \mathbf{\vec g}^{(t)}=\tanh(\mathbf{\vec a}_2^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V_1\mathbf{\vec h}^{(t)}+\mathbf V_2\mathbf{\vec g}^{(t)}\right)$
  $\mathbf U_1,\mathbf U_2$ $\mathbf V_1,\mathbf V_2$ $\mathbf W_1,\mathbf W_2$ $\mathbf{\vec b}_1,\mathbf{\vec b}_2,\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。
如果输入是 2 维的（如图像），则双向 RNN 可以扩展到4个方向：上、下、左、右。
RNN $t$ $\mathbf{\vec o}^{(t)}$ $t$ $\mathbf{\vec x}^{(t)}$ 。
与CNN 相比：
- RNN 可以捕捉到大多数局部信息，还可以捕捉到依赖于远处的信息；CNN 只能捕捉到卷积窗所在的局部信息。
- RNN计算成本通常更高，而CNN 的计算成本较低。

4.2 深度 RNN

RNN $\mathbf{\vec x}^{(t)}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec h}^{(t+1)}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec o}^{(t)}$ 的变换。这三个变换都是浅层的，即：由一个仿射变换加一个激活函数组成。
事实上，可以对这三种变换中引入深度。实验表明：引入深度会带来好处。
- 方式一：通过将RNN的隐状态分为多层来引入深度。
- 方式二：在这三种变换中，各自使用一个独立的MLP（可能是较浅的，也可能是较深的）。
- 方式三：在第二种方式的基础上，类似ResNet 的思想，在 “隐状态-隐状态” 的路径中引入跳跃连接。
RNN $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec z}^{(t)}$ 。隐状态层中层次越高，对输入提取的概念越抽象。
- $o^{(t)}_k=p(y^{(t)} = k \mid \mathbf{\vec x}^{(1)},\cdots,\mathbf{\vec x}^{(t )}),\quad k = 1,2,\cdots,K$
- $L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
- 更新方程：
  $\mathbf{\vec a}_1^{(t)}=\mathbf{\vec b}_1+\mathbf W_1\mathbf{\vec h}^{(t-1)}+\mathbf U\mathbf{\vec x}^{(t)}\\ \mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec a}_1^{(t)})\\ \mathbf{\vec a}_2^{(t)}=\mathbf{\vec b}_2+\mathbf W_2\mathbf{\vec z}^{(t-1)}+\mathbf R\mathbf{\vec h}^{(t)}\\ \mathbf{\vec z}^{(t)}=\tanh(\mathbf{\vec a}_2^{(t)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec z}^{(t)}\right)$
  $\mathbf U$ $\mathbf V$ $\mathbf W_1,\mathbf W_2,\mathbf R$ $\mathbf{\vec b}_1,\mathbf{\vec b}_2,\mathbf{\vec c}$ 为输入偏置向量和输出偏置向量。
在这三种变换中，各自使用一个独立的MLP（可能是深度的），如下图所示。
$t$ $t+1$ 的最短路径变得更长，这可能导致优化困难而破坏学习效果。
在第二种方式的基础上，类似ResNet 的思想，在 “隐状态-隐状态” 的路径中引入跳跃连接，从而缓解最短路径变得更长的问题。

4.3 LSTM 和 GRU

目前实际应用中最有效的序列模型是门控RNN，包括基于LSTM: long short-term memory 的循环网络，和基于门控循环单元GRU: gated recurrent unit 的循环网络。
围绕门控RNN 这一主题可以设计更多的变种。然而一些调查发现：这些 LSTM和GRU架构的变种，在广泛的任务中难以明显的同时击败这两个原始架构。
门控RNN 的思路和渗漏单元一样：生成通过时间的快捷路径，使得梯度既不消失也不爆炸。
- 可以手动选择常量的连接权重来实现这个目的，如跳跃连接。权重为固定的常量，且不随时间改变。
- 可以使用参数化的连接权重来实现这个目的，如渗漏单元。权重是样本的函数，且不随时间改变。
- 门控RNN 将其推广为：连接权重在每个时间步都可能改变。权重是样本和时间的函数，随时间改变。
渗漏单元允许网络在较长持续时间内积累信息，但它有个缺点：有时候希望一旦某个信息被使用（即：被消费掉了），那么这个信息就要被遗忘（丢掉它，使得它不再继续传递）。
门控RNN 能够学会何时清除信息，而不需要手动决定。

4.3.1 LSTM

LSTM 在手写识别、语音识别、机器翻译、为图像生成标题等领域获得重大成功。
LSTM循环网络除了外部的 RNN 循环之外，还有内部的 LSTM cell循环（自环）。LSTM的cell代替了普通 RNNLSTM $\mathbf{\vec h}^{(t)}$ 是cell 的一个输出。
LSTM引入cell循环以保持梯度长时间持续流动。其中一个关键是：cell循环的权重视上下文而定，而不是固定的。
具体做法是：通过gate 来控制这个cell循环的权重，而这个gate 由上下文决定。
- cell $\mathbf{\vec h}^{(t)}$ RNN $\mathbf{\vec o}^{(t)}$ 。
- cell $\mathbf{\vec h}^{(t)},\mathbf{\vec C}^{(t)}$ 来连接的。
LSTMcell $\mathbf{\vec C}^{(t)}$ ，它以水平线在图上方贯穿运行。
sigmoid $\sigma$ ) 的输出在 0 到1 之间，描述每个部分有多少量可以通过。它起到门gate 的作用：0 表示不允许通过，1 表示允许全部通过，0~1 之间表示部分通过。
LSTM 拥有三个门：遗忘门、输入门、输出门。
cell $\mathbf{\vec C}^{(t-1)}$ $\mathbf{\vec C}^{(t)}$ 。
LSTM cell $f_i^{(t)}$ 控制了自环的权重，而不再是常数：
$f_i^{(t)}=\sigma(b_i^{f}+\sum_jU_{i,j}^{f}x_j^{(t)}+\sum_jW_{i,j}^{f}h_j^{(t-1)})$
$\sigma$ 为逐元素的sigmoid 函数)
$\mathbf{\vec f}^{(t)}=\sigma(\mathbf{\vec b}^{f}+\mathbf U^{f}\mathbf{\vec x}^{(t)}+\mathbf W^{f}\mathbf{\vec h}^{(t-1)})$
$\mathbf{\vec b}^{f}$ $\mathbf U^{f}$ $\mathbf W^{f}$ 为遗忘门的循环权重。
$\mathbf{\vec x}^{(t)}$ cell $\mathbf{\vec C}^{(t)}$ 。
$g_i^{(t)}$ 的方程：
$g_i^{(t)}=\sigma(b_i^{g}+\sum_jU_{i,j}^{g}x_j^{(t)}+\sum_jW_{i,j}^{g}h_j^{(t-1)})$
$\sigma$ 为逐元素的sigmoid 函数)
$\mathbf{\vec g}^{(t)}=\sigma(\mathbf{\vec b}^{g}+\mathbf U^{g}\mathbf{\vec x}^{(t)}+\mathbf W^{g}\mathbf{\vec h}^{(t-1)})$
$\mathbf{\vec b}^{g}$ $\mathbf U^{g}$ $\mathbf W^{g}$ 为输入门的循环权重。
$i_t$ $\mathbf{\vec g}^{(t)}$
cell $\mathbf{\vec C}^{(t)}$ cell $\mathbf{\vec h}^{(t )}$ 。
$q_i^{(t)}$ 的更新方程：
$q_i^{(t)}=\sigma(b_i^{o}+\sum_jU_{i,j}^{o}x_j^{(t)}+\sum_jW_{i,j}^{o}h_j^{(t-1)})$
$\sigma$ 为逐元素的sigmoid 函数)
$\mathbf{\vec q}^{(t)}=\sigma(\mathbf{\vec b}^{o}+\mathbf U^{o}\mathbf{\vec x}^{(t)}+\mathbf W^{o}\mathbf{\vec h}^{(t-1)})$
$\mathbf{\vec b}^{o}$ $\mathbf U^{o}$ $\mathbf W^{o}$ 为输出门的循环权重。
cellcell $\mathbf{\vec C}^{(t)}$ 由两部分组成：
- $\mathbf{\vec C}^{(t-1)}$ $\mathbf{\vec f}^{(t)}$ 的控制，使得只有部分状态进入下一次。
- $\mathbf{\vec x}^{(t)},\mathbf{\vec h}^{(t-1)}$ $\tanh$ $\mathbf{\vec g}^{(t)}$ 的控制，使得只有部分输入能进入状态更新。
因此cell 状态更新方程为：
$C_i^{(t)}=f_i^{(t)}C_i^{(t-1)}+g_i^{(t)}\tanh\left(b_i+\sum_jU_{i,j}x_j^{(t)}+\sum_jW_{i,j}h_j^{(t-1)}\right)$
$\tanh$ $\odot$ 为逐元素的向量乘积)
$\mathbf{\vec C}^{(t)}=\mathbf{\vec f}^{(t)}\odot\mathbf{\vec C}^{(t-1)}+\mathbf{\vec g}^{(t)}\odot \tanh(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})$
$\mathbf {\vec b}$ cell $\mathbf U$ cell $\mathbf W$ 为cell的循环权重。
cellcell $\mathbf{\vec h}^{(t)}$ cell $\tanh$ $\mathbf{\vec q}^{(t)}$ 控制输出的流量。
$h_i^{(t)}=\tanh(C_i^{(t)})q_i^{(t)}$
$\tanh$ $\odot$ 为逐元素的向量乘积)
$\mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec C}^{(t)})\odot\mathbf{\vec q}^{(t)}$
cell $\mathbf{\vec h}^{(t)}$ RNN $\mathbf{\vec o}$ 就和普通的 RNN相同。
$\text{forget gate:}\quad \mathbf{\vec f}^{(t)}=\sigma(\mathbf{\vec b}^{f}+\mathbf U^{f}\mathbf{\vec x}^{(t)}+\mathbf W^{f}\mathbf{\vec h}^{(t-1)})\\ \text{input gate:}\quad\mathbf{\vec g}^{(t)}=\sigma(\mathbf{\vec b}^{g}+\mathbf U^{g}\mathbf{\vec x}^{(t)}+\mathbf W^{g}\mathbf{\vec h}^{(t-1)}) \\ \text{output gate:}\quad\mathbf{\vec q}^{(t)}=\sigma(\mathbf{\vec b}^{o}+\mathbf U^{o}\mathbf{\vec x}^{(t)}+\mathbf W^{o}\mathbf{\vec h}^{(t-1)})\\ \text{cell state:}\quad \mathbf{\vec C}^{(t)}=\mathbf{\vec f}^{(t)}\odot\mathbf{\vec C}^{(t-1)}+\mathbf{\vec g}^{(t)}\odot \tanh(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})\\ \text{cell output:}\quad\mathbf{\vec h}^{(t)}=\tanh(\mathbf{\vec C}^{(t)})\odot\mathbf{\vec q}^{(t)}\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)\\ L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
$\mathbf{\vec s}^{(t)} = \mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}$ $\frac{d}{dx}\sigma(x) = \sigma(x)(1-\sigma(x))$ $\frac{d}{dx}\tanh(x) = 1-\tanh(x)^2$ ，则有：
- $\mathbf{\vec h}^{( t )}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec s}^{(t)}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec s}^{(t)} ,\mathbf{\vec f}^{(t+1)},\mathbf{\vec g}^{(t+1)},\mathbf{\vec q}^{(t+1)},\mathbf{\vec C}^{(t+1)}$ 。因此有：
  $\nabla_{\mathbf{\vec h}^{(t)}}L=\begin{cases} \left(\frac{\partial\mathbf{\vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L,&t=\tau\\ \mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L+ \mathbf{\vec f}^{(t+1)}\odot(1-\mathbf{\vec f}^{(t+1)})\odot(\mathbf W ^{f})^T \nabla_{\mathbf{\vec f}^{(t+1)}}L\\ + \mathbf{\vec g}^{(t+1)}\odot(1-\mathbf{\vec g}^{(t+1)})\odot(\mathbf W ^{g})^T \nabla_{\mathbf{\vec g}^{(t+1)}}L\\ +\mathbf{\vec q}^{(t+1)}\odot(1-\mathbf{\vec q}^{(t+1)})\odot(\mathbf W ^{o})^T \nabla_{\mathbf{\vec q}^{(t+1)}}L\\ +\mathbf{\vec g}^{(t+1)}\odot \left(1-\tanh^2(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t+1)}+\mathbf W\mathbf{\vec h}^{(t)})\right)\mathbf W^T\nabla_{\mathbf{\vec C}^{(t+1)}}L,& t\lt \tau \end{cases}$
  考虑到：
  $\nabla_{\mathbf{\vec f}^{(t)}}L = \mathbf{\vec C}^{(t-1)}\odot \nabla_{\mathbf{\vec C}^{(t)}}L\\ \nabla_{\mathbf{\vec g}^{(t)}}L =\tanh(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})\odot \nabla_{\mathbf{\vec C}^{(t)}}L\\ \nabla_{\mathbf{\vec q}^{(t)}}L = \tanh(\mathbf{\vec C}^{(t)})\odot \nabla_{\mathbf{\vec h}^{(t)}}L$
  因此有：
  $\nabla_{\mathbf{\vec h}^{(t)}}L=\begin{cases} \left(\frac{\partial\mathbf{\vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L,&t=\tau\\ \mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L+ \mathbf{\vec f}^{(t+1)}\odot(1-\mathbf{\vec f}^{(t+1)})\odot(\mathbf W ^{f})^T \mathbf{\vec C}^{(t)}\odot \nabla_{\mathbf{\vec C}^{(t+1)}}L\\ + \mathbf{\vec g}^{(t+1)}\odot(1-\mathbf{\vec g}^{(t+1)})\odot(\mathbf W ^{g})^T \tanh(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t+1)}+\mathbf W\mathbf{\vec h}^{(t)})\odot \nabla_{\mathbf{\vec C}^{(t+1)}}L\\ +\mathbf{\vec q}^{(t+1)}\odot(1-\mathbf{\vec q}^{(t+1)})\odot(\mathbf W ^{o})^T \tanh(\mathbf{\vec C}^{(t+1)})\odot \nabla_{\mathbf{\vec h}^{(t+1)}}L\\ +\mathbf{\vec g}^{(t+1)}\odot \left(1-\tanh^2(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t+1)}+\mathbf W\mathbf{\vec h}^{(t)})\right)\mathbf W^T\nabla_{\mathbf{\vec C}^{(t+1)}}L,& t\lt \tau \end{cases}$
  - $\nabla_{\mathbf{\vec h}^{(t )}}L$ $\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(\tau)}}L$ ，因此 LSTM 可以缓解梯度消失。
  - $\nabla_{\mathbf{\vec h}^{(t )}}L$ 中的非常量部分会被缩小，因此可以缓解梯度爆炸。
- $\mathbf{\vec C^{(t)}}$ $\mathbf{\vec C}^{(t)}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec C}^{(t)}$ $\mathbf{\vec h}^{(t)} ,\mathbf{\vec C}^{(t+1)}$ 。因此有：
  $\nabla_{\mathbf{\vec C}^{(t)}}L=\begin{cases} \left(1- \tanh^2(\mathbf{\vec C}^{(t)})\right)\odot\mathbf{\vec q}^{(t)}\odot \nabla_{\mathbf{\vec h}^{(t)}}L ,&t=\tau\\ \left(1- \tanh^2(\mathbf{\vec C}^{(t)})\right)\odot\mathbf{\vec q}^{(t)}\odot \nabla_{\mathbf{\vec h}^{t)}}L+ \mathbf{\vec f}^{(t+1)}\odot \nabla_{\mathbf{\vec C}^{(t+1)}}L,& t\lt \tau \end{cases}\\$
- $\mathbf V, \mathbf{\vec c}$ $\mathbf{\vec o}^{(1)},\cdots,\mathbf{\vec o}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec c}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial \mathbf{\vec s}^{(t)}}{\partial \mathbf{\vec c}^{(t)}}\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\sum_{t=1}^{t=\tau}\nabla_{\mathbf{\vec s}^{(t)}}L\\ \nabla_{V_{i,:}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial L}{\partial s_i^{(t)}}\right)\nabla_{V_{i,:}^{(t)}} s_i^{(t)}=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec s}^{(t)}}L)_i\mathbf{\vec h}^{(t)}$
  $(\nabla_{\mathbf{\vec s}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec s}^{(t)}}L$ $i$ 个分量。
- $\mathbf U, \mathbf W, \mathbf{\vec b}$ $\mathbf{\vec C}^{(1)},\cdots,\mathbf{\vec C}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b}}L = \sum_{t=1}^\tau \mathbf{\vec g}^{(t)}\odot \left(1- \tanh^2(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})\right)\odot \nabla _{\mathbf{\vec C}^{(t)}}L\\ \nabla_{U_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec C}^{(t)}}L)_i\mathbf{\vec g}^{(t)}\odot \left(1- \tanh^2(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})\right)\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec C}^{(t)}}L)_i\mathbf{\vec g}^{(t)}\odot \left(1- \tanh^2(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})\right)\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec C}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec C}^{(t)}}L$ $i$ 个分量。
- $\mathbf U^f, \mathbf W^f,\mathbf{\vec b}^f$ $\mathbf{\vec f}^{(1)},\cdots,\mathbf{\vec f}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b^f}}L = \sum_{t=1}^\tau \mathbf{\vec f}^{(t)}\odot (1-\mathbf{\vec f}^{(t)})\odot \nabla _{\mathbf{\vec f}^{(t)}}L\\ \nabla_{U^f_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec f}^{(t)}}L)_i\mathbf{\vec f}^{(t)}\odot (1- \mathbf{\vec f}^{(t)})\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W^f_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec f}^{(t)}}L)_i\mathbf{\vec f}^{(t)}\odot (1- \mathbf{\vec f}^{(t)})\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec f}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec f}^{(t)}}L$ $i$ 个分量。
- $\mathbf U^g, \mathbf W^g,\mathbf{\vec b}^g$ $\mathbf{\vec g}^{(1)},\cdots,\mathbf{\vec g}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b^g}}L = \sum_{t=1}^\tau \mathbf{\vec g}^{(t)}\odot (1-\mathbf{\vec g}^{(t)})\odot \nabla _{\mathbf{\vec g}^{(t)}}L\\ \nabla_{U^g_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec g}^{(t)}}L)_i\mathbf{\vec g}^{(t)}\odot (1- \mathbf{\vec g}^{(t)})\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W^g_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec g}^{(t)}}L)_i\mathbf{\vec g}^{(t)}\odot (1- \mathbf{\vec g}^{(t)})\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec g}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec g}^{(t)}}L$ $i$ 个分量。
- $\mathbf U^o, \mathbf W^o,\mathbf{\vec b}^o$ $\mathbf{\vec q}^{(1)},\cdots,\mathbf{\vec q}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b^o}}L = \sum_{t=1}^\tau \mathbf{\vec q}^{(t)}\odot (1-\mathbf{\vec q}^{(t)})\odot \nabla _{\mathbf{\vec q}^{(t)}}L\\ \nabla_{U^o_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec q}^{(t)}}L)_i\mathbf{\vec q}^{(t)}\odot (1- \mathbf{\vec q}^{(t)})\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W^o_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec q}^{(t)}}L)_i\mathbf{\vec q}^{(t)}\odot (1- \mathbf{\vec q}^{(t)})\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec q}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec q}^{(t)}}L$ $i$ 个分量。
cell $\mathbf{\vec C}^{(t)}$ $\mathbf{\vec f}^{(t)},\mathbf{\vec g}^{(t)},\mathbf{\vec q}^{(t)}$ $\mathbf{\vec C}^{(t-1)}$ 的权重和偏置。

4.3.2 GRU

门控循环单元GRU 比 LSTM 模型更简单：
- GRU 的单个门控单元同时作为遗忘门和输入门，整个 GRU 模型只有两个门：更新门、复位门。
- GRUcell $\mathbf{\vec C}$ cell $\mathbf{\vec h}$ 。
$\tilde {\mathbf {\vec h}}^{(t)}$ $\mathbf{\vec x^{(t)}},\mathbf{\vec h^{(t-1)}}$ $\mathbf{\vec h^{(t-1)}}$ $\mathbf{\vec h}^{(t)}$ 。
$z_i^{(t)}$ 的更新方程：
$z_i^{(t)}=\sigma\left(b_i^{z}+\sum_jU^{z}_{i,j}x_j^{(t)}+\sum_jW_{i,j}^zh_j^{(t-1)}\right)$
$\sigma$ 为逐元素的sigmoid 函数）
$\mathbf{\vec z}^{(t)}=\sigma(\mathbf{\vec b}^{z}+\mathbf U^{z}\mathbf{\vec x}^{(t)}+\mathbf W^{z}\mathbf{\vec h}^{(t-1)})$
$\mathbf{\vec b}^{z}$ $\mathbf U^{z}$ $\mathbf W^{z}$ 为更新门的循环权重。
$\tilde {\mathbf {\vec h}}^{(t)}$ $\mathbf{\vec x}^{(t)},\mathbf{\vec h}^{(t-1)}$ $r=0$ ，则旧的信息不影响新的信息，可以理解为复位。
$r_i^{(t)}$ 的更新方程：
$r_i^{(t)}=\sigma\left(b_i^{r}+\sum_jU^{r}_{i,j}x_j^{(t)}+\sum_jW_{i,j}^rh_j^{(t-1)}\right)$
$\sigma$ 为逐元素的sigmoid 函数）
$\mathbf{\vec r}^{(t)}=\sigma(\mathbf{\vec b}^{r}+\mathbf U^{r}\mathbf{\vec x}^{(t)}+\mathbf W^{r}\mathbf{\vec h}^{(t-1)})$
$\mathbf{\vec b}^{r}$ $\mathbf U^{r}$ $\mathbf W^{r}$ 为复位门的循环权重。
cellcell $\mathbf{\vec h}^{(t)}$ 。
cell 更新方程：
$h_i^{(t)}=z_i^{(t)}h_i^{(t-1)}+(1-z_i^{(t)})\tanh\left(b_i+\sum_jU_{i,j}x_j^{(t)}+\sum_jW_{i,j}r_j^{(t)}h_j^{(t-1)}\right)$
$\odot$ $\tanh$ 为逐元素的函数）
$\mathbf{\vec h}^{(t)}=\mathbf{\vec z}^{(t)}\odot\mathbf{\vec h}^{(t-1)}+(1-\mathbf{\vec z}^{(t)})\odot\tanh(\mathbf{\vec b}+\mathbf U\mathbf{\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)})$
$\tilde {\mathbf {\vec h}}^{(t)}= \tanh(\mathbf{\vec b}+\mathbf U\mathbf{\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)})$ ，它刻画了本次的更新。于是cell 的输出更新方程为：
$\mathbf{\vec h}^{(t)}=\mathbf{\vec z}^{(t)}\odot\mathbf{\vec h}^{(t-1)}+(1-\mathbf{\vec z}^{(t)})\odot\tilde {\mathbf {\vec h}}^{(t)}$
$\mathbf {\vec b}$ cell $\mathbf U$ cell $\mathbf W$ 为cell的循环权重。
cell $\mathbf{\vec h}^{(t)}$ RNN $\mathbf{\vec o}$ 就和普通的 RNN相同。
$\text{update gate:}\quad \mathbf{\vec z}^{(t)}=\sigma(\mathbf{\vec b}^{z}+\mathbf U^{z}\mathbf{\vec x}^{(t)}+\mathbf W^{z}\mathbf{\vec h}^{(t-1)})\\ \text{reset gate:}\quad\mathbf{\vec r}^{(t)}=\sigma(\mathbf{\vec b}^{r}+\mathbf U^{r}\mathbf{\vec x}^{(t)}+\mathbf W^{r}\mathbf{\vec h}^{(t-1)}) \\ \text{cell output:}\quad\mathbf{\vec h}^{(t)}=\mathbf{\vec z}^{(t)}\odot\mathbf{\vec h}^{(t-1)}+(1-\mathbf{\vec z}^{(t)})\odot\tanh(\mathbf{\vec b}+\mathbf U\mathbf{\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)})\\ \mathbf{\vec o}^{(t)}=\text{softmax}\left(\mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}\right)\\ L = - \sum_{t=1}^{\tau}\sum_{k=1}^K \mathbb I_\left({k = y^{(t)}}\right) \log o_{k}^{(t)}$
$\mathbf{\vec s}^{(t)} = \mathbf{\vec c}+\mathbf V\mathbf{\vec h}^{(t)}$ $\frac{d}{dx}\sigma(x) = \sigma(x)(1-\sigma(x))$ $\frac{d}{dx}\tanh(x) = 1-\tanh(x)^2$ ，则有：
- $\mathbf{\vec h}^{( t )}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec s}^{(t)}$ $\mathbf{\vec h}^{(t)}$ $\mathbf{\vec s}^{(t)} ,\mathbf{\vec z}^{(t+1)},\mathbf{\vec r}^{(t+1)},\mathbf{\vec h}^{(t+1)}$ $\mathbf{\vec e}^{(t)} =\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)}$ ，因此有：
  $\nabla_{\mathbf{\vec h}^{(t)}}L=\begin{cases} \left(\frac{\partial\mathbf{\vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L,&t=\tau\\ \mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L+ \mathbf{\vec z}^{(t+1)}\odot(1-\mathbf{\vec z}^{(t+1)})\odot(\mathbf W ^{z})^T \nabla_{\mathbf{\vec z}^{(t+1)}}L\\ + \mathbf{\vec r}^{(t+1)}\odot(1-\mathbf{\vec r}^{(t+1)})\odot(\mathbf W ^{r})^T \nabla_{\mathbf{\vec r}^{(t+1)}}L+\\ \left(\mathbf{\vec z}^{(t+1)}+ (1-\mathbf{\vec z}^{(t+1)})\odot \left(1-\tanh^2(\mathbf{\vec e}^{(t+1)})\right)\odot \mathbf W \mathbf{\vec r}^{(t+1)}\right)\nabla_{\mathbf{\vec h}^{(t+1)}}L,& t\lt \tau \end{cases}$
  考虑到：
  $\nabla_{\mathbf{\vec z}^{(t)}}L = \left(\mathbf{\vec h}^{(t-1)} - \tanh(\mathbf{\vec e}^{(t)})\right)\odot \nabla_{\mathbf{\vec h}^{(t)}}L\\ \nabla_{\mathbf{\vec r}^{(t)}}L = (1-\mathbf{\vec z}^{(t)})\odot \mathbf W^T\left(1-\tanh^2(\mathbf{\vec e}^{(t)})\right)\odot \mathbf{\vec h}^{(t-1)} \nabla_{\mathbf{\vec h}^{(t)}}L$
  因此有：
  $\nabla_{\mathbf{\vec h}^{(t)}}L=\begin{cases} \left(\frac{\partial\mathbf{\vec s}^{(t)}}{\partial\mathbf{\vec h}^{(t)} }\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L,&t=\tau\\ \mathbf V^{T}\nabla_{\mathbf{\vec s}^{(t)}}L+ \mathbf{\vec z}^{(t+1)}\odot(1-\mathbf{\vec z}^{(t+1)})\odot(\mathbf W ^{z})^T \left(\mathbf{\vec h}^{(t)} - \tanh(\mathbf{\vec e}^{(t+1)})\right)\odot \nabla_{\mathbf{\vec h}^{(t+1)}}L\\ + \mathbf{\vec r}^{(t+1)}\odot(1-\mathbf{\vec r}^{(t+1)})\odot(\mathbf W ^{r})^T (1-\mathbf{\vec z}^{(t+1)})\\\odot \mathbf W^T\left(1-\tanh^2(\mathbf{\vec e}^{(t+1)})\right)\odot \mathbf{\vec h}^{(t)} \nabla_{\mathbf{\vec h}^{(t+1)}}L+\\ \left(\mathbf{\vec z}^{(t+1)}+ (1-\mathbf{\vec z}^{(t+1)})\odot \left(1-\tanh^2(\mathbf{\vec e}^{(t+1)})\right)\odot \mathbf W \mathbf{\vec r}^{(t+1)}\right)\nabla_{\mathbf{\vec h}^{(t+1)}}L,& t\lt \tau \end{cases}$
  - $\nabla_{\mathbf{\vec h}^{(t )}}L$ $\mathbf V^{T}\nabla_{\mathbf{\vec s}^{(\tau)}}L$ ，因此 GRU 可以缓解梯度消失。
  - $\nabla_{\mathbf{\vec h}^{(t )}}L$ 中的非常量部分会被缩小，因此可以缓解梯度爆炸。
- $\mathbf V, \mathbf{\vec c}$ $\mathbf{\vec o}^{(1)},\cdots,\mathbf{\vec o}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec c}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial \mathbf{\vec s}^{(t)}}{\partial \mathbf{\vec c}^{(t)}}\right)^{T}\nabla_{\mathbf{\vec s}^{(t)}}L=\sum_{t=1}^{t=\tau}\nabla_{\mathbf{\vec s}^{(t)}}L\\ \nabla_{V_{i,:}}L=\sum_{t=1}^{t=\tau}\left(\frac{\partial L}{\partial s_i^{(t)}}\right)\nabla_{V_{i,:}^{(t)}} s_i^{(t)}=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec s}^{(t)}}L)_i\mathbf{\vec h}^{(t)}$
  $(\nabla_{\mathbf{\vec s}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec s}^{(t)}}L$ $i$ 个分量。
- $\mathbf U, \mathbf W, \mathbf{\vec b}$ $\mathbf{\vec h}^{(1)},\cdots,\mathbf{\vec h}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b}}L = \sum_{t=1}^\tau (1-\mathbf{\vec z}^{(t)})\odot \left(1- \tanh^2(\mathbf{\vec b}+\mathbf U\mathbf{\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)})\right)\odot \nabla _{\mathbf{\vec h}^{(t)}}L\\ \nabla_{U_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec h}^{(t)}}L)_i (1-\mathbf{\vec z}^{(t)})\odot \left(1- \tanh^2(\mathbf{\vec b}+\mathbf U\mathbf{\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)})\right)\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec h}^{(t)}}L)_i(1-\mathbf{\vec z}^{(t)})\odot \left(1- \tanh^2(\mathbf{\vec b}+\mathbf U\mathbf{\vec x}^{(t)}+\mathbf W\mathbf{\vec r}^{(t)}\odot \mathbf{\vec h}^{(t-1)})\right)\odot\mathbf{\vec r}^{(t)}\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec h}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec h}^{(t)}}L$ $i$ 个分量。
- $\mathbf U^z, \mathbf W^z,\mathbf{\vec b}^z$ $\mathbf{\vec z}^{(1)},\cdots,\mathbf{\vec z}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b^z}}L = \sum_{t=1}^\tau \mathbf{\vec z}^{(t)}\odot (1-\mathbf{\vec z}^{(t)})\odot \nabla _{\mathbf{\vec z}^{(t)}}L\\ \nabla_{U^z_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec z}^{(t)}}L)_i\mathbf{\vec z}^{(t)}\odot (1- \mathbf{\vec z}^{(t)})\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W^z_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec z}^{(t)}}L)_i\mathbf{\vec z}^{(t)}\odot (1- \mathbf{\vec z}^{(t)})\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec z}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec z}^{(t)}}L$ $i$ 个分量。
- $\mathbf U^r, \mathbf W^r,\mathbf{\vec r}^r$ $\mathbf{\vec r}^{(1)},\cdots,\mathbf{\vec r}^{(\tau)}$ 都有贡献，则有：
  $\nabla _{\mathbf{\vec b^r}}L = \sum_{t=1}^\tau \mathbf{\vec r}^{(t)}\odot (1-\mathbf{\vec r}^{(t)})\odot \nabla _{\mathbf{\vec r}^{(t)}}L\\ \nabla_{U^r_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec r}^{(t)}}L)_i\mathbf{\vec r}^{(t)}\odot (1- \mathbf{\vec r}^{(t)})\odot \mathbf {\vec x}^{(t)}\\ \nabla_{W^r_{i,:}}L=\sum_{t=1}^{t=\tau}(\nabla_{\mathbf{\vec r}^{(t)}}L)_i\mathbf{\vec r}^{(t)}\odot (1- \mathbf{\vec r}^{(t)})\odot \mathbf {\vec h}^{(t-1)}$
  $(\nabla_{\mathbf{\vec r}^{(t)}}L)_i$ $\nabla_{\mathbf{\vec r}^{(t)}}L$ $i$ 个分量。

4.3.3 讨论

在LSTM 与 GRU 中有两种非线性函数： sigmoid 与 tanh。
- sigmoid用于各种门，是因为它的阈值为 0~1，可以很好的模拟开关的关闭程度。
- tanh 用于激活函数，是因为它的阈值为 -1~1，它的梯度的阈值为 0~1。
  - 如果使用sigmoid 作为激活函数，则其梯度范围为 0~0.5，容易发生梯度消失。
  - 如果使用relu 作为激活函数，则前向传播时，信息容易爆炸性增长。
    另外relu 激活函数也会使得输出只有大于等于0 的部分。
前面给出的 LSTMGRU $\mathbf {\vec x}^{(t)},\mathbf{\vec h}^{(t-1)}$ 是通过 feature map 直接相加，如 LSTM 中的状态更新方程：
$\mathbf{\vec C}^{(t)}=\mathbf{\vec f}^{(t)}\odot\mathbf{\vec C}^{(t-1)}+\mathbf{\vec g}^{(t)}\odot \tanh(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)}+\mathbf W\mathbf{\vec h}^{(t-1)})$
事实上，也可以通过 feature map 进行拼接，如：
$\mathbf{\vec C}^{(t)}=\mathbf{\vec f}^{(t)}\odot\mathbf{\vec C}^{(t-1)}+\mathbf{\vec g}^{(t)}\odot \tanh(\mathbf{\vec b}+\mathbf U\mathbf {\vec x}^{(t)} : \mathbf W\mathbf{\vec h}^{(t-1)})$
$:$ 表示将两个向量进行拼接。

4.4 编码-解码架构

前面介绍的多长度输入序列的模式中，输出序列和输入序列长度相同。实际任务中，如：语音识别、机器翻译、知识问答等任务，输出序列和输入序列长度不相等。
编码-解码 $\{\mathbf{\vec x}^{(1)},\mathbf{\vec x}^{(2)},\cdots,\mathbf{\vec x}^{(\tau_x)}\}$ $\{\mathbf{\vec y}^{(1)},\mathbf{\vec y}^{(2)},\cdots,\mathbf{\vec y}^{(\tau_y)}\}$ $\tau_x \ne \tau _y$ 。
设 C 为输入的一个表达representation ，包含了输入序列的有效信息。
- 它可能是一个向量，也可能是一个固定长度的向量序列。
- 如果 C 是一个向量序列，则它和输入序列的区别在于：序列C 是定长的、较短的；而输入序列是不定长的、较长的。
整个编码-解码 结构分为：编码器，解码器。
- 编码器（也叫作读取器，或者输入RNN）：处理输入序列。
  $\mathbf{\vec h}^{(\tau_x)}$ 通常就是输入序列的表达C，并且作为解码器的输入向量。
- 解码器（也叫作写入器，或者输出RNN）：处理输入的表达C 。
  解码器有三种处理C 的方式：输入 CC $\mathbf{\vec h}^{(0)}$ 且每个时间步没有额外的输入、结合上述两种方式。
- 训练时，编码器和解码器并不是单独训练，而是共同训练以最大化：
  $\log P(\mathbf{\vec y}^{(1)},\mathbf{\vec y}^{(2)},\cdots,\mathbf{\vec y}^{(\tau_y)}\mid \mathbf{\vec x}^{(1)},\mathbf{\vec x}^{(2)},\cdots,\mathbf{\vec x}^{(\tau_x)})$
编码-解码架构中：
- $\tau_x$ $\tau_y$ 可以不同。
- 对于编码器与解码器隐状态是否具有相同尺寸并没有限制，它们是相互独立设置的。
编码-解码架构的主要缺点：编码器RNN输出的上下文C的维度太小，难以恰当的概括一个长的输入序列的完整信息。
可以通过引入attention机制来缓解该问题。

4.5 attention

attention 是一种提升 encoder - decoder 模型效果的机制，一般称作 attention mechanism 。
- attention 被广泛用于机器翻译、语音识别、图像标注Image Caption 等领域。如：机器翻译中，为句子中的每个词赋予不同的权重。
- attention 本身可以理解为一种对齐关系，给出了模型输入、输出之间的对齐关系，解释了模型到底学到了什么知识。
  - 在机器翻译中，解释了输入序列的不同位置对输出序列的影响程度。如下图所示为机器翻译中，输入-输出的 attention 矩阵。
  - 在图像标注中，解释了图片不同区域对输出文本序列的影响程度。如下图所示为图像标注中，影响输出单词的图像块。
$\{\mathbf{\vec x}^{(1)},\mathbf{\vec x}^{(2)},\cdots,\mathbf{\vec x}^{(\tau_x)}\}$ $\{\mathbf{\vec y}^{(1)},\mathbf{\vec y}^{(2)},\cdots,\mathbf{\vec y}^{(\tau_y)}\}$ $\tau_x \ne \tau _y$ encoder $\mathbf{\vec h}_1,\mathbf{\vec h}_2,\cdots$ decoder $\mathbf{\vec s}_1,\mathbf{\vec s}_2,\cdots$ 。
- 对于传统的 encoder-decoder 模型，decoderencoder $\mathbf{\vec c}$ 。
  encoder $\mathbf{\vec h}_{\tau_x}$ 作为上下文向量。
- 对于 attention encoder-decoderdecoder $\tau_y$ 。
  decoder $i$ attention $\mathbf{\vec c}_i$ ，不同位置的上下文向量不同。
  - $\mathbf{\vec c}_i$ encoder $\mathbf{\vec c}_i = \sum_{t=1}^{\tau_x} \alpha_{i,t} \mathbf{\vec h}_t$ 。
    $\sum_{t=1}^{\tau_x} \alpha_{i,t} =1,\quad \alpha_{i,t}\ge 0$ 。
  - $\alpha_{i,t}$ $i$ $t$ 个输入的重要程度。
    $\mathbf{\vec s}_{i-1}$ $\mathbf{\vec h}_t$ $t=1,2,\cdots,\tau_x$ 归一化即可得到权重系数。即：
    $e_{i,t} = \text{score}(\mathbf{\vec s}_{i-1},\mathbf{\vec h}_t),\quad \alpha_{i,t} = \frac{\exp(e_{i,t})}{\sum_{t^\prime=1}^{\tau_x}\exp(e_{i,t^\prime})},\quad t=1,2,\cdots,\tau_x$
    其中 scoreattention $\mathbf{\vec v}_\alpha,\mathbf W_\alpha$ 为待学习的参数，n 为向量的维度）：
    $\text{score}(\mathbf{\vec s}_{i-1},\mathbf{\vec h}_t) = \begin{cases} \frac{\mathbf{\vec s}_{i-1} \cdot \mathbf{\vec h}_t}{||\mathbf{\vec s}_{i-1}||\times||\mathbf{\vec h}_t||},& \text{cosin}\\ \mathbf{\vec s}_{i-1} \cdot \mathbf{\vec h}_t,& \text{dot}\\ \frac{\mathbf{\vec s}_{i-1} \cdot \mathbf{\vec h}_t}{\sqrt n},& \text{scaled-dot}\\ \mathbf{\vec s}_{i-1}^T \mathbf W_{\alpha} \mathbf{\vec h}_t,& \text{general}\\ \mathbf{\vec v}_\alpha^T \tanh(\mathbf W_\alpha [\mathbf{\vec s}_{i-1} : \mathbf{\vec h}_t]),& \text{concat} \end{cases}$

4.5.1 local attention

attention $\mathbf{\vec c}_i$ ，需要考虑 encoder 的所有隐向量。当输入序列较长时（如一段话或一篇文章），计算效率较低。
local attention $\mathbf{\vec c}_i$ 时只需要考虑 encoderencoder $p_i$ $p_i$ $\mathbf{\vec c}_i$ 。
$p_i = \tau_x\times \text{sigmoid}\left(\mathbf{\vec v}_p\cdot \tanh(\mathbf W_p\mathbf{\vec s}_{i-1})\right)\\ e_{i,t} = \text{score}(\mathbf{\vec s}_{i-1},\mathbf{\vec h}_t)\exp\left(-\frac{(t-p_i)^2}{2d^2}\right)$
$\mathbf{\vec v}_p,\mathbf W_p$ $d$ 为人工指定的固定常量。
虽然 local attention 可以提高计算效率，但是会带来两个问题：
- encoder $\tau_x$ 并不是很长时，计算量并没有显著减小。
- $p_i$ 的预测并不是非常准确，这就直接影响了计算 attention 的准确性。
`

4.5.2 self attention

传统的 attention 是基于encoder 端和 decoder 端的隐向量来计算 attention 的，得到的是输入序列的每个 input 和输出序列的每个 output 之间的依赖关系。
self attention 计算三种 attention：
- 在encoder 端计算自身的 attention，捕捉input 之间的依赖关系。
- 在 decoder 端计算自身的 attention，捕捉output 之间的依赖关系。
- 将 encoder 端得到的 self attention 加入到 decoder 端得到的 attention 中，捕捉输入序列的每个 input 和输出序列的每个 output 之间的依赖关系。
$\{\mathbf{\vec x}^{(1)},\mathbf{\vec x}^{(2)},\cdots,\mathbf{\vec x}^{(\tau_x)}\}$ $\{\mathbf{\vec y}^{(1)},\mathbf{\vec y}^{(2)},\cdots,\mathbf{\vec y}^{(\tau_y)}\}$ $\tau_x \ne \tau _y$ 。
- encoder 端的 self attention ：
  - $\mathbf W_{k}^{encode}$ key $\{\mathbf{\vec k}_{1}^{encode},\cdots,\mathbf{\vec k}_{\tau_x}^{encode}\}$ $\mathbf W_q^{encode}$ query $\{\mathbf{\vec q}_{1}^{encode},\cdots,\mathbf{\vec q}_{\tau_x}^{encode}\}$ 。
  - 然后计算归一化的 self attention：
    $e_{i,t} = \text{score}(\mathbf{\vec q}_{i}^{encode},\mathbf{\vec k}_t^{encode}),\quad v_{i,t}^{encode} = \frac{\exp(e_{i,t})}{\sum_{t^\prime=1}^{\tau_x}\exp(e_{i,t^\prime})},\quad t=1,2,\cdots,\tau_x$
    $\mathbf{\vec v}_i^{encode}=(v_{i,1}^{encode},\cdots,v_{i,\tau_x}^{encode})$ $i$ $i=1,2,\cdots,\tau_x$ 。
  - encoder $\mathbf{\vec c}^{encode}_i = \sum_{t=1}^{\tau_x} v_{i,t}^{encode}\times \mathbf{\vec x}^{(t)}$ 。
- decoderself attention $s$ $s$ $s$ 时刻之前的 attentionmasked attention $s$ ：
  - $\mathbf W_{k}^{decode}$ key $\{\mathbf{\vec k}_{1}^{decode},\cdots,\mathbf{\vec k}_{s-1}^{decode}\}$ $\mathbf W_q^{decode}$ query $\{\mathbf{\vec q}_{1}^{decode},\cdots,\mathbf{\vec q}_{s-1}^{decode}\}$ 。
  - 然后计算归一化的 self attention：
    $\tilde e_{i,t} = \text{score}(\mathbf{\vec q}_{i}^{decode},\mathbf{\vec k}_t^{decode}),\quad v_{i,t}^{decode} = \frac{\exp(\tilde e_{i,t})}{\sum_{t^\prime=1}^{s-1}\exp(\tilde e_{i,t^\prime})},\quad t=1,2,\cdots,s-1$
    $\mathbf{\vec v}_i^{decode}=(v_{i,1}^{decode},\cdots,v_{i,s-1}^{decode})$ $i$ $i=1,2,\cdots, s-1$ 。
  - encoder $\mathbf{\vec c}^{decode}_i = \sum_{t=1}^{s-1} v_{i,t}^{decode}\times \mathbf{\vec y}^{(t)}$ 。
- encoder 和 decoder 的 attention：
  - 计算归一化的 self attention：
    $\hat e_{i,t} = \text{score}(\mathbf{\vec c}_{i}^{decode},\mathbf{\vec c}_t^{encode}),\quad v_{i,t} = \frac{\exp(\hat e_{i,t})}{\sum_{t^\prime=1}^{\tau_x}\exp(\hat e_{i,t^\prime})},\quad t=1,2,\cdots,\tau_x$
    $\mathbf{\vec v}_i =(v_{i,1} ,\cdots,v_{i,\tau_x} )$ $i$ $i=1,2,\cdots,s-1$ 。
  - attention $\mathbf{\vec c}_i = \sum_{t=1}^{\tau_x} v_{i,t} \times \mathbf{\vec c}_i^{encode}$ 。
- $\mathbf{\vec c}_i$ $\mathbf{\vec y}^{(s)}$ 。
上述 self attention 机制完全抛弃了 RNN 的架构，著名的 Transformer 架构就是基于它来构建的。
self attention 未能考虑到输入序列的先后顺序，因此 Transformer 架构中引入了位置 embedding 来解决该问题。
$\{\mathbf{\vec x}^{(1)},\mathbf{\vec x}^{(2)},\cdots,\mathbf{\vec x}^{(\tau_x)}\}$ 的 self attention 只需要简单计算：
$e_{i,j} = \text{score}(\mathbf{\vec x}^{(i)} ,\mathbf{\vec x}^{(j)} ),\quad v_{i,j} = \frac{\exp(e_{i,j})}{\sum_{j^\prime=1}^{\tau_x}\exp(e_{i,j^\prime})},\quad j=1,2,\cdots,\tau_x$
引入两个映射矩阵是为了更好的泛化：attention 并不仅仅考虑序列的原始信息，而是考虑了从序列中抽取的信息。

4.5.3 Hierarchical attention

在论文《Hierarchical Attention Networks for Document Classification》 中提出了分层 attention 用于文档分类。论文提出了两个层次的 attention：
- 第一个层次是对句子中每个词进行 attention，即 word attention。
- 第二个层次是对文档中每个句子进行 attention，即 sentence attention 。
层次 attention 涉及到四个部分：
- word encoder $i$ ）
  - word embedding $\mathbf{\vec x}^{(t)}_i = \mathbf W_e^T \text{word}^{(t)}_i,t=1,2,\cdots,T$ 。
  - GRU 隐向量（原始论文中采用双向 GRU ）：
    $\overrightarrow{\mathbf h}_i^{(t)} = \overrightarrow{\text{GRU}}(\mathbf{\vec x}^{(t)}_i),\quad \overleftarrow{\mathbf h}_i^{(t)} = \overleftarrow{\text{GRU}}(\mathbf{\vec x}^{(t)}_i)$
- word attention：
  $\mathbf h_i^{(t)}=\left[\overrightarrow{\mathbf h}_i^{(t)}:\overleftarrow{\mathbf h}_i^{(t)}\right],\quad \mathbf{\vec u}^{(t)}_i = \tanh\left(\mathbf W_w\mathbf h_i^{(t)}+\mathbf{\vec b}_w\right)\\ \alpha_{i}^{(t)} = \frac{\exp(\mathbf{\vec u}^{(t)}_i\cdot \mathbf{\vec u}_w)}{\sum_{t^\prime}\exp(\mathbf{\vec u}^{(t^\prime)}_i\cdot \mathbf{\vec u}_w)},\quad \mathbf{\vec s}_i = \sum_{t^\prime} \alpha_{i}^{(t)} \mathbf h_i^{(t)}$
  $\mathbf{\vec u}_w$ 表示这个单词序列的总信息，称作单词上下文。它是随机初始化并从网络训练得到。
- sentence encoder：
  $\overrightarrow{\mathbf g}_i = \overrightarrow{\text{GRU}}(\mathbf{\vec s}_i),\quad \overleftarrow{\mathbf g}_i= \overleftarrow{\text{GRU}}(\mathbf{\vec s}_i),\quad i=1,2,\cdots,L$
- sentence attention：
  $\mathbf g_i = \left[\overrightarrow{\mathbf g}_i :\overleftarrow{\mathbf g}_i \right],\quad \mathbf{\vec w}_i = \tanh\left(\mathbf W_s\mathbf g_i +\mathbf{\vec b}_s\right)\\ \beta_{i} = \frac{\exp(\mathbf{\vec w}_i\cdot \mathbf{\vec u}_s)}{\sum_{i^\prime}\exp(\mathbf{\vec w}_{i^\prime}\cdot \mathbf{\vec u}_s)},\quad \mathbf{\vec v} = \sum_{i^\prime} \beta_{i^\prime} \mathbf g_{i^\prime}$
  $\mathbf{\vec u}_s$ 表示这个句子序列的总信息，称作句子上下文。它是随机初始化并从网络训练得到。