循环神经网络变体：LSTM门控机制与GRU简化结构的数学推导

当前位置：首页 > 学习资源 > 讲师博文 > 循环神经网络变体：LSTM门控机制与GRU简化结构的数学推导

循环神经网络变体：LSTM门控机制与GRU简化结构的数学推导时间：2026-04-13 来源：华清远见

引言

循环神经网络（RNN）在处理时序数据方面具有天然优势，但其面临严重的梯度消失问题，难以捕捉长距离依赖关系。长短期记忆网络（LSTM）和门控循环单元（GRU）通过精巧的门控机制解决了这一问题。本文将深入剖析这两种网络变体的数学原理，从梯度消失的根源出发，逐步推导LSTM的门控机制，并展示GRU如何在此基础上进行简化。

1. RNN的梯度消失问题

1.1 标准RNN的数学形式

标准的RNN通过循环连接处理序列数据，其隐藏状态更新公式为：

$$h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$$

其中，$x_t$是当前时间步的输入，$h_{t-1}$是上一时间步的隐藏状态。

1.2 梯度消失的数学根源

在误差反向传播过程中，当我们计算损失函数对早期时间步隐藏状态的偏导数时，需要沿时间维度展开：

$$\frac{\partial L}{\partial h_0} = \frac{\partial L}{\partial h_t} \prod_{k=1}^{t} \frac{\partial h_k}{\partial h_{k-1}}$$

对矩阵$W_{hh}$进行奇异值分解，$W_{hh} = U\Sigma V^T$，其中$\Sigma$包含奇异值$\sigma_i$。当时间步$t$很大时，该偏导数取决于矩阵$W_{hh}$的最大奇异值$\sigma_{max}$：

- 当$\sigma_{max} > 1$时，梯度爆炸

- 当$\sigma_{max} < 1$时，梯度消失

梯度爆炸相对容易处理，可以使用梯度裁剪解决。但梯度消失问题更为棘手，它导致网络难以捕捉长距离依赖关系，这正是LSTM和GRU要解决的核心问题。

2. LSTM的门控机制数学推导

LSTM通过引入记忆单元和三个门控单元，为信息流动创建了一条"高速公路"，有效缓解了梯度消失问题。

2.1 门控单元的数学定义

LSTM包含三个门：输入门、遗忘门和输出门。它们的计算公式如下：

遗忘门（Forget Gate）：

$$f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + b_f)$$

输入门（Input Gate）：

$$i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + b_i)$$

输出门（Output Gate）：

$$o_t = \sigma(W_{xo}x_t + W_{ho}h_{t-1} + b_o)$$

其中，$\sigma$是sigmoid激活函数，将输出压缩到$[0,1]$区间，起到开关的作用。

2.2 候选记忆细胞

除了三个门外，LSTM还计算候选记忆细胞，它包含了当前输入的新信息：

$$\tilde{c}_t = \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_c)$$

这里使用tanh激活函数，将输出值域限制在$[-1,1]$。

2.3 记忆细胞更新：核心创新

LSTM的核心创新在于记忆细胞的更新方式，它通过遗忘门和输入门的协同作用，实现了对历史信息和当前信息的选择性融合：

$$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t$$

其中$\odot$表示逐元素相乘。这个公式的精妙之处在于：

- 遗忘门$f_t$控制上一时刻记忆细胞$c_{t-1}$中的信息保留多少

- 输入门$i_t$控制当前候选记忆细胞$\tilde{c}_t$中的信息加入多少

当遗忘门$f_t \approx 1$且输入门$i_t \approx 0$时，记忆细胞几乎完全保留历史信息，梯度可以无损地沿时间反向传播，这正是LSTM缓解梯度消失的关键。

2.4 隐藏状态计算

最后，基于更新后的记忆细胞计算当前时间步的隐藏状态：

$$h_t = o_t \odot \tanh(c_t)$$

输出门$o_t$控制从记忆细胞中读取多少信息传递给隐藏状态。

2.5 梯度流动的优势

LSTM通过上述门控机制，在反向传播时梯度路径上出现了加法运算，而不是像标准RNN那样全是乘法运算。这打破了反复乘以$W_{hh}$导致的梯度指数级衰减或爆炸，使得梯度可以在长时间步中有效传播。

3. GRU的简化结构数学推导

GRU是LSTM的一种简化变体，它将LSTM的三个门缩减为两个门，并合并了记忆单元和隐藏状态。

3.1 GRU的数学形式

GRU包含更新门和重置门，其数学定义如下：

更新门（Update Gate）：

$$z_t = \sigma(W_{xz}x_t + W_{hz}h_{t-1} + b_z)$$

重置门（Reset Gate）：

$$r_t = \sigma(W_{xr}x_t + W_{hr}h_{t-1} + b_r)$$

候选隐藏状态：

$$\tilde{h}_t = \tanh(W_{xh}x_t + W_{hh}(r_t \odot h_{t-1}) + b_h)$$

最终隐藏状态：

$$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$$

3.2 与LSTM的对比分析

从数学形式上看，GRU与LSTM存在以下对应关系：

1. 更新门$z_t$ 同时扮演了LSTM中遗忘门和输入门的角色。当$z_t \approx 1$时，模型倾向于使用新的候选状态；当$z_t \approx 0$时，模型倾向于保留旧状态。

2. 重置门$r_t$ 控制过去状态对当前候选状态的影响程度。当$r_t \approx 0$时，候选状态忽略历史信息，仅基于当前输入计算，相当于"重置"记忆。

3. 结构简化：GRU没有单独的记忆单元$c_t$和输出门$o_t$，直接将隐藏状态$h_t$同时用作输出和记忆载体。

3.3 参数效率对比

从参数量角度分析，GRU相比LSTM更加轻量：

- LSTM包含4个非线性变换（三个门+候选记忆细胞），每个变换都需要对应的权重矩阵

- GRU只包含3个非线性变换（两个门+候选隐藏状态）

- 实验研究表明，GRU相比LSTM可减少25-26%的参数，训练速度提升30-40%

4. LSTM与GRU的对比总结

4.1 结构差异

| 组件 | LSTM | GRU |

|------|------|-----|

| 门控数量 | 3个（输入门、遗忘门、输出门） | 2个（更新门、重置门） |

| 状态变量 | 记忆单元$c_t$和隐藏状态$h_t$ | 仅隐藏状态$h_t$ |

| 信息控制 | 门控独立控制输入和遗忘 | 更新门同时控制输入和遗忘 |

4.2 数学本质

从数学推导的角度看，两者都遵循相同的设计哲学：通过门控机制创建梯度高速公路。LSTM通过加法操作$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t$实现这一目标；GRU则通过插值操作$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$达到类似效果。

4.3 性能权衡

实际应用中的选择取决于具体需求：

- LSTM：结构更复杂，表达能力更强，在需要精细控制信息流动的任务（如金融波动预测）中表现更优，可将预测误差降低36.8%

- GRU：结构更简单，训练更快，适合资源受限或对延迟敏感的场景（如边缘计算应用）

结语

LSTM和GRU是循环神经网络发展史上的里程碑式成果。通过本文的数学推导可以看出，LSTM通过精巧的三门控结构为梯度流动创造了通道，而GRU则在保持核心思想的基础上实现了结构简化。理解这些数学原理，不仅有助于我们更好地应用这些模型，也为设计新的网络结构提供了理论基础。在实际应用中，可以根据具体任务的需求和资源约束，在表达能力和计算效率之间做出合理权衡。

上一篇：过拟合与欠拟合的识别：学习曲线分析与正则化策略选择

下一篇：词嵌入技术演进：Word2Vec、GloVe与FastText的矩阵分解视角

戳我查看嵌入式每月就业风云榜

点我了解华清远见高校学霸学习秘籍

猜你关心企业是如何评价华清学员的

干货分享