当前位置:首页 > 学习资源 > 讲师博文 > 循环神经网络变体:LSTM门控机制与GRU简化结构的数学推导

循环神经网络变体:LSTM门控机制与GRU简化结构的数学推导 时间:2026-04-13      来源:华清远见

引言

循环神经网络(RNN)在处理时序数据方面具有天然优势,但其面临严重的梯度消失问题,难以捕捉长距离依赖关系。长短期记忆网络(LSTM)和门控循环单元(GRU)通过精巧的门控机制解决了这一问题。本文将深入剖析这两种网络变体的数学原理,从梯度消失的根源出发,逐步推导LSTM的门控机制,并展示GRU如何在此基础上进行简化。

1. RNN的梯度消失问题

1.1 标准RNN的数学形式

标准的RNN通过循环连接处理序列数据,其隐藏状态更新公式为:

$$h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$$

其中,$x_t$是当前时间步的输入,$h_{t-1}$是上一时间步的隐藏状态。

1.2 梯度消失的数学根源

在误差反向传播过程中,当我们计算损失函数对早期时间步隐藏状态的偏导数时,需要沿时间维度展开:

$$\frac{\partial L}{\partial h_0} = \frac{\partial L}{\partial h_t} \prod_{k=1}^{t} \frac{\partial h_k}{\partial h_{k-1}}$$

对矩阵$W_{hh}$进行奇异值分解,$W_{hh} = U\Sigma V^T$,其中$\Sigma$包含奇异值$\sigma_i$。当时间步$t$很大时,该偏导数取决于矩阵$W_{hh}$的最大奇异值$\sigma_{max}$:

- 当$\sigma_{max} > 1$时,梯度爆炸

- 当$\sigma_{max} < 1$时,梯度消失

梯度爆炸相对容易处理,可以使用梯度裁剪解决。但梯度消失问题更为棘手,它导致网络难以捕捉长距离依赖关系,这正是LSTM和GRU要解决的核心问题。

2. LSTM的门控机制数学推导

LSTM通过引入记忆单元和三个门控单元,为信息流动创建了一条"高速公路",有效缓解了梯度消失问题。

2.1 门控单元的数学定义

LSTM包含三个门:输入门、遗忘门和输出门。它们的计算公式如下:

遗忘门(Forget Gate):

$$f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + b_f)$$

输入门(Input Gate):

$$i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + b_i)$$

输出门(Output Gate):

$$o_t = \sigma(W_{xo}x_t + W_{ho}h_{t-1} + b_o)$$

其中,$\sigma$是sigmoid激活函数,将输出压缩到$[0,1]$区间,起到开关的作用。

2.2 候选记忆细胞

除了三个门外,LSTM还计算候选记忆细胞,它包含了当前输入的新信息:

$$\tilde{c}_t = \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_c)$$

这里使用tanh激活函数,将输出值域限制在$[-1,1]$。

2.3 记忆细胞更新:核心创新

LSTM的核心创新在于记忆细胞的更新方式,它通过遗忘门和输入门的协同作用,实现了对历史信息和当前信息的选择性融合:

$$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t$$

其中$\odot$表示逐元素相乘。这个公式的精妙之处在于:

- 遗忘门$f_t$控制上一时刻记忆细胞$c_{t-1}$中的信息保留多少

- 输入门$i_t$控制当前候选记忆细胞$\tilde{c}_t$中的信息加入多少

当遗忘门$f_t \approx 1$且输入门$i_t \approx 0$时,记忆细胞几乎完全保留历史信息,梯度可以无损地沿时间反向传播,这正是LSTM缓解梯度消失的关键。

2.4 隐藏状态计算

最后,基于更新后的记忆细胞计算当前时间步的隐藏状态:

$$h_t = o_t \odot \tanh(c_t)$$

输出门$o_t$控制从记忆细胞中读取多少信息传递给隐藏状态。

2.5 梯度流动的优势

LSTM通过上述门控机制,在反向传播时梯度路径上出现了加法运算,而不是像标准RNN那样全是乘法运算。这打破了反复乘以$W_{hh}$导致的梯度指数级衰减或爆炸,使得梯度可以在长时间步中有效传播。

3. GRU的简化结构数学推导

GRU是LSTM的一种简化变体,它将LSTM的三个门缩减为两个门,并合并了记忆单元和隐藏状态。

3.1 GRU的数学形式

GRU包含更新门和重置门,其数学定义如下:

更新门(Update Gate):

$$z_t = \sigma(W_{xz}x_t + W_{hz}h_{t-1} + b_z)$$

重置门(Reset Gate):

$$r_t = \sigma(W_{xr}x_t + W_{hr}h_{t-1} + b_r)$$

候选隐藏状态:

$$\tilde{h}_t = \tanh(W_{xh}x_t + W_{hh}(r_t \odot h_{t-1}) + b_h)$$

最终隐藏状态:

$$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$$

3.2 与LSTM的对比分析

从数学形式上看,GRU与LSTM存在以下对应关系:

1. 更新门$z_t$ 同时扮演了LSTM中遗忘门和输入门的角色。当$z_t \approx 1$时,模型倾向于使用新的候选状态;当$z_t \approx 0$时,模型倾向于保留旧状态。

2. 重置门$r_t$ 控制过去状态对当前候选状态的影响程度。当$r_t \approx 0$时,候选状态忽略历史信息,仅基于当前输入计算,相当于"重置"记忆。

3. 结构简化:GRU没有单独的记忆单元$c_t$和输出门$o_t$,直接将隐藏状态$h_t$同时用作输出和记忆载体。

3.3 参数效率对比

从参数量角度分析,GRU相比LSTM更加轻量:

- LSTM包含4个非线性变换(三个门+候选记忆细胞),每个变换都需要对应的权重矩阵

- GRU只包含3个非线性变换(两个门+候选隐藏状态)

- 实验研究表明,GRU相比LSTM可减少25-26%的参数,训练速度提升30-40%

4. LSTM与GRU的对比总结

4.1 结构差异

| 组件 | LSTM | GRU |

|------|------|-----|

| 门控数量 | 3个(输入门、遗忘门、输出门) | 2个(更新门、重置门) |

| 状态变量 | 记忆单元$c_t$和隐藏状态$h_t$ | 仅隐藏状态$h_t$ |

| 信息控制 | 门控独立控制输入和遗忘 | 更新门同时控制输入和遗忘 |

4.2 数学本质

从数学推导的角度看,两者都遵循相同的设计哲学:通过门控机制创建梯度高速公路。LSTM通过加法操作$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t$实现这一目标;GRU则通过插值操作$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$达到类似效果。

4.3 性能权衡

实际应用中的选择取决于具体需求:

- LSTM:结构更复杂,表达能力更强,在需要精细控制信息流动的任务(如金融波动预测)中表现更优,可将预测误差降低36.8%

- GRU:结构更简单,训练更快,适合资源受限或对延迟敏感的场景(如边缘计算应用)

结语

LSTM和GRU是循环神经网络发展史上的里程碑式成果。通过本文的数学推导可以看出,LSTM通过精巧的三门控结构为梯度流动创造了通道,而GRU则在保持核心思想的基础上实现了结构简化。理解这些数学原理,不仅有助于我们更好地应用这些模型,也为设计新的网络结构提供了理论基础。在实际应用中,可以根据具体任务的需求和资源约束,在表达能力和计算效率之间做出合理权衡。

上一篇:过拟合与欠拟合的识别:学习曲线分析与正则化策略选择

下一篇:词嵌入技术演进:Word2Vec、GloVe与FastText的矩阵分解视角

戳我查看嵌入式每月就业风云榜

点我了解华清远见高校学霸学习秘籍

猜你关心企业是如何评价华清学员的

干货分享
相关新闻
前台专线:010-82525158 企业培训洽谈专线:010-82525379 院校合作洽谈专线:010-82525379 Copyright © 2004-2024 北京华清远见科技发展有限公司 版权所有 ,京ICP备16055225号-5京公海网安备11010802025203号

回到顶部