动量方法与Adam优化器的比较
时间:2025-02-20 来源:华清远见
优化器(optimizer)
目标: 最小化损失函数
过程: 在反向传播中, 根据学习率(lr)来对参数进行更新,最终逐步降低损失函数的大小, 使得神经网络输出更好(函数拟合的更好)


优点:
1. 前后梯度一致时能够加速学习
2. 前后梯度不一致时能够抑制震荡, 越过局部最小值
缺点:
1. 引入一个额外的参数 y

思想: 结合Momentum和RMSprop两种优化器的算法, 并引入一阶矩估计和二阶矩估计。
优点:
1. Adam能够自动调整每个参数的学习率, 能够很好地处理噪声和非平稳的训练数据
2. 相较于其他可变学习率(AdaGrad)的优化器, 提高了训练速度
总结:
如果在未知模型上进行训练, 可以先考虑使用Adam确保损失函数能够找到最小值, 即模型拟合的函数能够收敛,然后切换回SGD进行训练, 快速达到对应的值。
C语言内存管理避坑指南mallocfree与嵌入式堆栈(HeapSt
I2C 设备组网常见问题排查:从硬件到寄存器的全流程
Python迭代器与生成器深度解析
FreeRTOS 队列(Queue)使用与排错指南
时序预测技术对比: DNN/RNN/LSTM 在风电 功率预测中
STM32位域(bit-field)在寄存器映射中的高效应用与跨平
从Encoder-Decoder到GPT大模型的底层实现
DMA 传输配置指南:从串口、ADC 到 SPI 的高速数据吞
注意力机制深度拆解:从 Soft-Attention 到 Self-Atte
深入剖析:FreeRTOS信号量在设备通信中的工程细节
