深度学习的优化

1138-魏同学

发表文章数:75

首页 » 算法 » 正文

一些符号:

θ

t

/theta _{t}

θt:模型参数:时间步长

L

(

θ

t

)

/bigtriangledown L(/theta _{t})

L(θt)或者

g

t

g _{t}

gt:

θ

t

/theta _{t}

θt的梯度,用于计算

θ

t

+

1

/theta _{t+1}

θt+1

m

t

+

1

m_{t+1}

mt+1:动量从0到t累积,用于计算

θ

t

+

1

/theta _{t+1}

θt+1,记录前面时刻的梯度
深度学习的优化
如上图所示:

x

t

x_{t}

xt:输入

θ

t

/theta _{t}

θt:时刻t的模型参数

y

t

y_{t}

yt:输出

y

^

t

/hat{y}_{t}^{}

y^t:输出对应的标签

L

(

θ

t

;

x

t

)

L(/theta _{t};x_{t})

L(θt;xt):输出值与标签所得出的损失值
优化的意义
找到θ,使得

s

u

m

x

L

(

θ

;

x

)

sum_{x}L(/theta;x)

sumxL(θ;x)取得最小

几个常见的优化算法:

随机梯度下降:
深度学习的优化
带动量的梯度下降:
深度学习的优化
结果不只取决于当前梯度,还与之前的值有关系。
深度学习的优化
如上图所示,如果简单的使用梯度下降,在

L

w

=

0

/frac{/partial L}{/partial w} = 0

wL=0处,就不会再继续移动,但是,当使用有动量的随机梯度下降,会受动量的影响,继续移动。

Adagrad

深度学习的优化
如图所示Adagrad的η,加上了一个分母,为了防止前几个时间点的梯度过大,出现梯度爆炸的情况,反而得到更差的结果。

RMSProp
深度学习的优化
RMSProp是Adagrad的改进,最大的区别是分母部分,不会无止境的增加。

Adam
Adam综合了SGDM算法和RMSProp算法:
深度学习的优化

未经允许不得转载:作者:1138-魏同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《深度学习的优化》 发布于2020-11-26

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录