李宏毅机器学习课程(2)机器学习任务攻略

茴香豆 Lv5

对于模型训练的初期,一般遵循下图的调整方向。

攻略

optimization fails(优化失败):(critical point: training loss不再下降)

  • local minima(局部最小值):无路可走
  • saddle point(鞍点):有路可走

Batch and Momentum(批量和动量):解决梯度下降停止的问题

batch中的小批量和大批量问题

batch

Momentum: 将前一步的update的方向加上当前梯度下降的反方向

自动调整学习率

一般的梯度下降算法很少会走到critical point,往往会遇到的问题是

  • 学习率过大时,模型不断在最低点附近震荡而无法靠近最低点。
  • 学习率过小时,模型需要很大很大的计算量才能缓慢的靠近最低点。

learning rate

所以我们要使学习率自动随着梯度的大小进行变化。我们可以通过下面这个式子来设置学习率的更新(parameter dependent learning rate)

\theta^{t+1}_i \gets \theta^t_i - \frac{\eta}{\sigma^t_i} g^t_i g^t_i = \frac{\partial L}{\partial \theta_i}|_{\theta=\theta^t}

Root Mean Square 更新方法

square

RMSProp 更新方法

最近的梯度有较大的影响,而过去的梯度影响会较小。

RMSProp

Adam使用的即为RMSProp+Momentum

Learning Rate Scheduling(随时间变化的学习率)

使学习率跟随时间发生变化,以满足模型的要求。

\theta^{t+1}_i \gets \theta^t_i - \frac{\eta^T}{\sigma^t_i}g^t_i

scheduling

classification(分类问题)

详细版本:https://youtu.be/fZAZUYEelMg https://youtu.be/hSXFuypLukA

Loss of Classification

Mean Square Error(MSE) e = \sum_i(\hat{y}_i-y'_i)^2

Cross-entropy(更适合用在分类上) e = -\sum_i \hat{y}_i lny'_i

minimizing cross-entropy is equivalent to maximizing likelihood.

  • Title: 李宏毅机器学习课程(2)机器学习任务攻略
  • Author: 茴香豆
  • Created at : 2023-02-15 08:25:21
  • Updated at : 2023-02-15 12:35:27
  • Link: https://hxiangdou.github.io/2023/02/15/ML-LHY-2/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments