Momentum | Notion

原先的（Vanilla）Gradient Descent，从一个起点开始，计算 gradient，然后往反向跑，然后再计算，再跑。

Momentum 版的不只是往反向跑，也会看前一次 update 的方向。通过引入前一次的分量。

每一级的权重是对前面 gradient 的总和