原先的(Vanilla)Gradient Descent,从一个起点开始,计算 gradient,然后往反向跑,然后再计算,再跑。

Momentum 版的不只是往反向跑,也会看前一次 update 的方向。通过引入前一次的分量。

每一级的权重是对前面 gradient 的总和