原先的(Vanilla)Gradient Descent,从一个起点开始,计算 gradient,然后往反向跑,然后再计算,再跑。
Momentum 版的不只是往反向跑,也会看前一次 update 的方向。通过引入前一次的分量。
每一级的权重是对前面 gradient 的总和