Classification

尝试用 Regression 解决 Classification 问题

如果为每个 Class 指定一个数字，会隐含的使各个 Class 之间具备一定的联系。

所以一般会用 one-hot 来标记，并且在输出的时候，过 soft-max 函数。这里有个坑待填。过完 soft-max 函数后，会将值限定在 0-1 之间，并且，会“凸显”原始值之间的“差距”。

在计算 loss 的时候一般用 cross-entropy 而不是 mean square error。 Minimizing cross-entropy 就是 maximizing likelihood。

一般 cross-entropy 和 soft-max 会组合使用。

cross-entropy 在 loss 非常大的时，也是有斜率的（陡峭的）；而 mean square error 在 loss 非常大时，是较为平坦的。通过改变 loss func 来改变 optimization 的难度。