尝试用 Regression 解决 Classification 问题
如果为每个 Class 指定一个数字,会隐含的使各个 Class 之间具备一定的联系。
所以一般会用 one-hot 来标记,并且在输出的时候,过 soft-max 函数。这里有个坑待填。 过完 soft-max 函数后,会将值限定在 0-1 之间,并且,会“凸显”原始值之间的“差距”。
在计算 loss 的时候一般用 cross-entropy 而不是 mean square error。 Minimizing cross-entropy 就是 maximizing likelihood。
一般 cross-entropy 和 soft-max 会组合使用。
cross-entropy 在 loss 非常大的时,也是有斜率的(陡峭的);而 mean square error 在 loss 非常大时,是较为平坦的。通过改变 loss func 来改变 optimization 的难度。