据说深度学习可以解决这个问题,让我们拭目以待。 中提出了深度学习可以解决那个问题。
对于
$$ h^{all}=\arg \min {h \in \mathcal{H}} L\left(h, \mathcal{D}{all}\right) $$
找到一个 $\mathcal{H}$,满足:本身足够小且同时使 $L$ 很低。
为什么要深度学习?
一层的可以搞回归。一个 Neuron 拟合一小段(用 active func)。
当你有更多的数据时,把模型变高比变胖更好。
表示同一个函数,矮胖的比高瘦的需要更多的参数。
可能直觉上会觉得深度学习里的“深度”二字会导致 overfitting,但实际上反而不容易 overfitting。
不断的叠加?
可以用上一层的函数充当本层的“基本单位”,就可以以几何级增加其复杂度。(将初始的分段,以叠加的方式加以复制)
用少量的 neurons 大量的层数可以构建较小的 $\mathcal{H}$,同时也保持其“复杂度”。
而要达到同样的“复杂度”,一层的则需要大量的 neurons,使用大量的参数,从而导致 $\mathcal{H}$ 很大,就容易 overfitting。
<aside> 💡 少参的嵌套 $f(g(h(\dots)))$ (其中 $f g h$ 参数个数相同)和一个多参 $f$ 的区别。 $g$ 将 $h$ 充当基本单位来构建。
</aside>
如果你需要的函数是复杂,且有规律的,那么 deep learning 适合。
<aside> 💡 注意到,“嵌套”和“基本单位”,实际上是一种复制。
</aside>
而处理图像和语音的函数可能就是复杂且有规律的。
值得注意的是这里的复杂,实际上也没有多复杂,对于“简单”的函数,deep 也可能更好。