据说深度学习可以解决这个问题,让我们拭目以待。 中提出了深度学习可以解决那个问题。

对于

$$ h^{all}=\arg \min {h \in \mathcal{H}} L\left(h, \mathcal{D}{all}\right) $$

找到一个 $\mathcal{H}$,满足:本身足够小且同时使 $L$ 很低。

为什么要深度学习?

一层的可以搞回归。一个 Neuron 拟合一小段(用 active func)。

当你有更多的数据时,把模型变高比变胖更好。

表示同一个函数,矮胖的比高瘦的需要更多的参数。

可能直觉上会觉得深度学习里的“深度”二字会导致 overfitting,但实际上反而不容易 overfitting。

不断的叠加?

可以用上一层的函数充当本层的“基本单位”,就可以以几何级增加其复杂度。(将初始的分段,以叠加的方式加以复制)

用少量的 neurons 大量的层数可以构建较小的 $\mathcal{H}$,同时也保持其“复杂度”。

而要达到同样的“复杂度”,一层的则需要大量的 neurons,使用大量的参数,从而导致 $\mathcal{H}$ 很大,就容易 overfitting。

<aside> 💡 少参的嵌套 $f(g(h(\dots)))$ (其中 $f g h$ 参数个数相同)和一个多参 $f$ 的区别。 $g$ 将 $h$ 充当基本单位来构建。

</aside>

如果你需要的函数是复杂,且有规律的,那么 deep learning 适合。

<aside> 💡 注意到,“嵌套”和“基本单位”,实际上是一种复制。

</aside>

而处理图像和语音的函数可能就是复杂且有规律的。

值得注意的是这里的复杂,实际上也没有多复杂,对于“简单”的函数,deep 也可能更好。