为什么参数越多就越容易 Overfitting

评价一个训练集选择的好坏：

$$ P\left(\mathcal{D}_{train}\ is\ \boldsymbol{bad}\right) \leq |\mathcal{H}| \cdot 2exp(-2N\varepsilon^2) $$

$|\mathcal{H}|$：函数的可选数目。

$N$：training set 的大小。

从这个式子可以看出，$|\mathcal{H}|$ 越大或 $N$ 越小时右侧的值越小。

当右侧的值较小时，就越可以满足：

$$ L\left(h^{train}, \mathcal{D}{all}\right) - L\left(h^{all}, \mathcal{D}{all}\right) \leq \delta $$

这里有个矛盾：当函数的可选数目多时，也就是模型复杂时，得到的 $P\left(\mathcal{D}{train}\ is \ \boldsymbol{bad}\right)$ 就会偏大，此时在测试集和训练集上的 loss 差距就会较大；而当函数的可选数目少时，也就是模型简单时，$L\left(h^{all}, \mathcal{D}{all}\right)$ 本身将会变大，则显然这将是个坏模型。

据说深度学习可以解决这个问题，让我们拭目以待。