为什么用 validation set 还是 overfitting 的？

挑模型在 validation 上验证并选择最小的过程也是一个训练过程。

$$ \mathcal{H}{val}=\left\{h{1}^{}, h_{2}^{}, h_{3}^{}\right\} \quad h^{}=\arg \min {h \in \mathcal{H}{val}} L\left(h, \mathcal{D}_{val }\right) $$

只是选择比较少，在上面的例子中只有三个。

$$ P\left(\mathcal{D}{val} \text { is } \boldsymbol{b a d}\right) \leq\left|\mathcal{H}{val}\right| \cdot 2 \exp \left(-2 N_{val} \varepsilon^{2}\right) $$

$\mathcal{H}_{val}$ 是你训练出来的可选模型，当可选模型越少时，自然也就不会“训练”过度了。