挑模型在 validation 上验证并选择最小的过程也是一个训练过程。
$$ \mathcal{H}{val}=\left\{h{1}^{}, h_{2}^{}, h_{3}^{}\right\} \quad h^{}=\arg \min {h \in \mathcal{H}{val}} L\left(h, \mathcal{D}_{val }\right) $$
只是选择比较少,在上面的例子中只有三个。
$$ P\left(\mathcal{D}{val} \text { is } \boldsymbol{b a d}\right) \leq\left|\mathcal{H}{val}\right| \cdot 2 \exp \left(-2 N_{val} \varepsilon^{2}\right) $$
$\mathcal{H}_{val}$ 是你训练出来的可选模型,当可选模型越少时,自然也就不会“训练”过度了。