核心挑战:模型拟合的艺术
训练模型就像教育一个学生,我们既不希望他死记硬背,也不希望他敷衍了事。在“刚刚好”的学习状态和“过度”或“不足”之间找到平衡,是机器学习中最核心的挑战之一。
过拟合 (Overfitting) 与 欠拟合 (Underfitting)
过拟合:死记硬背的学生
模型过于复杂,把训练数据中的噪声和细节都学了进去,导致在训练集上表现极好,但在新的测试数据上表现很差。它失去了泛化能力。
欠拟合:敷衍了事的学生
模型过于简单,连训练数据中的基本规律都没有学到。它在训练集和测试集上表现都很差。
动手试试:
下面的散点图是我们的“考题”。点击按钮,看看不同复杂度的模型(拟合曲线)是如何学习这些数据的。
偏差-方差权衡 (Bias-Variance Tradeoff)
模型的总误差可以分解为偏差 (Bias)、方差 (Variance)和不可约减的误差。这是一个此消彼长的关系:
- 高偏差 (High Bias): 模型做了过强的假设,过于简单,导致欠拟合。就像一个射手总是稳定地射偏靶心。
- 高方差 (High Variance): 模型对训练数据过于敏感,一点点扰动都会让模型结果产生巨大变化,导致过拟合。就像一个射手每次射击都离得很散。
动手试试:
拖动滑块来调整“模型复杂度”。观察偏差(训练误差)和方差(训练与验证误差之差)如何变化,找到总误差最低的“最佳平衡点”。
偏差 (Bias)
0.00
方差 (Variance)
0.00
总误差
0.00