o
机器学习的模型离不开训练数据。对训练数据契合度越好的模型,不一定是越是好模型,反而很可能是更差的模型。模型好坏的评价标准,来自于预测效果的好坏,如果不能对未知做有效的预测,就不是一个好模型。
对训练数据契合度很好,对测试数据表现却比较差,说明泛化能力差。这种模型称之为“过拟合”。“过拟合”的模型,往往就是模型太复杂,参数太多,这类模型,算法也必然复杂。过于复杂的模型和算法,浪费了资源,属于“得不偿失”。
那么模型是不是就是越简单越好了呢?也并不是。
过于简单的模型,也无法应对测试数据,不能用来做预测分析之用,我们称之为“欠拟合”。“欠拟合”的模型可能是训练数据太少,缺乏代表性,数据的特征没有反映出来。
所以,模型不是越复杂越好,也不是越简单越好,只要恰当反应数据的特征即可。因需要充分考虑训练数据的代表性。这也说明了训练数据筛选的重要性。
(点击率:2822)