周志华-机器学习

第二章

m个样本中有a个样本分类错误,则错误率

精度=1-错误率,

graph LR
误差-->训练误差or经验误差
误差-->泛化误差

过拟合(过配) 与 欠拟合(欠配)

从数据集中产生训练集和测试集的方法

  1. 留出法

将数据集拆成互斥的两部分,一部分作为训练集,一部分作为测试集,采用若干次随机划分,重复进行实验评估后取平均值作为留出法的评估结果。

常见做法是将2/3或4/5的样本作为训练集,剩余的样本作为测试集。

  1. 交叉验证法

将数据集D划分成K个大小相似的互斥子集,每次用k-1个子集作为训练集,1个子集作为测试集,从而可进行k次训练和测试。k最常用的取值是10。

k折交叉验证通常要采用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。