周志华-机器学习
第二章
m个样本中有a个样本分类错误,则错误率
精度=1-错误率,
graph LR 误差-->训练误差or经验误差 误差-->泛化误差
过拟合(过配) 与 欠拟合(欠配)
从数据集中产生训练集和测试集的方法
- 留出法
将数据集拆成互斥的两部分,一部分作为训练集,一部分作为测试集,采用若干次随机划分,重复进行实验评估后取平均值作为留出法的评估结果。
常见做法是将2/3或4/5的样本作为训练集,剩余的样本作为测试集。
- 交叉验证法
将数据集D划分成K个大小相似的互斥子集,每次用k-1个子集作为训练集,1个子集作为测试集,从而可进行k次训练和测试。k最常用的取值是10。
k折交叉验证通常要采用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。