机器学习的模型评估与模型选择

1. 训练误差与测试误差

机器学习的目的是使学习到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。

假设学习到的模型是模型评估与模型选择，训练误差是模型关于训练数据集的平均损失：

模型评估与模型选择

其中NN是训练样本容量。

测试误差是模型模型评估与模型选择关于测试数据集的平均损失：

模型评估与模型选择

其中N′是测试样本容量。

当损失函数是0-1损失时，测试误差就变成了常见的测试数据集上的误差率（预测错误的个数除以测试数据的总个数）。

训练误差的大小，对判定给定问题是不是一个容易学习的问题是有意义的，但本质上不重要。测试误差反映了学习方法对未知数据集的预测能力，是学习中的重要概念。显然，给定两种学习方法，测试误差小的方法具有更好的预测能力，是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力（generalization ability）。

2. 过拟合与模型选择

我们知道假设空间理论上有无限个模型，它们有着不同的复杂度（一般表现为参数个数的多少），我们希望选择或学习一个合适的模型。

如果一味提高对训练数据的预测能力，所选的模型的复杂度则往往会比真实模型更高。这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测很好，但对未知数据预测很差的现象。

下面，以多项式函数拟合问题为例，说明过拟合与模型选择，这是一个回归问题。

现在给定一个训练数据集：

模型评估与模型选择

其中，Xi∈R是输入X的观测值，Yi∈R是相应的输出y的观测值。多项式函数拟合的任务是假设给定数据由M次多项式函数生成，选择最有可能产生这些数据的M次多项式函数，即在M次多项式函数中选择一个对已知数据以及未知数据都有很多预测能力的函数。

设M次多项式为：

模型评估与模型选择

对于上面这个问题，模型的复杂度即为多项式的次数；然后在给定的模型复杂度下，按照经验风险最小化策略，求解参数，即多项式的系数，具体地，求以下经验风险最小化：

模型评估与模型选择

这时，损失函数为平方损失，系数模型评估与模型选择是为了计算方便。

我们用y=sin(x)生成10个数据点，并适当的在y值上加了一些误差，下面我们分别用0~9次多项式对数据进行拟合。

模型评估与模型选择

上图给出了M=1,M=3,M=9时多项式拟合的情况。当M=1时多项式曲线是一条直线，数据拟合效果很差。相反，如果M=9，多项式曲线通过每个数据点，训练误差为0。从对给定的训练数据拟合的角度来说，效果是最好的。但是因为训练数据本身存在噪声，这种拟合曲线对未知数据的预测能力往往并不是最好的，这时过拟合现象就会发生。

import numpy as np

import matplotlib.pyplot as plt

import random

x = np.linspace(0,1,10)

y = np.sin(2*np.pi*x)

for i in range(0,10):

y[i] = y[i] + random.uniform(-0.4,0.4)

p = np.polyfit(x,y,9)

t = np.linspace(0,1.0,100)

plt.plot(x,y,’o’)

plt.plot(t,np.sin(np.pi*2*t),label=’$y=sin(x)$’);

plt.plot(t,np.polyval(p,t),label=’$y = \sum_{i=0}^Mw_ix_i,M=9,x_0=0$’);

plt.legend()

plt.show()

3. 正则化与交叉验证

3.1 正则化

前面文章在介绍机器学习策略的时候，已经提到过结构风险最小化的概念。结构风险最小化正是为了解决过拟合问题来提出来的策略，它在经验风险上加一个正则化项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数的向量的范数。

正则化项可以取不同的形式。例如，回归问题中，损失函数是平方损失，正则化项可以是参数向量的范数：

模型评估与模型选择

这里，||w||表示参数向量w的模型评估与模型选择范数。

正则化项也可以是参数向量的模型评估与模型选择范数：

模型评估与模型选择

这里，||w||1|表示参数向量w的模型评估与模型选择范数。

正则化符合奥卡姆剃刀（Occam’s razor）原理。奥卡姆剃刀应用在模型选择时想法是：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂模型有较小的先验概率，简单的模型有较大的先验概率。