统计学习方法都是由模型、策略和算法构成的,可简单表示为
方法 = 模型 + 策略 + 算法
下面论述监督学习中的统计学习方法三要素。
模型
统计学习方法首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。
假设空间用$F$表示,假设空间可以定义为决策函数的集合
$$
F={f\;|\;Y=f_\theta(X),\theta \in R^n}
$$
也可以定义为条件概率的集合
$$
F={P\;|\;P(Y|X),\theta \in R^n}
$$
参数向量$\theta$取值于$n$维欧氏空间 $R^n$,也称为参数空间(parameter space)。
策略
统计学习的目标在于从假设空间中选取最优模型。
1. 损失函数和风险函数
损失函数(loss function):度量模型一次预测的好坏,记作$L(Y,f(X))$
常用的损失函数有几种
- 0-1损失函数(0-1 loss function)
$$
L(Y,f(X)) =\begin{cases}
1, & Y \neq f(X) | 0, & Y = f(X) \end{cases}
$$ - 平方损失函数(quadratic loss function)
$$L(Y,f(X))=(Y-f(X))^2$$ - 绝对损失函数(absolute loss function)
$$L(Y,f(X))=|Y-f(X)|$$ - 对数损失函数(logarithmic loss function)
$$L(Y,P(Y|X))=-log P(Y|X)$$
风险函数(risk function) 或 期望损失(expected loss):度量平均意义下模型预测的好坏。
损失函数值越小,模型就越好。由于模型的输入、输出$(X,Y)$是随机变量,遵循联合分布$P(X,Y)$,所以损失函数的期望是
$$R_{exp}(f)=E_P[L(Y,f(X))]=\int_{x \times y}L(y, f(x))P(x,y)dx\,dy$$
给定一个训练数据集
$$T={(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$$
模型$f(X)$关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical losss),记作$R_{emp}$:
$$R_{emp}(f) = {1 \over N} \sum_{i=1}^N L(y_i, f(x_i)) $$
期望风险$R_{exp}(f)$是模型关于联合分布的期望损失,经验风险$R_{emp}(f)$是模型关于训练样本的平均损失。根据大数定律,当样本容量$N$趋于无穷时,经验风险$R_{emp}(f)$趋于期望风险$R_{exp}(f)$。所以一个很自然的想法就是用经验风险估算期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估算期望风险常常并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
2. 经验风险最小化与结构风险最小化
经验风险最小化(empirical risk minimization, ERM)的策略认为,经验风险最小的模型是最优模型。即
$$ \min_{f \in F}\;{1 \over N}\sum_{i=1}^N L(y_i, f(x_i))$$
其中,$F$是假设空间。极大似然估计(maximum likelihood estimation) 就是经验风险最小化的例子。
结构风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是
$$ R_{srm}(f) = {1 \over N}\sum_{i=1}^N L(y_i, f(x_i)) + \lambda J(f) $$
其中$J(f)$为模型的复杂度,是定义在假设空间$F$上的泛函。模型$f$越复杂,复杂度$J(f)$就越大;反之亦然。$\lambda \ge 0$ 是系数,用以权衡经验风险和模型复杂度。结构风险小需要经验风险和模型复杂度同时小。结构风险小的模型往往对训练数据及未知的测试数据都有比较好的预测。
比如,贝叶斯估计中的 最大后验概率估计(maximum posterior probability estimation,MAP) 就是结构风险最小化的一个例子。
结构风险最小化即
$$ \min_{f \in F} {1 \over N} \sum_{i=1}^N L(y_i, f(x_i)) + \lambda J(f) $$
这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题。
算法
算法是指学习模型的具体计算方法。
统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型。算法的作用即用于求解该最优模型。
统计学习问题可归结为最优化问题,统计学习的算法成为求解最优化问题的算法。可以利用已有的最优化算法,有时也需要开发独自的最优化算法。