线性模型

  1. 给定样本 ,其中 为样本 的第 个特征,特征有 种。

    线性模型(linear model) 的形式为:

    其中 为每个特征对应的权重生成的权重向量。

  2. 线性模型的优点是:

    • 模型简单。
    • 可解释性强,权重向量 直观地表达了各个特征在预测中的重要性。
  3. 很多功能强大的非线性模型(nolinear model) 可以在线性模型的基础上通过引入层级结构或者非线性映射得到。

一、线性回归

1.1 问题

  1. 给定数据集 ,其中

    线性回归问题试图学习模型 :

    该问题也被称作多元线性回归(multivariate linear regression)

  2. 对于每个 ,其预测值为 。采用平方损失函数,则在训练集 上,模型的损失函数为:

    优化目标是损失函数最小化,即:

1.2 求解

  1. 可以用梯度下降法来求解上述最优化问题的数值解,但是实际上该最优化问题可以通过最小二乘法获得解析解。

  2. 令:

    则有:

    令:

    则:

  3. 。为求得它的极小值,可以通过对 求导,并令导数为零,从而得到解析解:

    • 为满秩矩阵时,可得:

      其中 的逆矩阵。

      最终学得的多元线性回归模型为:

    • 不是满秩矩阵。此时存在多个解析解,他们都能使得均方误差最小化。究竟选择哪个解作为输出,由算法的偏好决定。

      比如 (样本数量小于特征种类的数量),根据 的秩小于等于 中的最小值,即小于等于 (矩阵的秩一定小于等于矩阵的行数和列数); 而矩阵 大小的,它的秩一定小于等于 ,因此不是满秩矩阵。

      常见的做法是引入正则化项:

      • 正则化:此时称作Lasso Regression

        为正则化系数,调整正则化项与训练误差的比例。

      • 正则化:此时称作Ridge Regression

        为正则化系数,调整正则化项与训练误差的比例。

      • 同时包含 正则化:此时称作Elastic Net

        其中:

        • 为正则化系数,调整正则化项与训练误差的比例。
        • 为比例系数,调整 正则化与 正则化的比例。

1.3 算法

  1. 多元线性回归算法:

    • 输入:

      • 数据集
      • 正则化项系数
    • 输出模型:

    • 算法步骤:

      令:

      求解:

      最终学得模型:

二、广义线性模型

2.1 广义线性模型的函数定义

  1. 考虑单调可微函数 ,令 ,这样得到的模型称作广义线性模型 (generalized linear model)。

    其中函数 称作联系函数 (link function) 。

  2. 对数线性回归是广义线性模型在 时的特例。即:

    • 它实际上是试图让 逼近
    • 它在形式上仍是线性回归,但是实质上是非线性的。

2.2 广义线性模型的概率定义

  1. 如果给定 的条件概率分布 服从指数分布族,则该模型称作广义线性模型。

    指数分布族的形式为:

    • 的线性函数:
    • 的函数
    • 的函数

2.3 常见分布的广义线性模型

2.3.1 高斯分布

  1. 高斯分布:

    令:

    则满足广义线性模型。

2.3.2 伯努利分布

  1. 伯努利分布(二项分布, 为 0 或者 1,取 1的概率为 ):

    令:

    则满足广义线性模型。

  2. 根据 ,有 。 则得到:

    因此 logistic 回归属于伯努利分布的广义形式。

2.3.3 多元伯努利分布

  1. 假设有 个分类,样本标记 。每种分类对应的概率为 。则根据全概率公式,有

    • 定义 为一个 维的列向量:

    • 定义示性函数 : 表示属于 分类; 表示不属于 分类。则有:

    • 构建概率密度函数为:

    • 则有:

      ,则满足广义线性模型。

  2. 根据:

    则根据:

    于是有:

    .

三、对数几率回归

  1. 线性回归不仅可以用于回归任务,还可以用于分类任务。

3.1 二分类模型

  1. 考虑二分类问题。

    给定数据集

    • 考虑到 取值是连续的,因此它不能拟合离散变量。

      可以考虑用它来拟合条件概率 ,因为概率的取值也是连续的。

    • 但是对于 (若等于零向量则没有什么求解的价值), 取值是从 ,不符合概率取值为 ,因此考虑采用广义线性模型。

      最理想的是单位阶跃函数:

    • 但是阶跃函数不满足单调可微的性质,不能直接用作

      对数几率函数(logistic function)就是这样的一个替代函数:

      这样的模型称作对数几率回归(logistic regressionlogit regression)模型。

  2. 由于 ,则有:

    • 比值 表示样本为正例的可能性比上反例的可能性,称作几率(odds)。几率反映了样本作为正例的相对可能性。

      几率的对数称作对数几率(log odds,也称作logit)。

    • 对数几率回归就是用线性回归模型的预测结果去逼近真实标记的对数几率。

  3. 虽然对数几率回归名字带有回归,但是它是一种分类的学习方法。其优点:

    • 直接对分类的可能性进行建模,无需事先假设数据分布,这就避免了因为假设分布不准确带来的问题。
    • 不仅预测出来类别,还得到了近似概率的预测,这对许多需要利用概率辅助决策的任务有用。
    • 对数函数是任意阶可导的凸函数,有很好的数学性质,很多数值优化算法都能直接用于求取最优解。

3.2 参数估计

  1. 给定训练数据集 ,其中 。可以用极大似然估计法估计模型参数,从而得出模型。

    为了便于讨论,将参数 吸收进 中。

    令:

    则似然函数为:

    对数似然函数为:

  2. 由于 ,因此:

    则需要求解最优化问题:

    最终 logistic 回归模型为:

  3. logistic 回归的最优化问题,通常用梯度下降法或者拟牛顿法来求解。

3.3 多分类模型

  1. 可以推广二分类的 logistic 回归模型到多分类问题。

  2. 设离散型随机变量 的取值集合为: ,则多元 logistic 回归模型为:

    其中

    其参数估计方法类似二项 logistic 回归模型。

四、线性判别分析

  1. 线性判别分析Linear Discriminant Analysis:LDA 基本思想:

    • 训练时:给定训练样本集,设法将样例投影到某一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。要学习的就是这样的一条直线。
    • 预测时:对新样本进行分类时,将其投影到学到的直线上,在根据投影点的位置来确定新样本的类别。

4.1 二分类模型

  1. 考虑二类分类问题。设数据集为:

4.1.1 投影

  1. 表示类别为 0 的样例的集合,这些样例的均值向量为 ,这些样例的特征之间协方差矩阵为 (协方差矩阵大小为 )。

    表示类别为 1 的样例的集合,这些样例的均值向量为 ,这些样例的特征之间协方差矩阵为 (协方差矩阵大小为

  2. 假定直线为: ,其中