线性模型

2020-11-15 113 words One minute

Contents

线性模型是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型。给定一个D维样本$\pmb{x}=[x_1,…,x_D]^T$ ,其线下你给组合函数为： $$ f(x;w)=w_1x_1+w_2x_2+…+w_Dx_D+b=\pmb{w^Tx}+b $$ 其中$\pmb{w}=[w_1,…w_D]^T$为为D维的权重向量。直接用$f(x;w)$来预测输出目标$y=f(x;w)$。在分类问题中，由于输出目标$y$是一些离散的标签，而$f(x;w)$的置于为实数，因此无法直接用$f(x;w)$来进行预测，需要引入一个非线性的决策函数$g(.)$来预测输出目标 $$ y=g(f(x;w)) $$ 其中$f(x;w)$也称为判别函数。典型的二分类问题的结构图如下：

3.1线性判别函数和决策边界

一个线性分类模型是由一个（或多个）线性的判别函数$f(\pmb{x;w})=\pmb{w^Tx}+b$和非线性的决策函数$g(.)$构成。

3.1.1二分类

二分类问题的类别标签$y$只有两种取值，通常可以设为{+1,-1}。在二分类问题中，我们只需要一个线性判别函数$f(\pmb{x;w})=\pmb{w^Tx}+b$。特征空间$\cal{R}$中满足$f(\pmb{x;w})=0$的点组成一个分割超平面，称为决策边界。决策边界将特征空间一分为二，划成两个区域，每一个区域对应一个类别。

给定N个样本的训练集$\cal{D}={(x^{(n)},y^{(n)}})^N_{n=1}$.其中$y^{n}\in(+1,-1)$.线性模型视图学习到参数$\pmb{w^*}$，使得对于每个样本$(x^{n},y^n)$尽量满足 $$ f(\pmb{x}^(n);\pmb{w}^*)>0\qquad if \quad y^{(n)}=1\
f(\pmb{x}^(n);\pmb{w}^*)>0 \qquad if \quad y^{(n)}=1 $$

3.1.2多分类

多分类问题是指分类的类别数C大于2.多分类一般需要多个线性判别函数，但是设计这些判别函数有很多种形式。

假设一个多分类的问题的类别是$\lbrace1,2,…C\rbrace$。常用的方式有以下三种：

（1）“一对其余”方式:把多分类问题转换为𝐶 个“一对其余”的二分类问题．这种方式共需要𝐶 个判别函数，其中第𝑐 个判别函数$f_c$ 是将类别𝑐 的样本和不属于类别𝑐 的样本分开．

（2）“一对一方式”：：把多分类问题转换为𝐶(𝐶 − 1)/2 个“一对一”的二分类问题．这种方式共需要𝐶(𝐶 − 1)/2 个判别函数，其中第(𝑖, 𝑗) 个判别函数是把类别𝑖 和类别𝑗 的样本分开．

（3）“argmax”方式：这是一种改进的“一对其余"方式，共需要C个判别函数 $$ f_c(\pmb{x,w_c})=\pmb{w_c^Tx}+b_c \qquad c\in\lbrace1,…C\rbrace $$ 对于样本𝒙，如果存在一个类别𝑐，相对于所有的其他类别𝑐(̃ 𝑐 ̃ ≠ 𝑐)有𝑓𝑐(𝒙;𝒘𝑐) > 𝑓𝑐̃(𝒙,𝒘𝑐̃)，那么𝒙属于类别𝑐．“argmax”方式的预测函数定义为 $$ y={argmax}_{c=1}^Cf_c(\pmb{x;w}_c) $$

3.2 logistic回归

对于二分类问题，假定$y\in\lbrace0,+1\rbrace$,给定一个输入向量$\pmb{x}$，它可能对应一张图片（假设包含猫），比如你可能想要识别这张图片是否包含一只猫，你想要一个算法能够输出预测$\hat{y}$，也就是对实际值$y$的估计。也就是说你想要让$\hat{y}$表示$y$等于1的可能性，前提条件是给定了输入特征$\pmb{x}$。我们引入非线性函数sigmoid函数：$g（.）=\sigma$来预测后验概率$p(y=1|\pmb{x})$。 $$ let\quad y\approx\hat{y}=p(y=1|\pmb{x})=g(f(\pmb{x;w}))=g(\pmb{w^Tx}+b)=\sigma(\pmb{w^Tx}+b) $$ 其中sigmoid函数（也称为logistics函数）的图像为：

sigmoid函数函数表达式为：$\sigma(z)=\frac1{1+e^{-z}}$.由表达式可知，如果$z$很大的话$\sigma(z)\approx1$。相反的，如果$z$很小，那么$\sigma(z)\approx0$。因此此时我们的工作就是让机器学习参数$\pmb{w},b$使得$z=\pmb{w^Tx}+b$较大，这样才能使$\hat{y}$成为对$y=1$这一情况的一个很好的估计。

3.2.1 参数学习

logistics回归采用交叉熵作为损失函数，并使用梯度下降法来对参数进行更新（优化）。

损失函数为（最小化损失函数）： $$ \Re(\pmb{w},b)=-\frac1N\sum_{n=1}^N(y^{(n)}log(\hat{y}^{(n)})+(1-y^{n})log(1-\hat{y}^{(n)})) $$ 直观的理解：当$y=1$时损失函数为$-log(\hat{y})$,如果想要损失函数尽可能的小，那么$\hat{y}$就要尽可能的大，又因为sigmiod函数的取值范围为[0,1]，所以$\hat{y}$会尽可能的接近1。同理当$y=0$时损失函数为$-log(1-\hat{y})$，如果想要损失函数尽可能的小，就要使$\hat{y}$尽可能接近0。

3.3 softmax回归

https://note.youdao.com/ynoteshare1/index.html?id=a15461dfbaf9b46fe22a75dc0ef34b46&type=note

Softmax 回归（Softmax Regression），也称为多项Multinomial）或多类（Multi-Class）的Logistic 回归，是Logistic 回归在多分类问题上的推广。

对于多分类问题，类别标签$y\in\lbrace1,2,…C\rbrace$可以有C个可能取值。给定一个样本$\pmb{x}$，softmax回归预测的属于类别c的概率为 $$ p(y=c|\pmb{x})=softmax(\pmb{w_c^Tx})=\frac {exp(\pmb{w_c^Tx})}{\sum_\tilde{c}^{C}exp(\pmb{w_\tilde{c}^Tx})} $$

其中$\pmb{w_c}$为第第c类的权重向量。

3.3.1参数学习

采用交叉熵损失函数，softmax的损失函数为： $$ \Re(\pmb{w},b)=-\frac1N\sum_{n=1}^Ny^{(n)}log(\hat{y}^{(n)}) $$