动手学深度学习——线性回归之线性模型与梯度下降法

目录

1. 线性回归模型与损失函数

1.1 构建简化模型

1.2 构建线性模型

1.3 线性模型联系神经网络

1.4 神经网络源于神经科学

1.5 构建损失函数

1.6 构建训练数据集

1.7 利用损失进行参数学习

1.8 学习过程表示为显示解

1.9 线性回归总结

2. 梯度下降法与参数优化

2.1 参数优化实现

2.2 学习率选取

2.3 小批量随机梯度下降

2.4 批量大小选取

2.5 梯度下降法总结


1. 线性回归模型与损失函数

为了解释 线性回归,我们举一个实际的例子:我们希望根据房屋的 面积(平方英尺)和 房龄(年)来估算 房屋价格(美元)

  1. 为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。 这个数据集包括了房屋的销售价格、面积和房龄。 在机器学习的术语中,该数据集称为训练数据集(training data set) 或 训练集(training set)
  2. 每行数据(比如一次房屋交易相对应的数据)称为 样本(sample)也可以称为 数据点(data point)或 数据样本(data instance)
  3. 我们把试图预测的 目标(比如预测房屋价格)称为标签(label)或 目标(target)
  4. 预测所依据的 自变量(面积和房龄)称为 特征(feature)或 协变量(covariate)

1.1 构建简化模型

动手学深度学习——线性回归之线性模型与梯度下降法_第1张图片

1.2 构建线性模型

动手学深度学习——线性回归之线性模型与梯度下降法_第2张图片

1.3 线性模型联系神经网络

我们可以将线性回归模型描述为一个单层神经网络,如下图所示。 需要注意的是,该图只显示连接模式,即只显示每个输入如何连接到输出,隐去了权重和偏差。

动手学深度学习——线性回归之线性模型与梯度下降法_第3张图片

1.4 神经网络源于神经科学

树突中接收到来自其他神经元(或视网膜等环境传感器)的信息 \large x_{i} 。 该信息通过突触权重 \large w_{i} 来加权,以确定输入的影响(即,通过 \large x_{i}w_{i} 相乘来激活或抑制)。 来自多个源的加权输入以加权和 \large y=\sum_{i}x_{i}w_{i}+b 的形式汇聚在细胞核中, 然后将这些信息发送到轴突 \large y 中进一步处理,通常会通过 \large \sigma(y) 进行一些非线性处理。 之后,它要么到达目的地(例如肌肉),要么通过树突进入另一个神经元

动手学深度学习——线性回归之线性模型与梯度下降法_第4张图片

1.5 构建损失函数

一般用损失函数来衡量预估的质量,即预估值与真实值的偏差情况。

动手学深度学习——线性回归之线性模型与梯度下降法_第5张图片

用二维图像表示如下:

动手学深度学习——线性回归之线性模型与梯度下降法_第6张图片

1.6 构建训练数据集

分别构建n个 样本x 组成的 特征数据集X 标签数据集y

动手学深度学习——线性回归之线性模型与梯度下降法_第7张图片

1.7 利用损失进行参数学习

将训练数据集代入到损失函数中计算 样本整体的损失 ,并通过最小化损失来学习(求出)最佳的参数:权重w 和 偏差b

动手学深度学习——线性回归之线性模型与梯度下降法_第8张图片

1.8 学习过程表示为显示解

待求解的未知量移到等号左侧,已知量全部移到等号右侧的形式称为——显示解 。

动手学深度学习——线性回归之线性模型与梯度下降法_第9张图片

对上式简单推导如下:

动手学深度学习——线性回归之线性模型与梯度下降法_第10张图片

1.9 线性回归总结

动手学深度学习——线性回归之线性模型与梯度下降法_第11张图片

2. 梯度下降法与参数优化

梯度 的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

找寻 “山谷” 与 “山顶” 的问题使用的就是 梯度下降法 ,即沿着梯度相反的方向,函数的变化率不断减小,最终趋于0,如果用此方法优化的是凸函数,便可得到函数的全局最优值

值得注意的是 梯度上升(提升)法 ,虽然名字里有个上升,但其也是沿着梯度相反的方向,所谓的提升是指优化损失的函数的增加,即弱学习器的增加(查看详解),每个学习器还是依照梯度下降法在对函数寻优;

这里优化参数明显应当使用梯度下降法(箭头所指为梯度反方向,函数变化率减小):

动手学深度学习——线性回归之线性模型与梯度下降法_第12张图片

2.1 参数优化实现

使用当前参数 \large w_{t-1} 减去步长(即:学习率*梯度)求得新的参数 \large w_{t},当梯度变为0时求得最佳参数。

加上还是减去步长其实取决于梯度值,在梯度下降法中:

  • 梯度值<0时参数应加上步长;
  • 梯度值>0时参数应减去步长。

动手学深度学习——线性回归之线性模型与梯度下降法_第13张图片

2.2 学习率选取

动手学深度学习——线性回归之线性模型与梯度下降法_第14张图片

2.3 小批量随机梯度下降

简单来说就是随机取 \large \frac{b}{n} 的样本用于计算梯度,再用该梯度计算步长来优化参数。

动手学深度学习——线性回归之线性模型与梯度下降法_第15张图片

2.4 批量大小选取

动手学深度学习——线性回归之线性模型与梯度下降法_第16张图片

2.5 梯度下降法总结

动手学深度学习——线性回归之线性模型与梯度下降法_第17张图片

你可能感兴趣的