目录
1.激活函数
1.1.sigmoid激活函数
1.2.ReLU激活函数
2.卷积层
3.池化层
4.误差的计算
5.CrossEntropyLss交叉熵损失
5.1.针对多分类问题(softmax输出,所有输出概率和为1)
5.2.针对二分类问题(sigmoid输出,每个输出节点之间互不相干)
6.误差的反向传播
7.权重的更新
8.优化器
8.1.SGD优化器(Stochastic Gradient Descent)
8.2.SGD+Momentum优化器
8.3.Adagrad优化器(自适应学习率)
8.4.RMSProp优化器(自适应学习率)
8.5.Adam优化器(自适应学习率)
9.过拟合
缺点:Sigmoid激活函数饱和时梯度值非常小,故网络层数较深时易出现梯度消失。
缺点:当反向传播过程中有一个非常大的梯度经过时,反向传播更新后可能导致权重分布中心小于0,导致该处的倒数始终为0,反向传播无法更新权重,即进入失活状态。
其中为真实标签值,
为预测值,默认log以e为底等于ln。
在实际应用中往往不可能一次新将所有数据载入内存(算力也不够),所以只能分批次(batch)训练。若使用整个样本集进行求解,损失梯度只想全局最优方向;若使用分批次样本进行求解,损失梯度只想当前批次最优方向。
其中α为学习率,为i时刻对参数
的损失梯度。缺点:易受样本噪声影响;可能陷入局部最优解。
其中α为学习率,为i时刻对参数
的损失梯度,η(0.9)为动量系数。
其中α为学习率,为i时刻对参数
的损失梯度,
为防止分母为零的小数。缺点:学习率下降的太快可能还没收敛就停止训练。
其中α为学习率,为i时刻对参数
的损失梯度,η(0.9)控制衰减速度,
为防止分母为零的小数。
其中α为学习率,为i时刻对参数
的损失梯度,
控制衰减速度,
为防止分母为零的小数。