机器学习(周志华)读书笔记---第8章 集成学习

8.1 个体与集成
集成学习通过构建并结合多个学习器来提升性能
弱学习:泛化性能略高于50%的分类器
强学习:由弱学习提升而来
集成的结果通过投票产生
集成个体应好而不同
机器学习(周志华)读书笔记---第8章 集成学习_第1张图片
在一定条件下,随着集成分类器数目增加,集成的错误率将指数级下降,最终趋于0.
而学习器显然不可能互相独立。集成学习大致就可以分为两类:
存在强依赖关系,必须串行生成的序列化方法(boosting)
不存在强依赖关系,必须并行生成的方法(Bagging,Random forest)

Bagging
基于自助采样法
算法:
机器学习(周志华)读书笔记---第8章 集成学习_第2张图片
可使用包外估计(自助采样法剩下的样本用作验证集)
降低方差,不容易过拟合,精准度一般比Boosting要低一些。

随机森林(RF)
bagging的一个扩展变种,在其基础上,进一步在决策树训练过程中引入了随机属性选择。而Bagging是采样的随机性。
对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含K个属性的子集,然后再从这个子集中选择一个最优属性用于当前节点的划分,重复m次,得到m个决策树。k控制了随机性,推荐K=log2d
机器学习(周志华)读书笔记---第8章 集成学习_第3张图片

Boosting
个体学习器存在强依赖关系
串行生成
每次调整训练数据的样本分布
Adaboost
机器学习(周志华)读书笔记---第8章 集成学习_第4张图片
算法:
机器学习(周志华)读书笔记---第8章 集成学习_第5张图片
梯度提升算法
提升(使得损失函数在训练集上的期望最小)的理论意义:由弱分类器得到强分类器。

Gradient Boosting(不断改变权值,来提升分类器)

Adaboost算法最终分类器的训练误差界为:
机器学习(周志华)读书笔记---第8章 集成学习_第6张图片
降低偏差,可对泛化性能相当弱的学习器构造出很强的集成 容易过拟合
机器学习(周志华)读书笔记---第8章 集成学习_第7张图片

你可能感兴趣的