多用于集成学习,森林
算法原理
让判断条件更加精确,考虑更多的情况
ID3 决策树
计算的是信息增益,信息增益指的就是划分可以带来纯度的提高,信息熵的下降。
其核心是在决策树的各级节点上,使用信息增益方法的选择标准,来帮助确定生产每个节点时所对应采用的合适属性, 不能自动分箱, 不能剪枝。
C4.5 决策树
采用信息增益率的方式来选择属性。
相对于ID3改进是使用信息增益率来选择节点属性。 克服ID3点不足: ID3只适用于离散的描述属性; C4.5可以处理连续和离散属性; 可以剪枝。
CART 决策树
是基于基尼系数来做属性选择。
通过构建树、修剪树、评估树来构建一个二叉树。 通过控制树的结构来控制模型: 当终节点是连续变量是——回归树; 当终节点是分类变量是——分类树。
决策树防止过拟合手段
模型评估