Task3 决策树

4 决策树

多用于集成学习,森林

  • 算法原理

    Task3 决策树_第1张图片

    让判断条件更加精确,考虑更多的情况

    • 信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定,其含有的信息量越多。
    • 联合熵: 观察一个多个随机变量的随机系统获得的信息量。
    • 条件熵: 在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。
    • 信息增益: 信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
  • ID3 决策树

    计算的是信息增益,信息增益指的就是划分可以带来纯度的提高,信息熵的下降。

    其核心是在决策树的各级节点上,使用信息增益方法的选择标准,来帮助确定生产每个节点时所对应采用的合适属性, 不能自动分箱, 不能剪枝

  • C4.5 决策树

    采用信息增益率的方式来选择属性。

    对于ID3改进是使用信息增益率来选择节点属性。 克服ID3点不足: ID3只适用于离散的描述属性; C4.5可以处理连续和离散属性; 可以剪枝

  • CART 决策树

    是基于基尼系数来做属性选择。

    通过构建树、修剪树、评估树来构建一个二叉树。 通过控制树的结构来控制模型: 当终节点是连续变量是——回归树当终节点是分类变量是——分类树

  • 决策树防止过拟合手段

    • 前剪枝: 在创建时就设置以某些条件来避免过拟合的生长。
    • 后剪枝: 在决策树生成后修剪。
  • 模型评估

    Task3 决策树_第2张图片

你可能感兴趣的