目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。

满足不同角色需求:领域专家 数据管理者 数据科学家 科研人员、高校教师及研究生 数据分析爱好者
C4.5决策树分类方法
1695次浏览 dataju 于 2016-07-10 发布
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
分析方法描述
决策树是一类常用的分类方法,以树状结构拟合数据从而构建预测模型,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。其核心问题有两个: 1. 如何确定哪个特征被优先选择用来分类。 根据某一个特征划分数据集,其划分前后信息熵会有变化。优先选择的特征是让给让信息熵变化最大或者信息熵增益比最大的特征。 不过,从另外一方面来说,也要避免选择日期或者非常特殊的特征来做决策点,因为这些特征不具备任何的泛化能力。 2. 如何避免过拟合。 对于决策树来说,如果树的高度过高,或者某个叶子节点的数据特别少,或者叶子节点非常多(后两者有关联),就有可能是过拟合,在匹配被预测数据的时候就不会有很好的性能。避免决策树学习中的过度拟合问题,通常通过两种方法: (1)及早停止树增长,比如发现树的高度过高,叶节点过多,或者节点内数据过少。这是sci-kit learn库目前的做法。 (2)通过后剪枝减少决策树的节点的个数。 尽管上面第一种方法可能看起来更直接,但是对过度拟合的树进行后修剪被证明在实践中更成功。这是因为在第一种方法中精确的估计何时停止树增长很困难。后剪枝的算法基本上就是合并同一个根节点下面所有的叶节点成为一个大的节点,而选择哪些节点做合并则需要根据节点内部数据个数。 选取能够得到最大信息增益(information gain)的特征为数据划分归类,直到全部划分结束而不对树的规模进行任何控制。 等树生成之后,执行后剪枝。 信息增益的潜在问题是,比如有一个数据集含有一个特征是日期或者ID,则该特征会得到最大的信息增益,但是显然在验证数据中不会得到任何的结果。C45的信息增益比就是解决这个问题的。
分析方法参数
# 名称 描述
1 是否使用减枝策略 是否使用减枝策略
2 减枝置信度阙值 减枝置信度阙值
3 叶子节点中最小实例数 叶子节点中最小实例数
4 减枝过程中使用的交叉验证折数 减枝过程中使用的交叉验证折数
相关应用案例
# 应用案例名称 应用案例介绍
1 UCI Iris 数据集决策树建模预测鸢花种类 UCI Iris 数据集,采用多分类支持向量机 C4.5 决策树方法建模,通过鸢花外形数据预测鸢花种类。
参考资料
暂无

目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。