目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。

满足不同角色需求:领域专家 数据管理者 数据科学家 科研人员、高校教师及研究生 数据分析爱好者
分类回归决策树(CART)
1712次浏览 dataju 于 2016-07-10 发布
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
分析方法描述
决策树是一类常用的分类方法,以树状结构拟合数据从而构建预测模型,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。其核心问题有两个: 1. 如何确定哪个特征被优先选择用来分类。 根据某一个特征划分数据集,其划分前后信息熵会有变化。优先选择的特征是让给让信息熵变化最大或者信息熵增益比最大的特征。 不过,从另外一方面来说,也要避免选择日期或者非常特殊的特征来做决策点,因为这些特征不具备任何的泛化能力。 2. 如何避免过拟合。 对于决策树来说,如果树的高度过高,或者某个叶子节点的数据特别少,或者叶子节点非常多(后两者有关联),就有可能是过拟合,在匹配被预测数据的时候就不会有很好的性能。避免决策树学习中的过度拟合问题,通常通过两种方法: (1)及早停止树增长,比如发现树的高度过高,叶节点过多,或者节点内数据过少。这是sci-kit learn库目前的做法。 (2)通过后剪枝减少决策树的节点的个数。 尽管上面第一种方法可能看起来更直接,但是对过度拟合的树进行后修剪被证明在实践中更成功。这是因为在第一种方法中精确的估计何时停止树增长很困难。后剪枝的算法基本上就是合并同一个根节点下面所有的叶节点成为一个大的节点,而选择哪些节点做合并则需要根据节点内部数据个数。 分类与回归树(CART——Classification And Regression Tree) 是一种有效的非参数分类和回归方法。它通过构建二叉树达到预测目的。 CART 模型最早由Breiman等人提出,已经在统计领域和数据挖掘技术中普遍使用。它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。由CART 模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,且数据越复杂、变量越多,算法的优越性就越显著。模型的关键是预测准则的构建,准确的。 CART使用基尼不纯度(Gini Impurity)来决定划分。Gini Impurity和information gain ratio的理解和区分在这里: 它和C45基本上是类似的算法,主要区别:1)它的叶节点不是具体的分类,而是是一个函数,该函数定义了在该条件下的回归函数。2)CART是二叉树,而不是多叉树。
分析方法参数
暂无
相关应用案例
暂无
参考资料
暂无

目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。