目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。

满足不同角色需求:领域专家 数据管理者 数据科学家 科研人员、高校教师及研究生 数据分析爱好者
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
评价指标介绍

KS曲线 (K-S curve) 是一条二维坐标系中的曲线,用以刻画二分类模型的分辨能力,进而比较不同二分类模型之间的差异,如图1中紫色曲线所示。KS曲线空间的两个维度是在特定阈值下正()实例累积百分比和当前实例累积百分比。

对给定的测试数据,二分类模型的直接输出主要有两类。一类是直接输出最终的预测类别,形式为 $ output = \{ T, F,..., T \} $,如:决策树等。另一类并未直接输出预测类别,而是类别的倾向性度量,形式为 $ output = \{ 1.25, -0.89,..., 2.18 \} $,如:支持向量机、逻辑回归分类、贝叶斯分类等。

对于第二类模型,在模型和测试数据集固定的前提下,将实例按照模型输出值进行排序,通过改变不同的阈值得到大于或小于某个阈值时,对应实例集合中正()样本占全部正()样本的比例,以及该阈值下的实例集合占全体的比例。由于这个两个比例会随着阈值的变化而单调递增,所以也称之为累计比例。

下面举个例子说明。假设模型对$ n $个实例的输出值升序排列为 $ predict=\{ 0.1, 0.2,...,0.5,..., 0.8 \} $,对应实例编号为$ \{ i_1, i_2,...i_q,..., i_n \} $。当阈值取0.5时,则取 $ predict $值小于等于0.5的实例子集 $ s = \{ i_1, i_2,...i_q \} $,计算$ s $中正(负)实例占实际全部正(负)实例的比例值,同时计算子集 $ s $ 中实例占全部实例的比例,这两个值对应KS曲线空间中的一个点。由小到大改变阈值从而得到多个点,将这些点连接后分别得到正、负实例累积曲线。正、负实例累积曲线相减得到KS曲线,一般KS曲线是向上凸起,如图1所示。

3

图1  正负样本累积比例和KS曲线

ROC曲线和PRC曲线类似,KS曲线也反映了模型对正负类之间的区分能力,图1中的正、负累积曲线距离越远,模型区分两类实例的能力就越强。与ROC和PRC曲线不同的是,KS曲线可以反映出在不同区间段中模型的区分能力。一般在应用可,可以取KS曲线的最高点,作为体现模型最佳划分能力的体现。这个最大值也称为KS值。

相关应用案例
暂无
参考文献
暂无

目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。