目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。

满足不同角色需求:领域专家 数据管理者 数据科学家 科研人员、高校教师及研究生 数据分析爱好者
混淆矩阵 (confusion matrix)
2837次浏览 dataju 于 2016-07-10 发布
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
评价指标介绍

混淆矩阵 (confusion matrix是分类问题最常见的评价方法之一,根据分类预测值和实际值,对 $ n $ 类的分类问题生成 $ n \times n$ 的整数值矩阵,矩阵元素的值是预测类别与实际类别一致的个数。图1红框展示了二分类的混淆矩阵,图2红框展示了多分类的混淆矩阵。

1

图1  二分类混淆矩阵

对于二分类方法而言,基本的评价指标都是由混淆矩阵中的元素计算所得,以下是一些常见评价指标。

1、真正,正类预测正确的数量 $$ true~positive~(TP),~hit = (1) $$

2、真负,负类预测正确的数量 $$ true~negative~(TN),~correct~rejection = (4) $$

3、假正,正类预测错误的数量,统计学上的第一类错误 $$ false~positive~(FP),~false~alarm,~Type~I~error = (3) $$

4、假负,负类预测错误的数量,统计学上的第二类错误 $$ false~negative~(FN),~miss,~Type~II~error = (2) $$

5、假正召回率 $$ false~positive~rate~(FPR),~fall-out = \frac{(3)}{(3)+(4)} = \frac{(3)}{(6)} $$

6、假正精准率 $$ false~discovery~rate~(FDR) = \frac{(3)}{(1)+(3)} = \frac{(3)}{(7)} $$

7、准确率、正确率 $$ accuracy = \frac{(1) + (4)}{(1)+(2)+(3)+(4)} = \frac{(1) + (4)}{(9)} $$

8、正类精准率 $$ positive~predictive~value~(PPV), precision = \frac{(1)}{(1)+(3)} = \frac{(1)}{(7)} $$

9、正类召回率、敏感度 $$ sensitivity,~true~positive~rate~(TPR), hit~rate, recall = \frac{(1)}{(1)+(2)} = \frac{(1)}{(5)} $$

10、负类召回率 $$ specificity~(SPC),~true~negative~rate (TNR) = \frac{(4)}{(3)+(4)} = \frac{(4)}{(6)} $$

11、负类精准率 $$ negative~predictive~value~(NPV) = \frac{(4)}{(2)+(4)} = \frac{(4)}{(8)} $$

12、F值、精准率与召回率的调和平均数 $$ F1~score,~harmonic~mean~of~precision~and~recall = \frac{ 2 }{ \frac{1}{precision} + \frac{1}{recall} } = \frac{ 2 \times (1) }{ 2 \times (1) + (2) + (3) } = \frac{ 2 \times (1) }{ (5) + (7) } $$

多分类情形下的混淆矩阵如图2红框部分所示,同样是从预测值与实际值之间的匹配程度两个维度生成矩阵,对角线上元素为分类模型预测正确的数量,其它位置元素为不同种类的预测错误情况。

2

图2  N分类混淆矩阵


相关应用案例
# 应用案例名称 应用案例介绍
1 UCI Iris 数据集支持向量机建模预测鸢花种类 UCI Iris 数据集,采用多分类支持向量机 C-SVC 方法建模,通过鸢花外形数据预测鸢花种类。
2 UCI Iris 数据集决策树建模预测鸢花种类 UCI Iris 数据集,采用多分类支持向量机 C4.5 决策树方法建模,通过鸢花外形数据预测鸢花种类。
3 UCI Iris 数据集K近邻方法建模预测鸢花种类 UCI Iris 数据集,采用多分类 KNN 方法建模,通过鸢花外形数据预测鸢花种类。
4 UCI Germny数据集Logistic Regression建模预测贷款违约 UCI Germny数据集Logistic Regression建模预测贷款违约
5 UCI Germny数据集 Native Bayes 建模预测贷款违约 UCI Germny数据集 Native Bayes 建模预测贷款违约
6 UCI Germny数据集 Nonparallel SVM 建模预测贷款违约 UCI Germny数据集 Nonparallel SVM 建模预测贷款违约
7 UCI Beast-cancer 数据集 SVM 建模预测乳腺癌可能性 UCI Beast-cancer 数据集 SVM 建模预测乳腺癌可能性
8 MNIST数据集SVM手写数字识别建模 MNIST数据集SVM手写数字识别建模
参考文献
暂无

目前平台处于试运行阶段,如有任何问题或建议,请发送邮件至 service@dataju.cn 或加入QQ群 565136792 联系管理员。