混淆矩阵 (confusion matrix) 是分类问题最常见的评价方法之一,根据分类预测值和实际值,对 $ n $ 类的分类问题生成 $ n \times n$ 的整数值矩阵,矩阵元素的值是预测类别与实际类别一致的个数。图1红框展示了二分类的混淆矩阵,图2红框展示了多分类的混淆矩阵。
图1 二分类混淆矩阵
对于二分类方法而言,基本的评价指标都是由混淆矩阵中的元素计算所得,以下是一些常见评价指标。
1、真正,正类预测正确的数量 $$ true~positive~(TP),~hit = (1) $$
2、真负,负类预测正确的数量 $$ true~negative~(TN),~correct~rejection = (4) $$
3、假正,正类预测错误的数量,统计学上的第一类错误 $$ false~positive~(FP),~false~alarm,~Type~I~error = (3) $$
4、假负,负类预测错误的数量,统计学上的第二类错误 $$ false~negative~(FN),~miss,~Type~II~error = (2) $$
5、假正召回率 $$ false~positive~rate~(FPR),~fall-out = \frac{(3)}{(3)+(4)} = \frac{(3)}{(6)} $$
6、假正精准率 $$ false~discovery~rate~(FDR) = \frac{(3)}{(1)+(3)} = \frac{(3)}{(7)} $$
7、准确率、正确率 $$ accuracy = \frac{(1) + (4)}{(1)+(2)+(3)+(4)} = \frac{(1) + (4)}{(9)} $$
8、正类精准率 $$ positive~predictive~value~(PPV), precision = \frac{(1)}{(1)+(3)} = \frac{(1)}{(7)} $$
9、正类召回率、敏感度 $$ sensitivity,~true~positive~rate~(TPR), hit~rate, recall = \frac{(1)}{(1)+(2)} = \frac{(1)}{(5)} $$
10、负类召回率 $$ specificity~(SPC),~true~negative~rate (TNR) = \frac{(4)}{(3)+(4)} = \frac{(4)}{(6)} $$
11、负类精准率 $$ negative~predictive~value~(NPV) = \frac{(4)}{(2)+(4)} = \frac{(4)}{(8)} $$
12、F值、精准率与召回率的调和平均数 $$ F1~score,~harmonic~mean~of~precision~and~recall = \frac{ 2 }{ \frac{1}{precision} + \frac{1}{recall} } = \frac{ 2 \times (1) }{ 2 \times (1) + (2) + (3) } = \frac{ 2 \times (1) }{ (5) + (7) } $$
多分类情形下的混淆矩阵如图2红框部分所示,同样是从预测值与实际值之间的匹配程度两个维度生成矩阵,对角线上元素为分类模型预测正确的数量,其它位置元素为不同种类的预测错误情况。
图2 N分类混淆矩阵
# | 应用案例名称 | 应用案例介绍 |
---|---|---|
1 | UCI Iris 数据集支持向量机建模预测鸢花种类 | UCI Iris 数据集,采用多分类支持向量机 C-SVC 方法建模,通过鸢花外形数据预测鸢花种类。 |
2 | UCI Iris 数据集决策树建模预测鸢花种类 | UCI Iris 数据集,采用多分类支持向量机 C4.5 决策树方法建模,通过鸢花外形数据预测鸢花种类。 |
3 | UCI Iris 数据集K近邻方法建模预测鸢花种类 | UCI Iris 数据集,采用多分类 KNN 方法建模,通过鸢花外形数据预测鸢花种类。 |
4 | UCI Germny数据集Logistic Regression建模预测贷款违约 | UCI Germny数据集Logistic Regression建模预测贷款违约 |
5 | UCI Germny数据集 Native Bayes 建模预测贷款违约 | UCI Germny数据集 Native Bayes 建模预测贷款违约 |
6 | UCI Germny数据集 Nonparallel SVM 建模预测贷款违约 | UCI Germny数据集 Nonparallel SVM 建模预测贷款违约 |
7 | UCI Beast-cancer 数据集 SVM 建模预测乳腺癌可能性 | UCI Beast-cancer 数据集 SVM 建模预测乳腺癌可能性 |
8 | MNIST数据集SVM手写数字识别建模 | MNIST数据集SVM手写数字识别建模 |