混淆矩阵(confusion matrix)与TP/FP/FN/TN
📈 93
What? 什么是混淆矩阵
混淆矩阵是一个表格,填充的是所有样本点的预测结果,他可以是二分类也可以是多分类。
对于二分类的情况,混淆矩阵形状是2x2,表格的含义如下。
| Positive (预测为正) | Negative (预测为负) | |
|---|---|---|
| Positive (真值为正) | TP | FN |
| Negative (真值为负) | FP | TN |
Metrics 一些相关指标
Precision(精确率)和 Recall(召回率)的公式如下:
$$ \text{Precision} = \frac{TP}{TP + FP} $$
$$ \text{Recall} = \frac{TP}{TP + FN} $$
其中,$TP$ 表示真阳,$FP$ 表示假阳,$FN$ 表示假阴。
对于一些安全攸关的场景,往往愿意牺牲Precision来争取减少FN的case,比如疾病筛查时,宁可把更多健康人错认为阳性(假阳性FP增加,Precision降低),也要尽可能少漏诊真正患病的人(FN减少,Recall提高)。
相反,有些场景则更关注Precision,比如垃圾邮件检测,希望判为“垃圾邮件”的邮件真的就是垃圾,避免把正常邮件错杀(FP较少,Precision高),即便偶尔漏掉一点垃圾邮件(FN高一些)也可以接受。