Notes

最近参与的医学场景的项目中，模型的评价指标之一是AUC。要讲清楚这个指标，需要首先了解一个评价模型的经典工具：混淆矩阵。混淆矩阵 —— 模型能不能“明辨是非” 基础定义我们训练AI模型，一个典型的任务是去预测一个事情是否会发生。那医学场景举个例子：我们给模型输入过去手术的数据，让它学习其中的特征。我们的目的是希望训练后的模型在接受一段时间的手术数据输入后，给出未来一定时间内发生某类异常事件的可能性。那么如何评价这个模型做的好不好呢？简单来说，需要记录预测结果与实际情况是否一致。我们定义：预测结果预测为正例（Positive, P）预测为负例（Negative, N）实际情况实际为正例实际为负例对于这四种情况排列组合，我们就会得到一个模型的混淆矩阵（Confusion Matrix）：预测为正例 P 预测为负例 N 实际为正例 TP（True Positive） FN（False Negative）实际为负例 FP（False Positive） TN（True Negative）对于矩阵的四个象限，其含义分别为：缩写含义场景 TP 预测为正，实际为正 ✅ 正确识别阳性（如：有异常事件有警报） TN 预测为负，实际为负 ✅ 正确识别阴性（如：无异常事件无警报） FP 预测为正，实际为负 ❌ 误报（如：无异常事件有警报） FN 预测为负，实际为正 ❌ 漏报（如：有异常事件无警报）这里我经常搞糊涂，Positive和Negative分别对应的是预测的情况。预测为正例，指预测内容为事件发生，在混淆矩阵中标记为P，反之为N。但与预测情况相对的，实际情况为正例，并不意味着对应情况记作T。事实上，当实际情况与预测内容相匹配时，才会记为T；反之即为F。也就是说，T 和 F 并不是标记实际情况中事件是否发生，而是表示实际情况与预测内容是否一致。由混淆矩阵派生的关键指标在实践中，混淆矩阵中的TP、FN、FP、TN通常是记录测试模型时，符合对应情况的测试样本数量。比如说我们训练好了模型，测试时我们输入了1000个样本，结果分别为： 400个样本被预测为会发生异常事件其中150个样本真的发生了异常事件，250个样本没有发生异常事件 600个样本被预测为不发生异常事件其中50个样本真的发生了异常事件，550个样本没有发生异常事件此时，这个模型的混淆矩阵可以记为： ...