做网站游戏怎么挣钱wordpress新用户默认角色设置
文章目录
- 1. 混淆矩阵
 - 2. Precision(精准率)
 - 3. Recall(召回率)
 - 4. F1-score
 - 5. ROC曲线和AUC指标
 - 5.1 ROC 曲线
 - 5.2 绘制 ROC 曲线
 - 5.3 AUC 值
 
- 6. API介绍
 - 6.1 **分类评估报告api**
 - 6.2 **AUC计算API**
 
- 练习-电信客户流失预测
 - 1. 数据集介绍
 - 2. 处理流程
 - 3. 案例实现
 - 4. 小结
 
1. 混淆矩阵

混淆矩阵作用就是看一看在测试集样本集中:
- 真实值是 正例 的样本中,被分类为 正例 的样本数量有多少,这部分样本叫做真正例(TP,True Positive)
 - 真实值是 正例 的样本中,被分类为 假例 的样本数量有多少,这部分样本叫做伪反例(FN,False Negative)
 - 真实值是 假例 的样本中,被分类为 正例 的样本数量有多少,这部分样本叫做伪正例(FP,False Positive)
 - 真实值是 假例 的样本中,被分类为 假例 的样本数量有多少,这部分样本叫做真反例(TN,True Negative)
 
True Positive :表示样本真实的类别
Positive :表示样本被预测为的类别
2. Precision(精准率)
精准率也叫做查准率,指的是对正例样本的预测准确率。即,真正例(预测对的正例)占预测结果中所有正例的比例。

3. Recall(召回率)
召回率也叫做查全率,指的是预测为真正例样本占所有真实正例样本的比重。即,真正例(预测对的正例)占真实结果中所有正例的比例。
 
例子:
样本集中有 6 个恶性肿瘤样本,4 个良性肿瘤样本,我们假设恶性肿瘤为正例,则:
模型 A: 预测对了 3 个恶性肿瘤样本,4 个良性肿瘤样本
- 真正例 TP 为:3
 - 伪反例 FN 为:3
 - 假正例 FP 为:0
 - 真反例 TN:4
 - 精准率:3/(3+0) = 100%
 - 召回率:3/(3+3)=50%
 
4. F1-score
如果我们对模型的精度、召回率都有要求,希望知道模型在这两个评估方向的综合预测能力如何?则可以使用 F1-score 指标。

样本集中有 6 个恶性肿瘤样本,4 个良性肿瘤样本,我们假设恶性肿瘤为正例,则:
模型 A: 预测对了 3 个恶性肿瘤样本,4 个良性肿瘤样本
- 真正例 TP 为:3
 - 伪反例 FN 为:3
 - 假正例 FP 为:0
 - 真反例 TN:4
 - 精准率:3/(3+0) = 100%
 - 召回率:3/(3+3)=50%
 - F1-score:(2*3)/(2*3+3+0)=67%
 
模型 B: 预测对了 6 个恶性肿瘤样本,1个良性肿瘤样本
- 真正例 TP 为:6
 - 伪反例 FN 为:0
 - 假正例 FP 为:3
 - 真反例 TN:1
 - 精准率:6/(6+3) = 67%
 - 召回率:6/(6+0)= 100%
 - F1-score:(2*6)/(2*6+0+3)=80%
 
5. ROC曲线和AUC指标
5.1 ROC 曲线
ROC 曲线:我们分别考虑正负样本的情况:
- 正样本中被预测为正样本的概率,即:TPR (True Positive Rate)
 - 负样本中被预测为正样本的概率,即:FPR (False Positive Rate)
 

ROC 曲线图像中,4 个特殊点的含义:
- (0, 0) 表示所有的正样本都预测为错误,所有的负样本都预测正确
 - (1, 0) 表示所有的正样本都预测错误,所有的负样本都预测错误
 - (1, 1) 表示所有的正样本都预测正确,所有的负样本都预测错误
 - (0, 1) 表示所有的正样本都预测正确,所有的负样本都预测正确
 
5.2 绘制 ROC 曲线
假设:在网页某个位置有一个广告图片或者文字,该广告共被展示了 6 次,有 2 次被浏览者点击了。每次点击的概率如下:
| 样本 | 是否被点击 | 预测点击概率 | 
|---|---|---|
| 1 | 1 | 0.9 | 
| 3 | 1 | 0.8 | 
| 2 | 0 | 0.7 | 
| 4 | 0 | 0.6 | 
| 5 | 0 | 0.5 | 
| 6 | 0 | 0.4 | 
绘制 ROC 曲线:
阈值:0.9
- 原本为正例的 1、3 号的样本中 3 号样本被分类错误,则 TPR = 1/2 = 0.5
 - 原本为负例的 2、4、5、6 号样本没有一个被分为正例,则 FPR = 0
 
阈值:0.8
- 原本为正例的 1、3 号样本被分类正确,则 TPR = 2/2 = 1
 - 原本为负例的 2、4、5、6 号样本没有一个被分为正例,则 FPR = 0
 
阈值:0.7
- 原本为正例的 1、3 号样本被分类正确,则 TPR = 2/2 = 1
 - 原本为负类的 2、4、5、6 号样本中 2 号样本被分类错误,则 FPR = 1/4 = 0.25
 
阈值:0.6
