当前位置: 首页 > news >正文

建设银行手机银行银行下载官方网站体育新闻

建设银行手机银行银行下载官方网站,体育新闻,网站主题有哪些,哪个网站域名解析1、混淆矩阵 对以上混淆矩阵的解释: P:样本数据中的正例数。 N:样本数据中的负例数。 Y:通过模型预测出来的正例数。 N:通过模型预测出来的负例数。 True Positives:真阳性,表示实际是正样本预测成正样…

1、混淆矩阵

对以上混淆矩阵的解释:

P:样本数据中的正例数。

N:样本数据中的负例数。

Y:通过模型预测出来的正例数。

N:通过模型预测出来的负例数。

True Positives:真阳性,表示实际是正样本预测成正样本的样本数。

Falese Positives:假阳性,表示实际是负样本预测成正样本的样本数。

False Negatives:假阴性,表示实际是正样本预测成负样本的样本数。

True Negatives:真阴性,表示实际是负样本预测成负样本的样本数。

\frac{TP}{P} :真阳性率(True Positive Rate,TPR),也叫灵敏度(Sensitivity),召回率(Recall)。即:
TPR=recall=Sensitivity=\frac{TP}{P} ,正确的预测出的正例数占样本中正例总数的比例。真阳性率越大越好,越大代表在正样本中预测为正例的越多。

\frac{FP}{N}  :假阳性率(False Positive Rate,FPR),也叫误诊率。错误的预测出的正例数占样本中负例的比例。假阳性率越小越好,越小代表在负样本中预测为正例的越少。

\frac{TP}{Y} :正确率(Precision),也叫精确率,Precision=\frac{TP}{TP+FP} ,通过模型预测出来真正是正例的正例数占模型预测出来是正例数的比例,越大越好。

\frac{TP+TN}{P+N} :准确率(accuracy),accuracy=\frac{TP+TN}{P+N} ,模型预测正确的例数占总样本的比例。越大越好。

举例:假设现在有60个正样本,40个负样本,我们通过模型找出正样本50个,其中40个是真正的正样本,那么上面几个指标如下:

TP=40

FP=10

FN=20

TN=30

可知,一个模型的TP和TN越大越好。准确率=70/100=70%。精确率=40/50=80%。召回率=40/60=2/3。

2、ROC和AUC:

ROC(Receiver Operating Characteristic)曲线和AUC(Area Under the Curve)值常被用来评价一个二值分类器(binary classifier) 的优劣。

ROC曲线是以假阳性率FPR为横轴,以真阳性率TPR为纵轴的一个曲线图像。图像中的每一点是一个分类阈值,根据一些连续的分类阈值可以得到ROC的图像,如下图:有20个样本,其中真实正例有10个,用p表示,负例有10个,用n表示。Inst# 代表样本编号,Class代表样本真实的类别,Score表示利用模型得出每个测试样本属于真实样本的概率。依次将Score概率从大到小排序,得到下表:

从第一个样本开始直到第20个样本,依次将Score当做分类阈值threshold。当预测测试样本属于正样本的概率大于或等于该threshold时,我们认为该样本是正样本,否则是负样本。

如:拿到第一个样本,该样本真实类别是p,Score=0.9,将0.9看成分类阈值threshold,那么该样本预测是正例,TPR=1/10,FPR=0/10=0,拿到第二个样本,该样本真实类别是p,Score=0.8,将0.8作为threshold,该样本预测是正例,TPR=2/10,FPR=0/10=0 … … 以此类推,当拿到第7个样本时,该样本真实类别是n,Score=0.53,将0.53看成分类阈值threshold,预测为正例,但是预测错误,将本该属于负例的样本预测为正例,那么当阈值为0.53时,共预测7个样本,预测正确的样本标号为1,2,4,5,6。预测错误的样本标号为:3,7。那么此时,TPR=5/10=0.5,FPR=2/10=0.2。

按照以上方式,每选择一个阈值threshold时,都能得出一组TPR和FPR,即ROC图像上的一点。通过以上,可以得到20组TPF和FPR,可以得到ROC图像如下,当threshold取值越多,ROC曲线越平滑。

上图图像当样本真实类别为正例时,模型预测该样本为正例那么图像向上画一步(TPR方向)。如果该样本真实类别是负例,模型预测该样本为正例那么图像向右画一步(FPR方向)。

下图中,如果ROC的图像是通过(0,0)点和(1.1)点的一条直线也就是①线,那么当前模型的预测能力是0.5,即:模型在预测样本时,预测对一次,预测错一次,会形成①曲线。如果ROC曲线是②线,那么该模型预测数据的真阳性率大于假阳性率,也就是模型预测对的次数多,预测错的次数少,模型越好。当模型的ROC曲线为③线时,模型的假阳性率比真阳性率大,模型预测错的次数多,预测对的次数少,还不如随机瞎蒙的概率0.5。综上所述,ROC的曲线越是靠近纵轴,越陡,该模型越好。那么如何根据ROC来量化评价一个模型的好坏,这就要用到AUC面积。

AUC面积是ROC曲线与横轴(假阳性率,FPR)围成的面积,也就是曲线下方的面积。AUC面积越大越好,代表模型分类效果更准确。

计算AUC的公式:

其中,ins_{i}\epsilon positiveclass 是属于正例的样本。M:测试样本中的正例数。N:测试样本中的负例数。\sum_{ins_{i}\epsilon positiveclass}^{} rank_{ins} 代表将测试样本(正例和负例都有)中的Score值按照正序排序,找到样本属于正例的索引号累加和。

AUC=1,完美的分类器,采用这个预测模型时,不管设定什么样的阈值都能正确的预测结果。绝大多数情况下,不存在这种分类器。

0.5<AUC<1,优于随机猜测,可以调节分类阈值,使AUC越靠近1,模型效果越好。

AUC=0.5,和随机分类一样,就是随机瞎蒙,模型没有预测价值。

AUC<0.5,比随机分类还差,大多数情况下成功避开了正确的结果。

AUC这种评估方式较计算准确率的评估方式更好。假设有两个模型M1与M2,两个模型的准确率都是80%,假设默认阈值0.5时,M1模型预测正例的概率多数位于0.51左右,但不小于0.5。M2模型预测正例的概率多数位于0.9附近,那么同样是80%的正确率下,M2模型将结果预测的更彻底,反映到AUC面积中,M2中预测正例的概率多数位于0.9左右,对应的\sum_{ins_{i}\epsilon positiveclass}^{} rank_{ins} 比较大,相应的AUC值比较大,而M1的AUC相对较小。所以AUC这种评估模型的方式更能说明模型好有多好,能更好的计算模型的纯度。

http://www.yayakq.cn/news/109238/

相关文章:

  • 工信部网站备案批准文件网站顶部固定怎么做
  • 住房和城乡建设部贰级建造师网站电商需要多少投入
  • 如何模板建站移动的网络网站建设
  • 广州大型网站设计公司长链接怎么弄成短链接
  • 织梦后台生成网站地图用数据库做网站
  • 手机制作网站app网站被屏蔽怎么访问
  • 鹤壁专业做网站多少钱泉州市住房和乡村建设网站
  • 网站设计制作报价图片欣赏如何做到精准客户推广
  • 科技类网站怎么做哈尔滨百度搜索排名优化
  • 阿里云虚拟主机多网站中美军事最新消息
  • 爱站seo网络使用x86架构的通用设备代替
  • 网站常识门户wordpress主题下载
  • 网站开发公司网站模板南通网站排名公司
  • 网站建设及相关流程徐州制作网站的公司有哪些
  • 湖南省住房和城乡建设网站python做网站 框架
  • 咨询网站搭建asp.net 网站修改发布
  • 网站建设与维护方式是什么旅游网站建设目的
  • 网站开发投标文件新手做电商需要投资多少
  • 网站信息抽查评估室内装饰设计师证书含金量
  • 网站怎么发布到服务器汕头外发加工网
  • 微信网站如何开发家在深圳龙岗
  • 做第三方的qq互联接口时_回调到自己的网站时要延时很久是什么原因工地临时工400元一天
  • 网站开发赚钱吗?解析网站制作
  • 杭州制作网站的公司什么叫网站前台
  • 网站建设需求分析报告撰写西安seo外包优化
  • 提升网站的访问速度广州网站建设设计公司信息
  • 济南网站制作创意怎么做一个论坛网站
  • 广州站在哪里wordpress最好的编辑器
  • 前端网站重构怎么做网站站开发 流量
  • 做相亲网站的红娘累吗网站免费诊断