当前位置: 首页 > news >正文

iis虚拟网站兰州网络推广排行

iis虚拟网站,兰州网络推广排行,大邯郸网站,域名注册地址查询本文以西瓜数据集为例演示决策树使用信息增益选择最优划分属性的过程 西瓜数据集下载:传送门 首先计算根节点的信息熵: 数据集分为好瓜、坏瓜,所以|y|2根结点包含17个训练样例,其中好瓜共计8个样例,所占比例为8/17坏…


本文以西瓜数据集为例演示决策树使用信息增益选择最优划分属性的过程

在这里插入图片描述

西瓜数据集下载:传送门

首先计算根节点的信息熵:

  • 数据集分为好瓜、坏瓜,所以|y|=2
  • 根结点包含17个训练样例,其中好瓜共计8个样例,所占比例为8/17
  • 坏瓜共计9个样例,所占比例为9/17

将数据带入信息熵公式,即可得到根结点的信息熵:

E n t ( D ) = − ( 8 17 log ⁡ 2 8 17 + 9 17 log ⁡ 2 9 17 ) = 0.998 Ent(D)=-\left( \frac{8}{17}\log_2\frac{8}{17}+\frac{9}{17}\log_2\frac{9}{17} \right) =0.998 Ent(D)=(178log2178+179log2179)=0.998

以属性色泽为例,其对应3个数据子集:

  • D1(色泽=青绿),包含{1,4,6,10,13,17}共6个样例,其中好瓜样例为{1,4,6},比例为3/6,坏瓜样例为{10,13,17},比例为3/6。将数据带入信息熵计算公式即可得到该结点的信息熵:1.000
  • D2(色泽=乌黑),包含{2,3,7,8,9,15}共6个样例,其中好瓜样例为{2,3,7,8},比例为4/6,坏瓜样例为{9,15},比例为2/6。将数据带入信息熵计算公式即可得到该结点的信息熵:0.918
  • D1(色泽=浅白),包含{5,11,12,14,16}共5个样例,其中好瓜样例为{5},比例为1/5,坏瓜样例为{11,12,14,16},比例为4/5。将数据带入信息熵计算公式即可得到该结点的信息熵:0.722

则计算色泽属性的信息增益为:

G a i n ( D , 色泽 ) = E n t ( D ) − ∑ v = 1 3 ∣ D v ∣ ∣ D ∣ E n t ( D ) = 0.998 − ( 6 17 ∗ 1.000 + 6 17 ∗ 0.918 + 5 17 ∗ 0.722 ) = 0.109 Gain(D,色泽)=Ent(D)-\sum_{v=1}^{3}\frac{|D^v|}{|D|}Ent(D) \\ =0.998-\left( \frac{6}{17} * 1.000+\frac{6}{17}*0.918+\frac{5}{17}*0.722 \right) =0.109 Gain(D,色泽)=Ent(D)v=13DDvEnt(D)=0.998(1761.000+1760.918+1750.722)=0.109

同样的方法,计算其他属性的信息增益为:
G a i n ( D , 根蒂 ) = 0.143 G a i n ( D , 敲声 ) = 0.141 G a i n ( D , 纹理 ) = 0.381 G a i n ( D , 脐部 ) = 0.289 G a i n ( D , 触感 ) = 0.006 Gain(D,根蒂)=0.143 \\ Gain(D,敲声)=0.141 \\ Gain(D,纹理)=0.381 \\ Gain(D,脐部)=0.289 \\ Gain(D,触感)=0.006 \\ Gain(D,根蒂)=0.143Gain(D,敲声)=0.141Gain(D,纹理)=0.381Gain(D,脐部)=0.289Gain(D,触感)=0.006

对比不同属性,我们发现纹理属性的信息增益最大,因此,纹理属性被选为划分属性:清晰{1,2,3,4,5,6,8,10,15}、稍糊{7,9,13,14,17}、模糊{11,12,16}

下一步,我们再看纹理=清晰的节点分支,该节点包含的样例集合D1中有编号为{1,2,3,4,5,6,8,10,15}共计9个样例,此时可用属性集合为{色泽,根蒂,敲声,脐部,触感},纹理不会再作为划分属性,我们以同样的方式再计算各属性的信息增益为:

G a i n ( D , 色泽 ) = 0.043 G a i n ( D , 根蒂 ) = 0.458 G a i n ( D , 敲声 ) = 0.331 G a i n ( D , 脐部 ) = 0.458 G a i n ( D , 触感 ) = 0.458 Gain(D,色泽)=0.043 \\ Gain(D,根蒂)=0.458 \\ Gain(D,敲声)=0.331 \\ Gain(D,脐部)=0.458 \\ Gain(D,触感)=0.458 \\ Gain(D,色泽)=0.043Gain(D,根蒂)=0.458Gain(D,敲声)=0.331Gain(D,脐部)=0.458Gain(D,触感)=0.458

从上图可以看出根蒂、脐部、触感3个属性均取得了最大的信息增益,此时可任选其一作为划分属性。同理,对每个分支结点进行类似操作,即可得到最终的决策树


http://www.yayakq.cn/news/230295/

相关文章:

  • jsp简述网站开发流程图做网站解析要多久
  • 还有哪些方法让网站更加利于seo建设网站域名备案
  • 免费网站建设系统衣服搭配网站建设
  • 网站推广指标包括百度推广怎么看关键词排名
  • 襄阳网站建设陈欧做聚美优品网站
  • 东营市建设监理协会网站个人做网站
  • 手机网站设计创意说明廊坊网站建设开发
  • 网站设计应该怎么做外国一些做环保袋的网站
  • 建设网站建设哪家便宜佛山seo技术
  • 制作网站需要哪些素材给企业做网站的公司
  • 个人网站取什么域名好昆明网站公司建设
  • 阿里云企业网站备案流程黑龙江省建设厅官网
  • seo排行榜年度10佳网站pc网站如何做移动网站
  • 浙江立鹏建设有限公司网站个人云平台
  • 前端直播网站怎么做贵阳做网站好的公司有哪些
  • 网站服务器转移视频吗房地产管理局网站
  • 做网站需要买主机那广州中小学智慧阅读门户网站
  • 青海媒体网站建设公司军事新闻国际军事新闻
  • 做fpga的网站上海哪个网站最好用
  • 企业网站的建设目的是什么wordpress远程安装教程
  • 成都前十名传媒网站建设云岭先锋网站是哪家公司做的
  • 怎样做网站卖网站wordpress标签页插件
  • 邯郸网站建设联系电话seo服务的内容
  • 人人做网站iis网站视频无法播放
  • 上门做网站公司哪家好网站建设是不是无形资产
  • 用lnmp做网站怎么优化百度关键词
  • 免费网站建设设计制作公司网站目的
  • 专业网站制作哪专业斗蟋蟀网站建设
  • 上海建网站工作室两学一做考试网站
  • 建设网站的网站叫什么男简约风格网站