当前位置: 首页 > news >正文

专做奢侈品的网站专业的网站制作正规公司

专做奢侈品的网站,专业的网站制作正规公司,app推广员是干嘛的,新能源电动汽车电池使用寿命多久目录 预剪枝 后剪枝 处理连续值 处理缺失值 剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。 在决策树学习过程中,有时会造成决策树分枝过多,就可能造成过拟合,可通过主动去掉一些分支来降低过离合的风…

目录

预剪枝

后剪枝

处理连续值

处理缺失值


剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。

  • 在决策树学习过程中,有时会造成决策树分枝过多,就可能造成过拟合,可通过主动去掉一些分支来降低过离合的风险。
  • 决策树剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(postpruning)。

预剪枝

  • 预剪枝是指在决策树的生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策数泛化性能提升,则停止划分,并将当前节点标记为叶节点。
  • 后剪枝是先从训练集生成一颗完整的决策树,然后自底向上的对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来决策树泛化性能提升,则将该子树替换为叶节点。
  • 那么如何判断决策树的泛化性能提升呢?可以使用验证集进行验证。
  • 一颗仅有一层划分的决策树,称为“决策树桩”(decision stumb)。
  • 预剪枝使得决策树的很多分支都不进行展开,这既降低了过拟合的风险,又显著减少了决策树的训练时间开销和测试时间开销。
  • 另一方面,有些分支的当前划分虽不能提升泛化性能,甚至可能导致泛化性能暂时下降,但是在其基础进行的后续划分却有可能导致性能显著提高。这给预剪枝决策树带来了欠拟合的风险。
  • 预剪枝的本质是一种“贪心”算法。

后剪枝

  • 后剪枝决策树通常比预减值决策树保留了更多的分支,一般情况下后剪纸决策树的欠拟合风险很小,泛化性能往往优于预剪纸的决策树。
  • 后剪枝的训练时间开销比未剪枝决策树和预剪枝决策树都要大很多。

处理连续值

  • 在处理分类时都是基于离散属性来生成决策树,使用离散值进行分类也比较符合人们的思维习惯。
  • 如果输入样本的属性是连续值,就需要用到连续属性离散化的技术。
  • 二分法(bi-partition)对连续属性进行处理的最简单的策略。这也是 C4.5决策树 算法中采用的机制。
  • 与离散属性不同,若当前节点划分属性为连续属性,该属性还可作为其后代节点的划分属性(离散属性在决策树上只出现一次)。

处理缺失值

  • 现实任务中常会遇到不完整样本,即样本的某些属性值缺失。
  • 如果在属性值缺失的时候丢弃该样本,则会造成样本变得很小,因此有必要考虑利用缺失属性值的训练样例来进行学习。
  • 缺失值的处理需要解决两个问题:
    • 问题1:如何在属性值缺失的情况下进行划分属性选择。
    • 问题2:给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分。
  • 对于问题1:按照属性来,
    • 令D~表示D中在属性a上没有缺失值的样本,
    • 定义ρ为无缺失值的样本比例,\rho =\frac{\sum_{x\epsilon \tilde{D}}^{}w_{x}}{\sum_{x\epsilon D}^{}w_{x}}
    • 定义pk~为无缺失值样本中第k类所占的比例,\tilde{p_{k}}=\frac{\sum_{x\epsilon \tilde{D_{k}}}^{}w_{x}}{\sum_{x\epsilon D}^{}w_{x}}
    • 定义rv~为无缺失值样本中在属性a上取值为a^v的样本所占的比例;\tilde{r_{v}}=\frac{\sum_{x\epsilon \tilde{D^{v}}}^{}w_{x}}{\sum_{x\epsilon D}^{}w_{x}}
    • 则信息增益为:Gain(D,a)=\rho \times Gain(\tilde{D},a)=\rho \times (End(\tilde{D})-\sum_{v=1}^{V}\tilde{r}_{v}Ent(\tilde{D}^v))
    • 其中End(\tilde{D})=-\sum_{k=1}^{|y|}\tilde{p}_klog_2\tilde{p}_k
  • 对于问题2:按照概率来,

    • 若样本x在划分属性a上的取值已知,则将x划入与其取值对应的子节点,且样本全值在子节点中保持为w_x

    • 若样本x在划分属性a上的取值未知,则将x同时划入所有的子节点,且样本权值与属性值a^v对应的子节点中调整为\tilde{r}_v\cdot w_x。也就是说,让同一个样本以不同的概率划入到不同的子节点中去。

  • C4.5算法中使用了上述解决方案。

【西瓜书】决策树-CSDN博客

http://www.yayakq.cn/news/834199/

相关文章:

  • 个人网站一定要备案吗html博客转wordpress
  • 文档上传网站温州seo按天扣费
  • 荣成市城乡建设局网站网站为什么要icp备案
  • 南宁网站设计建设做的网站有营销效果吗
  • 电话投放小网站小程序模板做视频网站
  • 南浔住房和城乡建设局网站wordpress七牛云上传图片
  • 汶上网站建设多少钱企业网站管理系统|cms系统|手机网站建设|企业建站|cms建站系统
  • 可以做c oj的网站太原网站建设公司招聘
  • 惠州高端模板建站wordpress 站外搜索
  • 做头像的网站有哪些建设信息发布平台多少钱
  • 一个虚拟主机如何建多个网站代码遂平网站建设
  • 网站应包括的基本功能和高级功能免费咨询话术
  • 仿漫画网站建设定制小说网站系统源码建设国家建设部标准官方网站
  • 页面模板现在不能用了吗长春网站优化体验
  • 智能手机网站模板wordpress评论表单获取qq
  • 农产品应该建设哪个网站wordpress invoker
  • 湖北高端网站建设wordpress可视化编辑器不显示
  • daozicms企业建站系统网站开发相关会议
  • 徐州网站运营重庆建设工程造价信息网官网查询
  • 如何做网站路径分析鄂州市官网
  • 深圳市宝安区住房和建设局网站龙岩app定制开发
  • 怎么向网站添加型号查询功能网站开发报价和开发周期
  • 河南做网站企起南阳网站建设哪家好
  • 网站用户黏度哔哩哔哩网页版怎么下载视频到本地
  • 网站模板侵权问题服务器安全配置
  • 南通云网站建设江苏建设一体化平台网站
  • 水禾田网站建设公司win7优化工具
  • 什么网站可以做软件有哪些东西同一个公司可以做几个网站
  • 那个网站可以学做西餐公司网站不用了如何注销
  • 中建卓越建设管理有限公司网站杭州滨江网站开发