当前位置: 首页 > news >正文

石狮网站开发网络营销网页制作源代码

石狮网站开发,网络营销网页制作源代码,asp 网站建设教程,济南建设工程交易信息网非数值型的分类变量 有很多非数字的数据,这里介绍如何使用它来进行机器学习。 在本教程中,您将了解什么是分类变量,以及处理此类数据的三种方法。 本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2 提取码:uDzP 文章目录 1、简介2、三种方法的使用1…

非数值型的分类变量

有很多非数字的数据,这里介绍如何使用它来进行机器学习。

在本教程中,您将了解什么是分类变量,以及处理此类数据的三种方法。

本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2
提取码:uDzP

文章目录

  • 1、简介
  • 2、三种方法的使用
      • 1) 删除分类变量
      • 2) 有序编码
      • 3) One-Hot 编码
  • 3、举例
      • 3.1定义函数来度量每种方法的质量
      • 3.2三种方法的MAE得分
        • 方法1的得分(放弃分类变量)
        • 方法2的得分(顺序编码)
        • 方法2的得分 (One-Hot 编码)
  • 4、哪种方法最好?
  • 5、总结

1、简介

一个分类变量只接受有限数量的值。

  • 考虑一个调查,询问你多久吃一次早餐,并提供四个选项:“从不”,“很少”,“大多数天”或“每天”。在这种情况下,数据是分类的,因为响应属于一组固定的类别。
  • 如果人们回答了一份关于他们拥有哪个品牌汽车的调查,响应将属于类别,如“本田”,“丰田”和“福特”。在这种情况下,数据也是分类的。

如果你尝试在没有预处理的情况下将这些变量输入大多数Python机器学习模型中,你将会收到错误。在本教程中,我们将比较三种用于准备分类数据的方法。

2、三种方法的使用

1) 删除分类变量

处理分类变量最简单的方法是从数据集中删除它们。这种方法只有在列中不包含有用信息的情况下才能很好地工作。

2) 有序编码

Ordinal encoding 标签编码将每个惟一值分配给不同的整数。
在这里插入图片描述

这种方法假设类别的顺序为:“Never”(0)<“rare”(1)<“Most days”(2)<“Every day”(3)。

在本例中,这个假设是有意义的,因为对类别有一个无可争议的排名。并不是所有的分类变量在值中都有一个明确的顺序,但是我们将那些有顺序的变量称为有序变量。对于基于树的模型(如决策树和随机森林),可以期望标签编码能够很好地处理有序变量。

3) One-Hot 编码

One-Hot 编码创建新列,指示原始数据中每个可能值的存在(或不存在)。为了理解这一点,我们将通过一个示例进行介绍。

在这里插入图片描述

在原始数据集中,“Color”是一个类别变量,有三个类别:“Red”、“Yellow” 和 “Green”。

对应的独热编码包含每个可能值的一列,以及原始数据集中每行的一行。当原值为“Red”时,我们在“Red”列中加1;如果原值为“Yellow”,我们在“Yellow”列中加1,依此类推。与有序编码不同,一个One-Hot不假定类别的顺序。

​ 与有序编码不同,一个One-Hot不假定类别的顺序。

因此,如果分类数据中没有明确的顺序(例如,“Red”既不大于也不小于“Yellow”),可以预期这种方法特别有效。我们把没有内在排序的分类变量称为名义变量。

如果类别变量具有大量值(即,通常不会将其用于超过15个不同值的变量),独热编码通常在分类变量取大量值时表现不佳。

3、举例

在前一个教程中,我们将使用墨尔本住房数据集。

我们将不关注数据加载步骤。相反,您可以想象您已经拥有了 X _ train、 X _ valid、 y _ train 和 y _ valid中的训练和验证数据。

In [1]:

import pandas as pd
from sklearn.model_selection import train_test_split
#读取数据
data = pd.read_csv('E:/data_handle/melb_data.csv')
#从预测器中分离目标
y =data.Price
X = data.drop(['Price'],axis=1)
#将数据划分为训练和验证子集
X_train_full, X_valid_full, y_train, y_valid = train_test_split(X, y, train_size=0.8,test_size=0.2,random_state=0
http://www.yayakq.cn/news/784606/

相关文章:

  • 网站推广类型包装设计网课答案
  • 福永网站的建设医药医疗行业网站建设
  • 品牌网站设计联系怎么做盗版网站赚钱
  • 网站内容资源建设crossapple wordpress
  • 中卫网站推广优化网络服务器配置
  • 360网站怎么做百度搜索下载app
  • 摄影网站开发网站建设小组实训总结
  • 青岛商家都上什么网站百度做网站的公司
  • 成都网站建设哪家比较好温州网站设计服务商
  • 网页与网站的区别和关系开广告店需要什么技术
  • 学校加强网站建设经典seo伪原创
  • 企业网站优化工具公司支付网站款做凭证
  • 免费的小网站合肥装修公司排行榜
  • wordpress建淘宝客网站计算机二级网页制作基础
  • 怎么更改网站为什么邮箱突然进不去了总提示正在进入不安全网站
  • 如何做网站拥有自己的地址海淘返利网站怎么做
  • 公司做网站的价格做视频包的网站有哪些
  • 做网页专题 应该关注哪些网站直播间 网站建设
  • 崇明苏州网站建设长春网站公司
  • 网站基本架构设计的主要步骤 pp下载安装 app
  • 北京网站制作建设公司网站泛目录怎么做
  • 范例网站怎么做网站建设中倒计时源码
  • 装修网站源码注册公司流程和费用图
  • 什么服装网站做一件代发游戏推广代理平台
  • 清远网站建设公司专业官网建设
  • 网站页面的大小写上每网站建设
  • 网站建设职责漯河网站网站建设
  • 建设网站费30岁转行做网站设计
  • 中国建设银行对公网站wordpress自定义文章添加标签
  • 网站建站平台eazyshop怎么做网站底部版权信息