建设网站工作汇报职业技能培训机构
文章目录
- 1. 无量纲化
 - 1.1 sklearn.preprocessing.MinMaxScaler
 - 1.2 sklearn.preprocessing.StandardScaler
 
- 2. 缺失值
 - 3. 分类型特征
 - 4. 连续型特征
 
数据挖掘的五大流程包括:
- 获取数据
 - 数据预处理
 - 特征工程
 - 建模
 - 上线
 

其中,数据预处理中常用的方法包括数据标准化和归一化。sklearn中包含众多的数据预处理模块,

- 模块preprocessing:几乎包含数据预处理的所有内容
 - 模块Impute:填补缺失值专用
 - 模块feature_selection:包含特征选择的各种方法的实践
 - 模块decomposition:包含降维算法
 
1. 无量纲化
1.1 sklearn.preprocessing.MinMaxScaler
sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
 
1.2 sklearn.preprocessing.StandardScaler
sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)
 
2. 缺失值
3. 分类型特征
4. 连续型特征
【参考博客】:
- 03、sklearn中的数据预处理和特征工程
 - 03.(2)数据预处理
 
