当前位置：首页 > news >正文

金鹏建设集团网站肇庆住房建设部网站

news 2025/9/30 14:58:27

金鹏建设集团网站,肇庆住房建设部网站,上海seo公司哪家好,手机个人简历电子版释义集成学习很好的避免了单一学习模型带来的过拟合问题根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类： Bagging(个体学习器间不存在强依赖关系、可同时生成的并行化方法) 流行版本：随机森林(random forest)Boosting(个体…

释义

集成学习很好的避免了单一学习模型带来的过拟合问题
根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类：

Bagging(个体学习器间不存在强依赖关系、可同时生成的并行化方法) 流行版本：随机森林(random forest)
Boosting(个体学习器间存在强依赖关系、必须串行生成的序列化方法) AdaBoost
example：
选男友: 美女选择择偶对象的时候，会问几个闺蜜的建议，最后选择一个综合得分最高的一个作为男朋友（bagging）
追女友: 3个帅哥追同一个美女，第1个帅哥失败->(传授经验: 姓名、家庭情况) 第2个帅哥失败->(传授经验: 兴趣爱好、性格特点) 第3个帅哥成功（boosting）

两者区别

bagging 是一种与 boosting 很类似的技术, 所使用的多个分类器的类型（数据量和特征量）都是一致的。
bagging 是由不同的分类器（1.数据随机化 2.特征随机化）经过训练，综合得出的出现最多分类结果；boosting 是通过调整已有分类器错分的那些数据来获得新的分类器，得出目前最优的结果。
bagging 中的分类器权重是相等的；而 boosting 中的分类器加权求和，所以权重并不相等，每个权重代表的是其对应分类器在上一轮迭代中的成功度。

自助采样法(bootstrap sampling)：

给定包含m个样本的数据集，先随机取出一个样本放入采样集中并记录，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过m次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本在采样集里多次出现，有的则从未出现（平均37%没有取到）。
这些未取到的样本称为OOB(Out of Bag)，可以使用这部分OOB的数据集作为测试集

Bagging的基本流程

基于每个采样集训练出一个基学习器，再将这些基学习器进行结合

对分类任务，使用简单投票法
对回归任务，使用简单平均法

随机森林

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。
决策树相当于一个大师，通过自己在数据集中学到的知识用于新数据的分类。但是俗话说得好，一个诸葛亮，玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠，希望最终的分类效果能够超过单个大师的一种算法。

原理

look
数据的随机性化
待选特征的随机化
使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。
数据的随机化: 使得随机森林中的决策树更普遍化一点，适合更多的场景。
（有放回的准确率在: 70% 以上，无放回的准确率在: 60% 以上）
采取有放回的抽样方式构造子数据集，保证不同子集之间的数量级一样（不同子集／同一子集之间的元素可以重复）
利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。
然后统计子决策树的投票结果，得到最终的分类就是随机森林的输出结果。

RF的简单例子

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
data = load_iris()
X = data.data  # 特征
y = data.target  # 目标# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)# 训练分类器
clf.fit(X_train, y_train)# 使用分类器进行预测
y_pred = clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

AdaBoost

Adaboost的原理

以分类为例，Adaboost算法通过提高前一轮分类器分类错误的样本的权值，而降低那些被分类正确的样本的权值。
需要注意的是，由于每个子模型要使用全部的数据集进行训练，因此 Adaboost算法中没有oob数据集，在使用 Adaboost 算法前，需要划分数据集：train_test_split。
相当于准备个错题本，花更多的时间处理错题
在使用Adaboost与决策树结合解决分类问题时，使用AdaBoostClassifier

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2), n_estimators=500)
ada_clf.fit(X_train, y_train)
ada_clf.score(X_test, y_test)

同样的简单例子

from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
data = load_iris()
X = data.data  # 特征
y = data.target  # 目标# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建 AdaBoost 分类器（基分类器为决策树）
clf = AdaBoostClassifier(n_estimators=50, random_state=42)# 训练分类器
clf.fit(X_train, y_train)# 使用分类器进行预测
y_pred = clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)