当前位置: 首页 > news >正文

海南省建设监理协会网站windows软件开发工具

海南省建设监理协会网站,windows软件开发工具,企业网站推广属于付费,微信推送在哪个网站做第六章.决策树(Decision Tree) 6.1 ID3算法,C4.5算法 1.决策树适用的数据类型 比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析 2.信息熵 1).概念: 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确…

第六章.决策树(Decision Tree)

6.1 ID3算法,C4.5算法

1.决策树适用的数据类型

比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析
在这里插入图片描述

2.信息熵

1).概念:

  • 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确定的事情(或者是我们一无所知的事情),需要了解大量信息->信息量的度量就等于不确定性的多少

2).公式:

在这里插入图片描述

3).示例:

  • 示例1:
    假设有一个普通骰子A,扔出1-6的概率都是1/6;骰子B,扔出1-5的概率为10%,扔出6的概率为50%,骰子C,扔出6的概率为100%

  • 计算:

    ①.骰子A:
    在这里插入图片描述
    ②.骰子B:
    在这里插入图片描述
    ③.骰子C:
    在这里插入图片描述

3.ID3算法

决策树会选择最大化信息增益来对结点进行划分。

1).信息增益计算公式:

在这里插入图片描述

2).公式示例:

在这里插入图片描述

  • 分析:
    在这里插入图片描述
  • 计算:
    在这里插入图片描述
    说明:
    ①.9/14,5/14对应Class:buys_computer那一列。

3).ID3算法示例:

·AllElectronics.csv中的数据:
在这里插入图片描述
·代码:

from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import graphviz
import csv# 导入数据
DTree = open(r'D:\\data\\AllElectronics.csv', 'r')
reader = csv.reader(DTree)#使用import csv是因为表格中含有很多字符# 获取第一行数据
headers = reader.__next__()
# print(headers)# 定义两个列表
featureList = []
labelList = []for row in reader:# 把Label存入ListlabelList.append(row[-1])rowDict = {}for i in range(1, len(row) - 1):# 建立一个数据字典rowDict[headers[i]] = row[i]featureList.append(rowDict)# print(featureList)# 把数据转换成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
# print('x_data:'+ str(x_data))# 打印属性名称
feature_names = vec.get_feature_names_out()
# print(feature_names)# 打印标签
# print('labelList:'+ str(labelList))# 把标签转换成01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
# print('y_data'+str(y_data))# 创建并拟合模型
DTree_model = tree.DecisionTreeClassifier(criterion='entropy')
DTree_model.fit(x_data, y_data)# 测试
x_test = x_data[0]
print('x_test:' + str(x_test))predictions = DTree_model.predict(x_test.reshape(1, -1))#变成二维数据
print('predict:' + str(predictions))# 导出决策树
dot_data = tree.export_graphviz(DTree_model, out_file=None, feature_names=feature_names, class_names=lb.classes_,filled=True, rounded=True, special_characters=True)graph = graphviz.Source(dot_data)
graph.render('computer')

·结果展示: (文件会保存在运行目录下)
在这里插入图片描述

4.C4.5算法

ID3算法存在的缺陷:信息增益的方法倾向于首先选择因子数较多的变量。C4.5算法是ID3算法的优化版本。

1).信息增益的改进-增益率:

在这里插入图片描述

http://www.yayakq.cn/news/710167/

相关文章:

  • 网站制作建设建议兴田德润论坛网站怎么做
  • 江门公司网站制作常见的网络营销方法
  • 网站规划和建设wordpress加字体颜色
  • 手机餐饮网站开发前十名少儿编程机构
  • 新闻资讯型网站开发做一个网站的详细教学
  • 公司网站建设费会计分录马鞍山的网站建设公司
  • 网站的设计制作与维护柯林自助建站
  • 阜新网站制作聚合页做的比较好的教育网站
  • 如何拷贝网站代码网站开发的就业方向
  • 网站html下载器酷酷123网址之家
  • 淘宝客优惠券网站怎么做的网页微信手机版
  • 嘉定个人网站建设可以做设计的网站
  • 西北建设有限公司网站汕头专业的免费建站
  • dw做的网站解压后为什么没了高级感ppt模板
  • 兰州哪有建设网站的企业网站推广技术
  • 竹子建站登录做优化网站建设
  • 网站建设前准备工作linux wordpress nginx
  • 郑州网站建设网站担路网口碑做网站好吗
  • 广州网站优化排名厦门网站制作维护
  • 做网站站长累吗个人如何做商城网站
  • 自学摄影教程的网站有哪些网站建设和推广的话术
  • 有好点的做网站的公司吗零起步如何做设计师
  • 网站icp备案信息是什么网站设计建设代理机构
  • 南宁企业自助建站网站使用微信支付
  • 太原如何做百度的网站东莞美食网站建设报价
  • 备案期间 网站想正常教育局门户网站建设目的
  • 怎样上网站建设软件开发工具有哪些
  • 网站网络营销怎么做管理信息系统开发
  • 长沙大型网站建设公司网站创建
  • 中信建设有限责任公司属于央企吗wordpress seo代码