当前位置: 首页 > news >正文

微网站建设教学电商网站开发系统架构

微网站建设教学,电商网站开发系统架构,制作公司网站要多少钱,网站运行速度慢的原因轮廓系数越大,表示簇内实例之间紧凑,簇间距离大,这正是聚类的标准概念。 簇内的样本应该尽可能相似。不同簇之间应该尽可能不相似。 目的:鸢尾花数据进行kmeans聚类,最佳聚类个数是多少? plot(iris[,1:4…

轮廓系数越大,表示簇内实例之间紧凑,簇间距离大,这正是聚类的标准概念。

  • 簇内的样本应该尽可能相似。
  • 不同簇之间应该尽可能不相似。

目的:鸢尾花数据进行kmeans聚类,最佳聚类个数是多少?

plot(iris[,1:4], col=iris$Species)
在这里插入图片描述

1. 标准化很重要

假设已经知道最佳是3类,

  • 使用原始数据做kmeans,和原始标签不一致的很多。
  • 如果做了标准化,kmeans的分类结果和原始标签一模一样。

(1). raw dat (错了好多)

dat=iris[, 1:4]
rownames(dat) = paste0("obs", 1:nrow(dat))
dat[1:3,]km_model <- kmeans( dat, centers = 3)# 获取分类结果
predictions <- km_model$cluster
table(predictions)dat$origin=iris$Species
dat$pred=predictionstable(dat$origin, dat$pred)
#           1  2  3
#setosa      0  0 50
#versicolor 48  2  0
#virginica  14 36  0plot(dat$Sepal.Length, dat$Sepal.Width, col=dat$origin, pch=19)
plot(dat$Sepal.Length, dat$Sepal.Width, col=dat$pred, pch=19)

(2). normalized dat (几乎全对)

dat=iris[, 1:4]
rownames(dat) = paste0("obs", 1:nrow(dat))
dat[1:3,]dat=apply(dat, 1, function(x){x/sum(x) * 1e4
}) |> t()  |> as.data.frame()
head(dat)# 行作为观测值
km_model <- kmeans( dat, centers = 3)# 获取分类结果
predictions <- km_model$cluster
table(predictions)dat$origin=iris$Species
dat$pred=predictionstable(dat$origin, dat$pred)
#             1  2  3
#setosa     50  0  0
#versicolor  0 45  5
#virginica   0  0 50

2. 最佳分类数

(0) 预处理

dat=iris[, 1:4]
rownames(dat) = paste0("obs", 1:nrow(dat))
dat[1:3,]dat=apply(dat, 1, function(x){x/sum(x) * 1e4
}) |> t()  |> as.data.frame()
head(dat)

(1) factoextra - silhouette: n=2

library(factoextra)
tmp = factoextra::fviz_nbclust( dat, kmeans, method = "silhouette")
#str(tmp)
tmp #图# fviz_nbclust(dat, kmeans, method = "silhouette", k.max = 20)

在这里插入图片描述

(2) 碎石图: n=2

# 在一个循环中进行15次的kmeans聚类分析
{
totalwSS=vector(mode = "numeric", 15)
for (i in 1:15){t1= kmeans(dat, i)totalwSS[i] <- t1$tot.withinss
}
# 聚类碎石图 - 使用plot函数绘制total_wss与no-of-clusters的数值。
plot(x=1:15,                         # x= 类数量, 1 to 15totalwSS,                      #每个类的total_wss值col="navy", lwd=2,type="b"                       # 绘制两点,并将它们连接起来
)
}

在这里插入图片描述

(3) silhouette 画图: n=2?

逐个画:

# 逐个画轮廓系数
library(cluster)
dis = dist(dat) #行之间的距离
#
n=3
kclu <- kmeans(dat, centers = 3, nstart=25)
kclu.sil=sortSilhouette( silhouette(kclu$cluster, dist = dis) )
plot(kclu.sil, col =1:n, #c("red", "orange", "blue"), main="")#
n=4
#library(cluster)
#dis = dist(dat) #行之间的距离
kclu <- kmeans(dat, centers = n, nstart=25)
kclu.sil=sortSilhouette( silhouette(kclu$cluster, dist = dis) )
plot(kclu.sil, col =1:n, # c("red", "orange", "blue"), main="")
#
#
n=8
#library(cluster)
#dis = dist(dat) #行之间的距离
kclu <- kmeans(dat, centers = n, nstart=25)
kclu.sil=sortSilhouette( silhouette(kclu$cluster, dist = dis) )
plot(kclu.sil, col =1:n, # c("red", "orange", "blue"), main="")
#

在这里插入图片描述

批量计算:

silhouette_score <- function(k){km <- kmeans(dat, centers = k, nstart=25)ss <- silhouette(km$cluster, dist(dat))mean(ss[, 3])
}
k <- 2:15
avg_sil <- sapply(k, silhouette_score)
plot(k, avg_sil, type='b',xlab='Number of clusters', ylab='Average Silhouette Scores', frame=FALSE)

在这里插入图片描述

最大是2,其次是3类。

根据本文图1,忽略颜色,只看数值分布,确实最佳是2类。

用标准化后的数据呢?
plot(dat, col=iris$Species, main="Normalized data")
在这里插入图片描述

plot(dat,main="Normalized data")

结论不变:如果忽略颜色,依旧是很清晰的2类。
在这里插入图片描述

(4) pam 是一种更稳定的 kmeans

Partitioning Around Medoids:
Partitioning (clustering) of the data into k clusters “around medoids”, a more robust version of K-means.

# 最佳分类数:
Ks=sapply(2:15, function(i){summary(silhouette(pam(dat, k=i)))$avg.width
})
plot(2:15,Ks,xlab="k",ylab="av. silhouette",type="b", pch=19)效果:
t1=pam(dat, k=3)
> table(t1$clustering, iris$Species)   setosa versicolor virginica1     50          0         02      0         44         03      0          6        50
还是有几个错的。

End

http://www.yayakq.cn/news/229996/

相关文章:

  • 运输网站建设怎么查询商标是否已被注册
  • 书店网站策划书vue网站开发实例
  • asp.net网站建设项目实战 董义革网站建设及推广培训
  • 织梦dedecms微信微网站模板建筑网片计算公式详解
  • 网站建设调研文档管理咨询公司最专业的公司
  • 青岛住房和城乡建设厅网站首页汽车金融网站怎么做
  • 河南省罗山县做网站的公司网站色彩搭配技巧
  • 响水企业做网站多少钱企业介绍 wordpress
  • 河南县公司网站建设自己架服务器做网站
  • 网站移动端是什么网站建设合同性质
  • 镇江百度网站许昌网络推广公司
  • 英文公司网站制作wordpress免费国内主题
  • 邯郸住房和城乡建设局网站建设工程现行标准查询网站
  • 江苏建设厅官方网站安全员怎么做国内外网站
  • 泉州公司网站设计新建网站怎么想谷歌和百度提交
  • 百度网站建设开场话术百度域名的ip
  • 安吉网站设计百度域名值多少钱
  • 做盗版视频网站违法吗桂林软件开发
  • 网站建设基本代码线上推广团队
  • 徐州有哪些网站制作公司长春专业网站制作公司
  • 网站建设公司提成深圳做自适应网站制作
  • 个人博客网站域名注册外国人做那个视频网站
  • 网站上的产品介绍如何做网页专题设计
  • 网站备案密码格式哈尔滨论坛建站模板
  • 万维网网站域名续费做网站多少钱 佛山
  • 织梦php网站国内网站需要备案
  • nat123做网站 查封类似Wordpress知乎
  • 江苏商城网站建设服务个人主页网页介绍
  • 福州网站建设外包简述电子商务网站建设的基本要求6
  • 宁波网站建设icp备建设安全网站的目的