当前位置: 首页 > news >正文

大创项目做英语网站农产品网站开发

大创项目做英语网站,农产品网站开发,互动平台网站建设,建站工具帝国检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例 上节做了很多的基因数据清洗(离群值处理、低表达基因、归一化、log2处理)操作,本节介绍构建临床分组信息。 我们已经学习了提取表达矩阵的临床…

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

上节做了很多的基因数据清洗(离群值处理、低表达基因、归一化、log2处理)操作,本节介绍构建临床分组信息。

我们已经学习了提取表达矩阵的临床信息

# 安装并加载GEOquery包
library(GEOquery)# 指定GEO数据集的ID
gse_id <- "GSE1297"# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = FALSE ,getGPL = F)#提取临床信息 方法一:$或者@ ,配合str()观察结构
pdata = gse_info$GSE1297_series_matrix.txt.gz@phenoData@data

临床信息预处理

提取出关键的两列

#构建样本分组信息
group_data = pdata[,c('geo_accession','title')]

本例中的疾病和对比组的标识比较复杂,要考虑剔除数字,还要考虑做2分类还是4分类。

字符串处理二分类


# 使用grepl函数判断字符串是否包含'abc',并进行相应的修改
group_data$group_easy <- ifelse(grepl("Control", group_data$title), "Control", "AD")

字符串处理四分类

# 使用grepl函数判断字符串是否包含特定内容,然后进行相应的修改
group_data$group_more <- ifelse(grepl("Control", group_data$title), "Control",ifelse(grepl("Moderate", group_data$title), "Moderate",ifelse(grepl("Incipient", group_data$title), "Incipient","Severe")))

处理后的结果,无需调整分组信息的顺序,让AD在一堆,Control在一堆,现在的<临床信息表的行索引GSM顺序>与<基因表达信息表的列索引GSM顺序> 是一致的。

需要的分组信息已经提取完毕。

分组后箱线图可视化

上一节保存了数据清洗后的基因表达矩阵,加载进来,为了使用简单boxplot画图,我们又增加了一列区分不同样本类型的颜色。

#加载基因表达矩阵
load("exprSet_clean_75percent_filter.RData")  #exprSet_clean# 使用grepl函数判断字符串是否包含'Control',并进行颜色标记,为画图
group_data$group_color <- ifelse(grepl("Control", group_data$title), "yellow", "blue")#(3)画箱线图查看数据分布group_list_color = group_data$group_color 
boxplot( data.frame(exprSet_clean),outline=FALSE,notch=T,col=group_list_color,las=2)

分组后层次聚类图可视化

exprSet =exprSet_clean
#修改GSM的名字,改为分组信息
colnames(exprSet)=paste(group_data$group_easy,1:ncol(exprSet),sep = '')#定义nodePar
nodePar=list(lab.cex=0.6,pch=c(NA,19),cex=0.7,col='blue')
#聚类
hc=hclust(dist(t(exprSet))) #t()的意思是转置#绘图
plot(as.dendrogram(hc),nodePar = nodePar,horiz = TRUE)

分两类好像看不太出来,聚类的好坏,我们又观察了分四类后的聚类情况,效果不错。

聚类的效果还不错,没有特别别扭的分类。

分组后PCA图可视化

由于样本量比较少,看起来,两类样本,在空间上还算分的比较开。(后期可以把轻微症状放到Control组,做测试看看效果。)

至此为止,临床信息预处理工作完毕,基因表达数据预处理工作完毕,最让人头疼的工作结束。

最后别忘了保存一下根据临床数据构建的分组信息,后面的差异分析要用哦

http://www.yayakq.cn/news/225238/

相关文章:

  • 网站整站优化方案太原城市建设招标网站
  • 做网站那个php好用本地wordpress 同步
  • 适合学生做网站的图片微信朋友圈推广方案
  • 免费网站空间论坛wordpress网页缩小
  • app开发与网站建设难度个人网页设计要素
  • 东莞营销网站建设哪家好太仓企业网站建设公司
  • 上海网站建设在哪百度热词
  • 如何在电子表格上做网站的连接应用市场app下载安装到手机
  • 网站分为哪几个部分网站的开发语言有哪些
  • 网站建设提成方案几分钟网站做渔网
  • 长沙网站建设方面免费申请个人网站申请
  • 沈阳做网站seo上海网站怎么备案号
  • 杭州观建设计网站软件研发租用网站怎么做分录
  • 建设企业网站要多少钱网站开发规划方案
  • 本地网站模板杭州网站开发凡客
  • 最好的网站建设多少钱一嗨租车网站建设的功能特色
  • 网站备案的具体流程wordpress wpgo
  • 怎样说服公司做网站小米4路由器可以做网站嘛
  • 天河做网站系统网站标题栏做多大
  • 典型网站开发的流程怎么制作链接
  • 凯里哪里有做网站的广州网站排名优化
  • 温岭 网站制作达州seo排名
  • php用什么做网站服务器吗食品包装设计ppt模板
  • 莆田有哪些网站建设公司asp网站连接access数据库
  • 建设校园门户网站信息意义搜索各大网站
  • wordpress 图片选择器有什么办法可以在备案期间网站不影响seo
  • 广西住房和城乡建设厅网站首页专业网络推广外包公司
  • 吉林省住房建设安厅网站网站做关键词
  • 网站设计报价单模板网站制作的公司哪个好
  • 在阿里巴巴做网站什么企业的网络营销策略好写