泰州做网站多少钱建网站建设
一、筛选疾病靶点
GeneCards
- 下载数据得到
GeneCards-SearchResult.csv - 通过
Relevance score≥1.0得到GeneCards.csv - 步骤2只保留
Gene Symbol,即基因名这一列得到GeneCards_gene_names.csv 
OMIM
- 下载数据得到
OMIM-Gene-Map-Retrieval.xlsx - 只保留
Gene/Locus,即基因名这一列得到OMIM.xlsx - 处理
OMIM.xlsx,得到单个基因名只占一行、去重、去除空格的OMIM_gene_names.xlsx 
TDD
- 手动粘贴
Target Name小括号里面的基因名称,加上列名GeneName,得到TDD_gene_names.csv 
汇总
- 取三个数据库的交集或并集(一般取交集),去重,得到
disease.xlsx,数据量为几千个为合适的。 
二、筛选药物成分
TCMSP
- 用
OB≥30%, DL≥0.18标准筛选后手动粘贴数据得到TCMSP.xlsx(数据量太少就用OB≥20%, DL≥0.18) 
SwissADME二次筛选
- 用
高GI和两条yes于Druglikeness标准进行二次筛选,得到SwissADME.xlsx,最终数据量为几条到十几条。 
三、查询成分相关信息
TCMSP根据成分名称(Molecule Name)获取其mol2格式文件
PubChem根据成分名称获取其2D结构的SDF格式文件
四、预测成分靶点
PharmMapper
- 用
SDF(2D或3D都可)/MOL2格式文件上传任务(一般2D的SDF最常用) - 下载任务数据集,命名为
成分名称_pharmMapper.csv - 对步骤2得到的文件进行处理,列只要
Norm Fit和Uniplot,得到成分名称_pharmMapper_uniplot.csv - 对步骤3得到的文件进行处理,只要
Norm Fit≥0.9的数据行,得到成分名称_pharmMapper_filtered.csv - 对步骤4得到得文件进行处理,列只要
Uniplot,去重,得到pharmMapper_filtered.csv,数据量在几十到几百正常。 
SwissTargetPrediction
- 下载数据集,分别命名为
成分名称_SwissTargetPrediction.csv - 选取
Probability的Top15,分别命名为成分名称_SwissTargettPrediction_top15.csv 
如果
Probability为0,那么即使在top15也不要选,数据量小时可以选择Top 20/Top 25,或者干脆≥0.7或≥0.1或>0的都可。数据量过多时,probability大于10也可以。大于中位数也行。
- 对步骤2得到的文件进行处理,列只要
Common(靶点名)、Uniprot ID、Probability,分别命名为成分名称_SwissTargetPrediction_filtered.csv - 对步骤3得到的文件进行处理,把所有成分汇总,只保留列
Common name和Uniprot ID,并去重,得到SwissTargetPrediction_top15_filtered.csv,数据量在几十到几百正常。 
汇总
- 取两个数据库的交集或并集(一般取交集,数据量过小就取并集),只保留
Uniplot列,去重,得到drug.xlsx,数据量为几百个为合适的。 
五、Uniprot转化为基因名
- 对成分靶点的数据文件转换为基因名,将
From列改为Uniplot,将To列改为GeneName,命名为drug_genes.xlsx 
六、成分靶点和疾病靶点做韦恩图
- 命名为
venn.png 
