利用UCSC的XENA用于批量下载TCGA数据库

使用UCSCXENA用于批量下载TCGA数据库,UCSC的XENA浏览器https://xenabrowser.net/datapages/ 是一个非常方便的TCGA数据浏览下载工具。

打开后,右侧有很多数据来源,选择GDC hub。GDC是Genomic Data Commons的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,它包括TCGA、TARGET等癌症数据库。

此处还可以看到有TCGA Hub,里面的数据和GDC Hub内的数据并不相同,以下选择GDC Hub数据。

部分数据如下图所示,其中”GDC TCGA”开头的就是TCGA数据库数据,共有33个癌症数据。

点击第一个癌症数据LAML,可以进入详情页面,里面是具体的癌症数据下载链接,共有以下7种数据:

copy number
copy number (gene-level)
DNA methylation
gene expression RNAseq
phenotype
somatic mutation (SNPs and small INDELs)
stem loop expression

其相应的下载网址分别是(每一种数据往往有不止一种数据形式,以下仅选其中一种):

https://gdc.xenahubs.net/download/TCGA-LAML.cnv.tsv.gz
https://gdc.xenahubs.net/download/TCGA-LAML.gistic.tsv.gz
https://gdc.xenahubs.net/download/TCGA-LAML.methylation27.tsv.gz
https://gdc.xenahubs.net/download/TCGA-LAML.htseq_counts.tsv.gz
https://gdc.xenahubs.net/download/TCGA-LAML.GDC_phenotype.tsv.gz
https://gdc.xenahubs.net/download/TCGA-LAML.muse_snv.tsv.gz
https://gdc.xenahubs.net/download/TCGA-LAML.mirna.tsv.gz

由于这33个癌症数据的下载链接有高度的规律性,将LAML更换为ACC,即是Adrenocortical Cancer的TCGA数据,因此可以通过shell脚本来完成批量下载:

将以下33个癌症缩写保存为cancerlist.txt文件

LAML
ACC
CHOL
BLCA
BRCA
CESC
COAD
UCEC
ESCA
GBM
HNSC
KICH
KIRC
KIRP
DLBC
LIHC
LGG
LUAD
LUSC
SKCM
MESO
UVM
OV
PAAD
PCPG
PRAD
READ
SARC
STAD
TGCT
THYM
THCA
UCS

则可以通过以下shell来完成下载:

cat cancerlist.txt|while read id
do
echo $id
mkdir $id
cd $id
    wget https://gdc.xenahubs.net/download/TCGA-$id.cnv.tsv.gz
wget https://gdc.xenahubs.net/download/TCGA-$id.gistic.tsv.gz
wget https://gdc.xenahubs.net/download/TCGA-$id.methylation27.tsv.gz
wget https://gdc.xenahubs.net/download/TCGA-$id.htseq_counts.tsv.gz
wget https://gdc.xenahubs.net/download/TCGA-$id.GDC_phenotype.tsv.gz
wget https://gdc.xenahubs.net/download/TCGA-$id.muse_snv.tsv.gz
wget https://gdc.xenahubs.net/download/TCGA-$id.mirna.tsv.gz
cd ../
done

下载的LAML数据如下:

这些数据,Jimmy大神已经下载好并放到了网盘中,如果需要请自取:https://share.weiyun.com/56URQ3a。

PS:可以同时下载GDC Hub与TCGA Hub的CNV文件之后,看一下区别:

#下载GDC Hub的copy number Segment,改名加前缀GDC
wget https://gdc.xenahubs.net/download/TCGA-LAML.cnv.tsv.gz
mv TCGA-LAML.cnv.tsv.gz  GDC-TCGA-LAML.cnv.tsv.gz

#
下载TCGA Hub的copy number segments数据,改名加前缀TCGA
wget https://tcga.xenahubs.net/download/TCGA.LAML.sampleMap/SNP6_genomicSegment.gz
mv SNP6_genomicSegment.gz TCGA-SNP6_genomicSegment.gz

文件大小有区别:

文件的行数也有区别:

参考文献

  1. 生信小技巧第8课,加上 TCGA的28篇教程- 批量下载TCGA所有数据
  2. UCSC xena 浏览器才是最简单的TCGA数据下载途径
生物信息学

反卷积化计算免疫浸润工具介绍——ABIS-seq

2019-11-26 21:59:39

生物信息学

如何直观显示DNA甲基化的数据差别(下)?

2019-11-29 20:09:51

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索