UCSCXENA?

关于TCGA的分析,各种网页和公众号已经很多了,甚至还有概普测试、仙桃学术这些“傻手级”应用,然而最近下载数据的时候我突然发现……原来自己连最常用的UCSC XENA都还没学完。

通常来讲,UCSC XENA作为一个非常标准的数据库而存在,经常用语从里面下载各种各样的Tumor的组学数据,官方还出了UCSCXenaTools这个整合的数据下载接口,方便在R中的数据下载,再也不用烦恼各种数据倒腾来倒腾去了。

但是UCSCXenaTools却没提供很好用的绘图的接口,仅仅作为下载数据存在,但是UCSC XENA上却有,与大家常用的诸如GEPIA2、UALCAN提供的没有区别,甚至由于其数据一致的特性,可靠性和可复现程度更高,当然想做什么很复杂的分析也的确不容易就是了,复杂分析这里推荐GSCA图好看,有数据,能下载,类型全,且访问快….

说回UCSC XENA,这个分析在哪里呢?其实就在首页,上面有个大大的visualization,点那个就行。

进去之后,会感觉有点蒙蔽,这界面都是些啥?能干啥?而且指示不清,的确是非常古早的设计了。

首先以最简单的需求出发,比如,想看某个基因在某个TCGA队列里面的表达量在normal和tumor之间的区别,怎么做?

UCSC提供三段式的分析步骤,无论做什么,都是这三个步骤:

首先,选择study,当然最开始看到的是 I know the study I want to use,就选这个,如果你连要做什么队列或者癌症类型都没确定,那还是先去设计课题再来分析….

选好之后下面会弹出让选择队列的框,可以在里面输入一些关键词,比如癌症的类型,像LIHC,LUAD,GBM等,也可以浏览它提供的数据,反正大家都很熟悉了,随便选一个COAD。选好后,点击下面的DONE,进入下一步。

然后,是选择需要研究的特征,包括了各种数据类型的特征都能选,表型,各种组学都可以,这里想看的是基因表达,比如TP53基因,就在上面输入TP53,然后往下选择gene expression RNAseq里面的就行,数据的含义不做解释,选好后点确定。当然,还可以看甲基化、突变情况、甚至临床的特征都行。选好后DONE,进入下一步。

下一步就是选择第二个变量,可以是临床特征,需要切换到Phenotypic,然后进行选择,这里可以选sample_type,就是比较tumor/normal之间的差异。这里也可以再选一个基因,看二者的相关性,或者选一些甲基化位点,这里也是UCSC的一个缺陷,最多就提供俩变量的联系。选好后点DONE。

这时候,研究就构件好了,可以选择第一个变量或者第二个变量进行分析,点击各自选项卡右上角的三角形就行,剩下的就简明易懂了,比如这里选Chart&Statistic就能够进行简单的统计绘图,提供box和violin两种。

看上去好像很弱是吧,然而这里有个好处,其一,它用的数据直接提供下载,有时候比如你只想查看某几个基因的数据,直接设计好了之后,可以直接下载为TSV,跳过清洗之类的步骤,这一步也可以通过UCSCXenaTools完成,但未必每个人都知道代码怎么写。网页工具的确直观一些。第二个优势在于,它提供下载的数据,就是它绘图用的,不会出现你下载了它的数据,却复现不出来的情况,也不会有什么所谓“独特”的,不提供下载的预处理(说的就是你GEPIA),结论更加可靠,像GEPIA2那种TPM,搞完没人复现出来,鬼才相信他提供的结论哦。

当然,也能设计更加复杂的项目就是了,作为初步的探索非常合适,也能够为一些入门的提供更加简单方便的TCGA的分析。用不着去蹭那些乱七八糟压根复现不出来的网页工具,就用这个就够了。