scRNA in R (1)
这里是单细胞转录组R语言分析合集第一弹,用于整理和记录单细胞RNA转录组的分析方法框架,目前可能不会涉及到太多代码的部分,只是整理框架,用于给自己一个备忘查找的方案~
本篇为基础流程方案。基础流程即包括常见的从下游数据到降维聚类,细胞注释方案,对R中单细胞对象的操作,以及这一过程中”至少”需要展示的result figure
- 数据对象化,读入单样本/多样本的原始数据,merge后,将单细胞上游数据获取的表达转化为seurat对象或者anndata,以rds/h5ad的形式保存,不再采用其他多种格式例如SngleCellExperiment等;如果需要多种对象之间的转换,可用seurat_wrapper或者sceasy进行转换。原始数据在这一步结束后,以scRNA_raw.Rdata/rds的形式留存待用;
- QC,主要针对双细胞、线粒体基因、核糖体基因、血红蛋白(针对PBMC)、低表达基因、细胞周期等进行过滤,必要时可进行基因表达的插补,注意只有10X系列数据可以插补,同时需考虑时间和计算开销;
- 数据标准化和缩放,目前已经有SCTransform流程,但是因为很多工具还需要方便地提取log后数据的问题。主干分析流程不采用SCTransform,仍然使用log+scale;如需使用CCA进行整合则改为SCTransform,但仍需另配log+Scale。
- 线性降维和非线性降维、PC数挑选、聚类,最佳resolution选择,最终得到基础的降维聚类,在极大数量单细胞时,tsne也有很好的表现,因此主干中使用tsne和umap同时进行降维;
- 【如果需要】多样本去批次,对于merge的数据,使用harmony、CCA、RPCA(Seurat新出的,原理跟harmony相似)、liger(跨物种整合),fastMNN(快速整合)等,进行数据整合和批次效应去除,这部分细节和可调整空间很多,注意在处理批次之前,对单细胞的barcode进行处理,否则会出现duplicate id的问题;
- 差异基因分析,基于细胞注释、样本或其他条件进行差异分析,可用FindConservedMarkers、FindAllmarkers、COSG、Scibet等进行差异分析,这一步涉及到下面的细胞注释,因此通常这里只返回阳性的marker(only.pos =T),当然,实现上可以考虑增加一个+/- marker都返回的结果;
- 执行细胞注释,基于参考数据的scCATCH、SingleR,基于projection of reference data的Seurat等,基于参考分类器的garnett,以及基于marker的手动注释、富集注释和cellasign、cellid,注意两个最重要的细胞marker库:panglaodb和cellmarker,以及目前比较好的网页工具toppgene和最新出来的Cell Taxonomy。
- 基本流程的可视化内容,可用工具包括SCpubr、scRNAtoolVis和Scillus
- DimPlot绘制降维图,可取不同的reduction,包括PCA、UMAP、tsne和PHATE
- FeaturePlot在降维上直接绘制基因表达的结果,使用基础的FeaturePlot或者Nebulosa plots;
- 小提琴图,使用Vlnplot绘制QC结果,VlnPlot绘制marker基因在不同cluster里的表达
- dotplot,绘制不同的基因在不同cluster里的表达
- barplot,使用barplot绘制不同细胞类型在不同样本/条件里的丰度
- volcano plot,使用火山图绘制多细胞里的差异基因
- heatmap,绘制特定基因在不同细胞、组别内的mean expression,并添加注释信息