探花 巨乳你的位置:熟女吧 > 探花 巨乳 > 调教 telegram ncount_RNA 和nFeature_RNA支持过滤
调教 telegram ncount_RNA 和nFeature_RNA支持过滤

发布日期:2025-07-03 15:16    点击次数:179

  

调教 telegram ncount_RNA 和nFeature_RNA支持过滤

前情概要

前次给大家绵薄整理了一下细胞武断弧线图长入,内部使用nCount_RNA或然nFeature_RNA在R谈话内部绘图细胞武断弧线调教 telegram,找到一个适合的cutoff值,进行了一个初步的质控。

cos足交

图片调教 telegram

收尾也提到了,很少会有卑劣是原始的rawcounts的数据,一般咱们皆是使用cellranger质控后的数据进行分析。不外关于科罚后的数据集咱们不错可视化一下nFeature_RNA和nCount_RNA来支持进行质控

那领先咱们基于Seurat官网的教程来了解转头一下nFeature_RNA和nCount_RNA,况兼可视化判断一下阈值,然后了解一下推行分析情况中的支配。

nFeature_RNA和nCount_RNA简介

创建完seurat对象之后,在不进行任何操作时,seurat会为每个细胞创建一个元数据,保存在meta.data内部

#读取数据创建seurat对象pbmc.data <- Read10X(data.dir = "./filtered_gene_bc_matrices/hg19/")pbmc <- CreateSeuratObject(counts = pbmc.data,                            project = "pbmc3k",                            min.cells = 3)                           > dim(pbmc)[1] 13714  2700

图片

每一列的内容:

orig.ident:时常包含所知的样品名,默许为咱们赋给project的值,若是不赋值那即是SeuratProjectnCount_RNA:每个细胞的UMI数量nFeature_RNA:每个细胞所检测到的基因数量

不错看到nCount_RNA和nFeature_RNA也曾有互异的,这就与它们的蓄意要领磋议

图片

#nCount_RNA:总的UMI数即转录本数量colSums(sce@assays$RNA$counts)#nFeature_RNA:总的基因数量colSums(sce@assays$RNA$counts>0)
可视化及阈值判断

不错使用小提琴图来绵薄可视化一下nFeature_RNA和nCount_RNA

VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA"))

图片

过滤前

nFeature_RNA图:反应的是样品中每个细胞抒发的基因数量,抒发过高可能是双细胞或然多细胞,抒发过低可能是空液滴或然包裹的是环境RNA

nCount_RNA图:反应的是每个细胞中包含的UMI数量也即是转录本的数量

在10X Genomics测序数据分析过程中,通过UMI对测序得到的reads进行简并之后,就不错看到一个细胞中被读到若干个基因。一般一个细胞不错得到40000-80000个灵验的UMI,平均一个细胞的一个基因有10个傍边的UMI。

是以咱们在进行阈值判断的本领,不错径直基于nFeature_RNA值也即是基因的数量

图片

阈值判断

We filter cells that have unique feature counts over 2,500 or less than 200

官网给的是大于200和小于2500,但可视化之后咱们不错看到上已毕在2000其实也不错。

不外pbmc是相比早期的数据了,测到的细胞数量相比少,上限建造的也相比低,若是是当今的单细胞数据也曾要具体数据具体分析

#基于阈值过滤况兼可视化pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2000)VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA"))> dim(pbmc)[1] 13714  2692

图片

过滤后

过滤后,细胞从最运行的2700变为当今的2692,过滤掉了部分细胞。

以上是seurat官网pbmc3k_tutorial中QC的部老实容,接下来咱们望望在推行数据中的支配。

推行分析中支配

若是大家手里有手段树单细胞分析的法式分析代码,若是需要的话不错取得一下联结: https://pan.baidu.com/s/1bIBG9RciAzDhkTKKA7hEfQ?pwd=y4eh

那在咱们的scRNA_scripts文献夹中有个qc.R的质控剧本文献,即是对读取进来的数据进行质控的。

图片

剧本函数领先是蓄意了线粒体、核糖体以及血红细胞的比例(下期给大家预防先容),然后就可视化了细胞中这些参数的情况。咱们也曾先要点望望nFeature_RNA和nCount_RNA

#qc.R剧本中nFeature_RNA和nCount_RNA部老实容feats <- c("nFeature_RNA", "nCount_RNA")p1=VlnPlot(input_sce, group.by = "orig.ident", features = feats, pt.size = 0, ncol = 2) +     NoLegend()p1 w=length(unique(input_sce$orig.ident))/3+5;wggsave(filename="Vlnplot1.pdf",plot=p1,width = w,height = 5)

图片

质控前

一般走法式经由的本领,在创建seurat对象本领就会基于min.cells = 5和min.features = 300进行过滤,是以在qc剧本中是不进行这一步的过滤操作的。不外为了看一下过滤前后变化,咱们不错基于可视化的效果进行一个绵薄的过滤操作。

图片

#绵薄过滤 if(T){    selected_c <- WhichCells(input_sce, expression = nFeature_RNA > 500 & nFeature_RNA < 2500)    selected_f <- rownames(input_sce)[Matrix::rowSums(input_sce@assays$RNA$counts > 0 ) > 3]    input_sce.filt <- subset(input_sce, features = selected_f, cells = selected_c)    dim(input_sce)     dim(input_sce.filt)   }    #可视化过滤后的情况  feats <- c("nFeature_RNA", "nCount_RNA")  p1_filtered=VlnPlot(input_sce.filt, group.by = "orig.ident", features = feats, pt.size = 0, ncol = 2) +     NoLegend()  w=length(unique(input_sce.filt$orig.ident))/3+5;w   ggsave(filename="Vlnplot1_filtered.pdf",plot=p1_filtered,width = w,height = 5)  

图片

过滤后

基骨子控兴味:不错去胆怯每个样品中,一些抒发量过高或然过低的基因。

除了在基骨子控法子咱们会可视化一下细胞中nFeature_RNA和nCount_RNA的情况,在进行降维聚类分群的本领,咱们也会对nFeature_RNA和nCount_RNA进行可视化。

细胞降维聚类分群中支配

在选拔对应的阈值进行可视化的本领,咱们会用到check-all-markers.R剧本,基于常见Marker基因进行一下可视化,以及绘图umap图

图片

在check-all-markers.R剧本,匡助咱们检验证据每个细胞亚群中基因的抒发情况,从而匡助咱们判断是否是双细胞。

具体推文:怎么摒除双细胞

咱们在进行亚群绵薄定名的本领,一般选拔相比低的差别率0.1,那在GSE208706数据的0.1分群中,咱们不错很彰着的看到第9群相比狭长,且包含了两个不同细胞亚群的Marker基因。

图片

为了判断是否是双细胞,咱们就需要连络每个亚群的单个细胞的总的RNA数量进行判断

if("percent_mito" %in% colnames(sce.all.int@meta.data ) ){  #可视化细胞的上述比例情况  feats <- c("nFeature_RNA", "nCount_RNA", "percent_mito", "percent_ribo", "percent_hb")    feats <- c("nFeature_RNA", "nCount_RNA")  p1=VlnPlot(sce.all.int , features = feats, pt.size = 0, ncol = 2) +     NoLegend()  w=length(unique(sce.all.int$orig.ident))/3+5;w  ggsave(filename=paste0(pro,"Vlnplot1.pdf"),plot=p1,width = w,height = 5)    feats <- c("percent_mito", "percent_ribo", "percent_hb")  p2=VlnPlot(sce.all.int,  features = feats, pt.size = 0, ncol = 3, same.y.lims=T) +     scale_y_continuous(breaks=seq(0, 100, 5)) +    NoLegend()  w=length(unique(sce.all.int$orig.ident))/2+5;w  ggsave(filename=paste0(pro,"Vlnplot2.pdf"),plot=p2,width = w,height = 5)  }

图片

nFeature_RNA可视化效果发现反而第8群抒发量高,而第9群浅近。基于Marker基因运筹帷幄第8群是处于增殖期的细胞,是以抒发量高是合理的。

况兼进步差别率之后,发现9群被细分为两个亚群,也不是双细胞。

图片

一般咱们会凭据中位线以及最高值来进行判断,再进步差别率看亚群有莫得分开,再详情是否是双细胞。

线粒体比例

在官网以及咱们的法式质控经由中,皆管帐算线粒体比例

图片

咱们的qc.R剧本中还对核糖体以及血红细胞的比例进行了蓄意和可视化,那下期一说念来了解一下这些内容吧!

图片

本站仅提供存储就业,统共内容均由用户发布,如发现存害或侵权内容,请点击举报。

Powered by 熟女吧 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024