查看原文
其他

10X单细胞转录组数据的动态阈值过滤

生信技能树 生信技能树 2022-08-15

总是有粉丝在我们的各个公众号教程下面留言关于单细胞数据处理的细节问题,比如为什么我们过滤线粒体基因表达量超15%的细胞啊,为什么看核糖体基因表达量占比啊等等。

其实看一下基础10讲:

就明白了, 问怎么过滤以及犹豫不决那些过滤标准的,往往是统计学背景知识不足,或者单细胞项目经验不足,所以自己没有把握去一定程度的随心所欲的改变阈值。

这个时候,推荐大家看一下动态阈值过滤,统计学是sigma法则:

对于正态分布的x,x取值在(mean-3sd,mean+3sd)范围内的概率是0.9973002,这个概率外的事情基本上不可能发生。

比如于2021年3月发表在《Nature Communications》杂志的文章, 标题是:《Time-resolved single-cell analysis of Brca1 associated mammary tumourigenesis reveals aberrant differentiation of luminal progenitors》,链接是:https://www.nature.com/articles/s41467-021-21783-3

就是采用了动态阈值过滤,如下所示:

动态阈值过滤指标

这个时候会有同学问了,为什么这个文章采用的是MAD指标而不是SD指标呢?我只能说,统计学深似海啊!同志们,加油!

统计学是一块的难啃的骨头,所以我们整理了技能树往年笔记,以及一些优秀同行的分享分享给大家,每一篇都值得细细品读!

如果不学统计学,那么你就不可能看懂下面这图,生物信息学领域耳熟能详的生存分析,主成分分析,差异分析你都无法理解。

首先是statquest学习小组长笔记


StatQuest生物统计学专题 - 基础概念

StatQuest生物统计学专题 - p值

StatQuest生物统计学专题 - 生物重复和技术重复

StatQuest生物统计学专题 - RPKM,FPKM,TPM

StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法

StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法

StatQuest生物统计学 - Independent Filtering

StatQuest生物统计学 - FDR及Benjamini-Hochberg方法

StatQuest生物统计学 - 拟合基础

StatQuest生物统计学 - 线性拟合的R2和p值

StatQuest生物统计学专题 - 分位数及其应用

StatQuest生物统计学专题 - 极大似然估计

StatQuest生物统计学专题 - PCA

StatQuest生物统计学专题 - PCA的奇异值分解过程

StatQuest生物统计学专题 - LDA

StatQuest生物统计学专题 - MDS

StatQuest生物统计学专题 - tSNE的基础概念

StatQuest生物统计学专题 - 聚类及其算法(1)

StatQuest生物统计学专题 - 聚类及其算法(2)

StatQuest生物统计学专题 - K近邻算法

StatQuest生物统计学专题 - 决策树(1)

StatQuest生物统计学专题 - 决策树(2)

StatQuest生物统计学专题 - 随机森林(1) 构建与评价

StatQuest生物统计学专题 - 随机森林(2) R实例

待续,持续更新

然后是小组最优秀成员Rvdsd的笔记列表:

StatQuest学习笔记01-统计学分布及抽样

StatQuest学习笔记02-样本量与重复

StatQuest学习笔记03-标准差、标准与置信区间

StatQuest学习笔记04-拟合

StatQuest学习笔记05-线性模型

StatQuest学习笔记06-分位数及其应用

StatQuest学习笔记07-最大似然法详解

StatQuest学习笔记08-比数与比数比

StatQuest学习笔记09-Fisher精确检验

StatQuest学习笔记10-t检验(视频中是真人讲解,没有课件)

StatQuest学习笔记11-p值详解

StatQuest学习笔记12-FDR及实现

StatQuest学习笔记13-LDA

StatQuest学习笔记14-PCA

StatQuest学习笔记15-MDS

StatQuest学习笔记16-tSNE

StatQuest学习笔记17-聚类

StatQuest学习笔记18-K邻近算法

StatQuest学习笔记19-决策树

StatQuest学习笔记20-随机森林

StatQuest学习笔记21-逻辑回归

StatQuest学习笔记22-交叉验证

StatQuest学习笔记23-RNA-seq简介

StatQuest学习笔记24-RPKM FPKM TPM

StatQuest学习笔记25-差异表达分析

StatQuest学习笔记26-RNA-seq中的技术重复问题

接着是协和八统计干货

第 1 章  高屋建瓴看统计




你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯 vs 频率派:武功到底哪家强?


第 2 章  算术平均数与正态分布




数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?


第 3 章  t 检验:两组平均数的比较




想玩转 t 检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有 15 个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox 变换

t 检验用不了?别慌,还有神奇的非参数检验

只讲 p 值,不讲效应大小,都是耍流氓!

找出 t 检验的效应大小,对耍流氓 say no!

用置信区间,就是这么(不)自信!

如何确定 t 检验的置信区间

优雅秀出你的 t 检验,提升 Paper 逼格!

要做 t 检验,这两口毒奶可喝不得!


第 4 章  方差分析(ANOVA):多组平均数的比较




要比较三组数据,t 检验还能用吗?

ANOVA 在手,多组比较不犯愁

ANOVA 的基本招式你掌握了吗?

ANOVA 做出了显著性?事儿还没完呢!

听说,成对t检验还有 ANOVA 进阶版?

重复测量 ANOVA:你要知道的事儿都在这里啦

没听说过多因素 ANOVA ?那你就可就 OUT 了!

多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!

两个因素相互影响,ANOVA 结果该如何判读?

ANOVA 还能搞三四五因素?等等,我头有点儿晕

要做 ANOVA,样本量多大才够用


第 5 章  线性回归:统计建模初步


车模航模你玩过,统计学模型你会玩吗?

如果只能学习一种统计方法,我选择线性回归

回归线三千,我只取这一条

三千回归线里选中了你,你靠谱吗?

自变量不止一个,线性回归该怎么做?

找出「交互效应」,让线性模型更万能

天啦噜!没考虑到混杂因素,后果会这么严重?

回归系数不显著?也许是打开方式不对!

评价线性模型,R 平方是个好裁判吗?

如果R平方是砒霜,本文教你三种解药!

线性模型生病了,你懂得怎样诊断吗?

「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」


第 6 章  广义线性模型:统计建模进阶


你在 或者不在 需要逻辑回归来算

逻辑回归的袅娜曲线,你是否会过目难忘?

逻辑回归的统计检验,原来招数辣么多?

线性回归能玩多变量,逻辑回归当然也能! 

喂,你的逻辑回归模型该做个体检啦

逻辑回归能摆平二分类因变量,那……不止二分类呢?

让人眼花缭乱的多项逻辑回归,原来是这么用的

只问方向,无问远近,定序回归的执念你懂吗?

包教包会:定序回归实战

「数」风流人物,还靠泊松回归

广义线性模型到底是个什么鬼?


自检

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?


番外篇

说人话的统计学:一份迟来的邀请

最后还有已经停更的NGSHotpot机器深度学习生信
  1.  Importance of being uncertain

  2. Points of Significance: Error bars

  3. Points of Significance: Significance, P values and t-tests

  4. Points of Significance: Power and sample size

  5. Points of Significance: Visualizing samples with box plots

  6. Points of Significance: Comparing samples – part I

  7. Points of Significance: multiple-testing correction

  8. Points of Significance: 非参数检验

  9. Points of Significance: 对照实验设计

  10. Points of View: Analysis of variance and blocking

  11. Points of Significance: 贝叶斯公式

  12. Points of Significance: 贝叶斯统计

  13. Points of Significance: 贝叶斯网络

  14. Points of Significance: Association, correlation and causati

  15. Points of Significance: 一元线性回归

  16. Points of Significance: 多元线性回归

  17. Points of Significance: Analyzing outliers: influential or n

  18. Points of Significance: Regression diagnostics

这个NGSHotpot机器深度学习生信公众号负责人已经各奔东西,创始人也去了华为,估计是不会再更新了,大家以后学生物信息学只能看我们生信技能树啦,持续输入五年,领域内没有对手!

如果你不想错过我们的精彩教程,请置顶我们:没看到通知?是不是五行缺星?

如果你不想漏掉我们往期教程,请学会搜索:历史宝藏这样找

更有大量的学习笔记在“生信技能树论坛”的“统计学板块”👇

之所以如此重视笔记输出,正如当时发起学习小组时所言:

在学习一门知识而又无法高频率的使用时,那么“学完就忘”的概率高到让它不像是一个随机事件。而记笔记是学习一门新知识非常重要的手段,它恰恰是抵抗“学完就忘”的法宝。

笔记输出其实也是从原理层到应用层转变的一种模式,学习很容易,自以为懂了也很容易,但是要讲清楚却不容易,写下来也不容易,写好更不容易,完成一篇笔记也许需要10篇参考文。


输出笔记既是知识点的总结和记录,以便于整理、学习和复习,又是思维层面的转换,是从被动学习到主动输出的过程。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存