读研笔记

其他

StatQuest系列笔记汇总

学过一段时间统计学,觉得比较零散,后来在生信技术树公众号里看到Jimmy冰糖发起的StatQuest系列视频的学习《炎炎夏日,统计学习小组来袭,希望可以给你浇盆凉水》,我就加了学习群,下载了视频,发现视频不错,就花了一个多月把视频看完了,顺便也把笔记做完了。这个笔记其实就是把视频截图,自己翻译了一下,外加自己的一些理解,因此比较适合给其他正在学习这个视频的人当个参考。由于时间仓促,外加自己也没有统计学背景,因此对于视频中的个别地方也是理解得不清楚,肯定有出错的地方,公众号里不太好更改已经发出的文章,不过我会在我的博客里更改,可以在那里查看(地址:http://rvdsd.top/)。这篇笔记就是对这个视频所有笔记的汇总。StatQuest学习笔记01-统计学分布及抽样StatQuest学习笔记02-样本量与重复StatQuest学习笔记03-标准差、标准与置信区间StatQuest学习笔记04-拟合StatQuest学习笔记05-线性模型StatQuest学习笔记06-分位数及其应用StatQuest学习笔记07-最大似然法详解StatQuest学习笔记08-比数与比数比StatQuest学习笔记09-Fisher精确检验StatQuest学习笔记10-t检验(视频中是真人讲解,没有课件)StatQuest学习笔记11-p值详解StatQuest学习笔记12-FDR及实现StatQuest学习笔记13-LDAStatQuest学习笔记14-PCAStatQuest学习笔记15-MDSStatQuest学习笔记16-tSNEStatQuest学习笔记17-聚类StatQuest学习笔记18-K邻近算法StatQuest学习笔记19-决策树StatQuest学习笔记20-随机森林StatQuest学习笔记21-逻辑回归StatQuest学习笔记22-交叉验证StatQuest学习笔记23-RNA-seq简介StatQuest学习笔记24-RPKM
2018年7月20日
其他

​StatQuest学习笔记26——RNA-seq中的技术重复问题

前言这是StatQuest系列视频教程笔记的最后一篇,我在YouTube上看了一下,作者还有其他的几个视频,有兴趣的同学还可以看看。这篇笔记是视频教程的第62节,主要内容是讲RNA-Seq中的技术重复问题。是否需要技术重复前面有一篇笔记我们提到了技术重复与生物重复,在这篇笔记中《StatQuest学习笔记02——样本量与重复》。但在RNA-Seq中,我们是否需要做技术重复呢?答案是否,如果你做了生物学重复,就不需要做技术重复。或许有同学知道这个答案,但是却不清楚为什么做了生物学重复后,就不需要做技术重复了呢,后面我们就会回答这个问题,如下所示:RNA-Seq变异的两个来源RNA-Seq的测序数据的变异(variation)主要来源两个方面,第一个是生物学变异(Biological
2018年7月19日
其他

StatQuest学习笔记25——差异表达分析

前言——主要内容这篇笔记是StatQuest系列视频教程的第59,60,61节。主要内容讲的是高通测序数据的差异基因分析,其中,第59节的内容是edgeR进行的文库均一化;第60节是DESeq2的文库均一化;第61节则是讲的是edgeR和DESeq2均一化的一些阈值选择。RPKM等均一化的局限edgeR与DESeq2这两种方法并不使用RPKM,FPKM,TPM等方法来进行均一化,edgeR与DESeq2在对文库进行均一化时要考虑两个方面的问题:第一,测序深度(RPKM,FPKM,TPM方法也能做到);第二,
2018年7月18日
其他

StatQuest学习笔记24——RPKM FPKM TPM

前言——主要内容这篇笔记是StatQuest系列笔记的第63节,这篇笔记跳过59节,60节,61节主要是因为第63节的内容是讲RPKM,FPKM和TPM这几个概念的区别,在进行差异分析前,有必要了解一下这几个概念。测序的度量单位在RNA-Seq中,我们通常使用RPKM(全称为Reads
2018年7月17日
其他

​StatQuest学习笔记23——RNA-seq简介

前言——主要内容这篇笔记是StatQuest系列笔记的第58节,主要内容是讲RNA-seq的原理。StatQuest系列教程的58到62节是协录组测序的内容。RNA-seq研究的是什么我们先来看一个案例,在下面的这个案例中,蓝色的细胞是一群正常的神经细胞,红色的细胞是一群突变的神经细胞。其中,突变的神经细胞表型与正常的神经细胞表型不同,此时,我们想知道,是什么遗传机制导致了这两群细胞表型的差异,这就意味着,我们要研究一下这两种细胞基因表达的差异,如下所示:接下来,我们就来看一下,怎么找出这两群细胞基因表达的差异。首先,根据高中的生物知识我就知道,一个细胞都有一群染色体(其数目因物种的不同而异),每条染色体上都有一些基因,在这些基因中,有些基因处于活跃状态,在下图中,这些活跃基因上面的波形图案表示这些基因mRNA的转录本,如下所示:但是,还有一些基因是不活跃的,如下所示:而高通量测序技术就能告诉我们,哪些基因是活跃的,以及它们的转录水平是多少,如下所示:那么我们就可以通过RNA-Seq技术检测一下正常细胞的基因表达,再检测一下突变细胞的基因表达,如下所示:然后我们比较一下这两种细胞基因表达的差异,如下所示:例如,在这个案例中,我们就可以发现,经过RNA-Seq检测后,基因1的转录水平在这两种细胞内是没有差异的,如下所示:但是,基因2的转录则有很大的差异,如下所示:基因3的转录水平也有差异,如下所示:RNA-Seq的步骤RNA-Seq主要有三个步骤,分别是第一:建库;第二,测序;第三,数据分析,如下所示:第一步:建库在这一步,我们就以Illumina的实验流程和测序仪为标准进行讲解,其他公司的流程和测序仪可能略有出入,如下所示:建库又分这些步骤:第一步,提取RNA;第二步,将RNA打断成小的片段,打断的目的主要是因为RNA的长度有几千个碱基,而测序仪的读长只有200到300个bp,因此要进行打断,如下所示:第三步,将RNA反转录为DNA,这一步的目的在于,双链DNA比RNA更加稳定,双链DNA更容易扩增与修饰,如下所示:第四步,添加接头。接头主要发挥两个作用,第一,使测序仪识别加了接头的片段,因为接头上的序列与测序仪芯片上序列互补;第二,添加接头可以在一次测序中区分不同的样本,因为不同的样本可以使用不同的接头,如下所示:但我们需要注意的是,在加接头这个步骤中,它的效率并不是100%的,有些片段并不会被加上接头,如下所示:第五步:PCR扩增,这一步的扩增引物是接头上序列,只有那些加上了接头的序列才能扩增,如下所示:第六步:质控。这一步主要是看两个指标:第一,确定文库的浓度,第二,确定文库的长度。确定文库的浓度方法就是(根据我们实验室自己的流程),用Qubit检测一下文库的浓度,这个浓度比较粗略,不能当成精确的数值,接着,使用qPCR的方法,对文库进行绝对定量,经过qPCR绝对定量方法得到的文库浓度才是最终的文库浓度。在确定文库片段的长度方面,通常是使用Agilent
2018年7月16日
其他

​StatQuest学习笔记22——交叉验证

StatQuest学习笔记22——交叉验证前言——主要内容我又看了一下前几天的微信文章,发现里面有的公式没有显示出来,微信里的所有文章都在我自己的博客里有,rvdsd.top。这篇笔记是StatQuest系列视频的第57节,主要内容是交叉验证。选择哪些方法我们先看一个简单的数据,如下所示:我们要使用下面左侧的这些变量来预测右侧的心脏病,如下所示:当我们遇到一个新的病人时,检测这些指标(左侧)来预测是否得了心脏病(右侧),如下所示:此时,我们就面临一个问题,使用哪种方法来预测这个病人是否得有心脏病?如下所示:是采用逻辑回归,还是KNN(K邻近算法),支持向量机(SVM)等等,如下所示:交叉验证此时就需要进行交叉验证(cross
2018年7月15日
其他

StatQuest学习笔记21——逻辑回归

前言——主要内容这篇笔记是StatQuest系列视频教程的第56小节,主要内容是逻辑回归(Logistic
2018年7月14日
其他

​StatQuest学习笔记20——随机森林

前言——主要内容这篇笔记是StatQuest系列视频的第53-55节,其中第53节讲的是随机森林,第54节讲的是缺失值的处理,第55节讲的是R与随机森林。决策树的局限随机森林(Random
2018年7月13日
其他

StatQuest学习笔记19——决策树

circulation)这个变量作为根节点,但它的叶子节点是“不纯”(impure)的,每个叶子中都含有患心脏病与不患心脏病的患者,如下所示:例如,在良好血液循环(good
2018年7月12日
其他

StatQuest学习笔记18——K邻近算法

前言这篇笔记是StatQuest系列视频教程的第50节,主要内容是讲K邻近算法(K-Nearest
2018年7月10日
其他

StatQuest学习笔记17——聚类

前言这篇笔记是StatQuest系列教程的第47,48,49节。第47节与第48节有很在一部分内容是重复的,主要讲的是层次聚类,第49节讲提K-means聚类。热图简单案例平时在读一个测序文章时,我们可能会经常看到热图,就像现在的这种图:现在我们来解释一下这张图:这是一张热图(heatmap),为什么要叫热图呢,因为它用不同的颜色来表示数值的大小,通常来说,用暖色(红色)表示数值大,冷色(蓝色)表示数值小。这个热图的行(row)是基因名(可能太小看不清楚),列是RNA-seq的样本名。当原始数据通过热图来展现时,数据经过了两种修饰来展示出来。第一种修饰就是相对丰度(relative
2018年7月9日
其他

​StatQuest学习笔记16——t-SNE

前言这一篇笔记是StatQuest系列视频的第46节,它的主要内容是t-SNE,t-SNE是一种对复杂数据的降维分类方法,我最初知道这种方法是在接触质谱流式细胞仪CytoTOF的时候,当时的很多文献对细胞的分类方法都是采用t-SNE,现在很多单细胞测序类文章也会使用t-SNE方法。t-SNE的基本思想我们首选看一个t-SNE的图,如下所示:t-SNE是一种将复杂的高维数据进行降维,同时还保留大量原始数据信息的一种方法。我们先看一个非常简单的案例,在这个案例中,我们将会展示t-SNE如何将一个二维的图形转变为一维图形,如下所示:通过这个最简单的案例,我们就会了解t-SNE最基本的思想,为处理以后更复杂的数据打下基础。如果我们把这个二维图中的信息都投射到二维图中的坐标轴上,例如先投射到纵坐标上,那么我们就会得到一些比较杂乱的信息,如下所示:尤其是纵坐标的上部分,它混合了蓝点与红点的信息,因此,纵坐标上没有保留原始聚类的信息,如下所示:如果我们把这些聚类的点投射到横坐标上,也会得到一些混乱的信息,如下所示,它也没有很好地保留原始信息:此时我们可以采用t-SNE来处理这些数据,我们可以把高维的图形(这里是二维图)转换成低维的图形(这里是一维图),从而在低维的图形中仍然保留高维图形中的信息,如下所示:现在我们讲一下t-SNE是如何实现降维的,如下所示:第一步,我们首先获得原始的二维散点图,然后把这些点随机地投射到一个数轴上(就是一维坐标),如下所示:第二步,从这一步开始,t-SNE会移动这些投射到一维坐标上的点,但一次仅移动一个点,直到这些点聚集起来,如下所示:第三步,在这一步我们可以看一下t-SNE是如何移动第1个点,如下所示:由于第1个点是红点,它是某个聚类中的一个成员(就是二维图中红色的分类),因此第1个点移动的话,它会移向与它同类的这些点附近,也就是向右移动,如下所示:与此同时,第1个点右边的2个黄点和1个蓝点(其实就是第1个红点与第2个红点之间的这3个点)在二维图中离得比较远,因此它们会被推回去,如下所示:因此,在第一次移动的时候,第1个红点移向右边的那三个红点,第1个红点右侧的两个黄点与一个蓝色移到左边,如下所示:在这个案例中,第1个红点被右侧的3个红点吸引,它的吸引力最强,因此移向右侧(我的理解就是,只看红点,如果把它们聚集起来,必定要移动,我们首先移动的是第1个红点,第2个红点右边是3个红点,因此第1个红点受到的吸引最大),如下所示:红点移动后就是下面的这个样子(一次移动一个位置):移动后,第1个点就变成了黄点,如果再次移动的话,黄点的移动就跟前面的红点移动过程一样了,它受到右边三个黄点的吸引,就会移动过去,移动后,红点就又被推了回去,跟前面的原理是一样的,如下所示:此时,黄点移向右侧,与那三个黄点更加接近,如下所示:移动后,就成了这个样子(部分叠加起来了),如下所示:然后不断地重复上述过程,这些不同类型的点就会一点一点聚集起来,如下所示:先是这样:然后是这样:再然后是这样:最终就成了这个样子:上面的整个动态过程建议看原视频,讲得很透彻。t-SNE的原理前面只是t-SNE的基本思想,我们以最简单的二维降一维的过程看了t-SNE是如何工作的,此时,我们进入t-SNE的具体原理,如下所示:第一步:计算不同点之间的距离t-SNE原理的第一步就是计算二维散点图中所有点的“相似性”(similarity),例如,我们先看第1个点(下图黑点)与剩余所有点的相似性,如下所示:在计算相似性的时候,首先要计算两个点之间的距离,然后绘制出一个正态分布曲线,这个正态分布曲线是以当前的点为中心的(也就是前面的第1个点,黑点),最终,绘制出蓝点到正态分布曲线的距离(就是下图中黑色虚线部分),这个长度就叫非标度相似性(unscaled
2018年7月8日
其他

StatQuest学习笔记15——MDS

analysis,PCoA)。第45节讲的是用R来计算MDS和PCoA。MDSMDS的分类MDS与PCA非常相似,都是一种降维的方法。MDS分为度量MDS(Metric
2018年7月7日
自由知乎 自由微博
其他

StatQuest学习笔记14——PCA

前言——主要内容这篇笔记是StatQuest系列视频教程的第39-43节,其中39节的内容是PCA;第40节的内容是PCA的基本思想;第41小节的内容还是PCA,此处与第39小节的内容重复,不记笔记,略过;第42节的内容是R语言与PCA;第43节的内容是Python与PCA。为了使笔记更有条理,笔记的顺序是按照视频教程40,39,42,43节的顺序进行的。PCA的基本思想我们先从最简单的案例入手,先看下面的一堆绿色的圆圈,如下所示:我们可以把这些绿色圆圈当成一群正常的细胞,当然了,如果你不是学生物的,你也可以把它们理解成一群人,一群卡车,一群城市等,总之是一群事物。虽然这一群细胞看上去是一样的(至少表面上一样),但是,它们本质上也有可能不一样,例如像下面的这个样子:这群细胞分成了三群,不过从直观上来看,你太不容易能看出这一群细胞划分成了三群。为了能够严格地划分这些细胞,我们可以对这些细胞进行测序,确认这些细胞中有哪些基因处于活跃状态,我们就能知道这些细胞的功能,这样就知道了这些细胞的种类,当然了,如果这是一群人,我们可以测量他们的身高,血压等,如下所示:现在我们测了这些细胞的基因,如下所示:假设,我们此时没有那么多细胞,只有2个细胞,那么我们就可以把这两个细胞的所有基因画在一个坐标上,如下所示:就像上图显示的这样,基因1在细胞1中的高表达,而在细胞2中低表达,而基因9正好相反,在细胞1中低表达,而在细胞2中高表达,如下所示:从我们所列出的数据来看,细胞1和细胞2的基因表达水平很多呈相反的水平,那么我们很容易就知道,这两个细胞必定不是同一种类的细胞,如下所示:此时,我们把问题升级一下,我们有3个细胞,现在利用二维坐标系分别绘制出这三个细胞两两之间的基因表达水平,如下所示:但这种两两之间的比较太麻烦了,我们可以直接把它们放到一个三维坐标系中进行比较,如下所示:在这个三维坐标系中,它的三个坐标轴分别表示细胞1,细胞2,细胞3,我们通过旋转坐标轴就可以发现每两个细胞之间的关系。现在把问题再进一步,如果我们有4个细胞,比较直观的手段就是分别画出这4个细胞两两的平面坐标系,如下所示:或者是画出一个四维的坐标系,像下面的这个样子:但前面的方法就不太适用于这种情况,例如四维坐标就不太直观,此时我们可以采用主成分分析(PCA)的方法来对细胞分类。PCA可以将不同细胞之间的关系转换到一个平面坐标系中,如下所示:此时我们可以发现,通过PCA这种方法,可以把一群细胞中高度相关的细胞聚集起来,像下面的这个样子:为了能够更直观地说明这种分析方法,我们可以把不同的细胞换成不同的颜色,如下所示:此时,我们再回到最初的问题上来,通过PCA方法可以把一群细胞中高度相关的细胞给区分开来,如下所示:PCA的结果解释此时我们来看一下,PCA的结果具体是什么含义,在PCA图中,它的坐标轴是按重要性进行排序的。其中PC1是第一主成分轴,它的重要性要强于PC2,如下所示:假如一个PCA长得是下面的这个样子,如下所示:此时,如果左上角的绿点与左下角的红点的距离是d1,右下角的黄点与左下角红点的距离是d2,此时d1=d2的话,那么我们就可以认为,黄色点与红色点的差异要大于绿色点与红色点的差异(因为PC1的坐标是第一主成分),如下所示:在我们了解了PCA之后,我们应该知道,PCA仅仅是一种划分不同数据类型的方法之一,此外,还有其他基于降维的统计学方法(dimension
2018年7月6日
其他

StatQuest学习笔记11——p值详解

前言这篇笔记主要是讲p值的,它是StatQuest视频教程的第33节,第34节,第35节,第37节的内容(跳过36是因为36讲的是FDR,专门写一篇笔记)。其中第33节的内容为什么是p值,p值的计算;第34节的内容是单尾检测与双尾检验,第35节的内容是作者直接以视频形式进行的讲解,内容是关于p值的阈值,无课件,略去;第37节的内容是p值挟持(p-hacking)与功效检验(power)。什么是概率人们通常认为,p值的意思就是概率(probability),p值与概率确实有关,但是它们并不相同,我们先看一个简单的例子。我们抛两次硬币,第1次,正面朝上的概率是50%,反面朝上的概率是50%。第2次,正面朝上的概率还是50%,反面朝上的概率还是50%,此时我们提出两个问题;连续抛2次硬币,出现2次正面朝上的概率是多少?连续抛2次硬币,出现2次正面朝上的这个事件的p值是多少?如下所示:先看第1个问题,出现2次正面朝上的概率是多少,为了方便讲解,我们用H(head)表示正面,用T表示反面(Tails),抛2次硬币,会出现4个结果,分别为:结果1:第1次正面,第2次正面;结果2:第1次正面,第2次反面;结果3:第1次反面,第2次正面;结果4:第1次反面,第2次反面,如下所示:这4结果出现的概率上是相等的,我们的计算过程如下所示:此时,我们就知道了,出现2次正面朝上的概率是0.25。此时我们再看一下出现2次反面朝上的概率,计算过程如下所示:此时的结果也是0.25,它与2次正面朝上的概率是一样的。此时我们再计算一下,抛2次硬币,1次正面朝上,一次反面朝上的概率,如下所示:一面朝上,一面朝下的概率是0.5。在这个案例中,我们并没有考虑正面与反面的顺序,为什么不考虑呢?因为通常来说,我们所说的,抛两次,一面朝上,一面朝下,就包括第1次正面朝上,第2次反面朝上和第1次反面朝上,第2次正面朝上这两种情况,并且它们之间互不影响。例如我们在研究小鼠的体重时,有2只小鼠,先测哪只小鼠的体重都可以,两只小鼠的体重互不影响,如下所示:一个生物学的案例我们假设H(红色)是一个等位基因,T(蓝色)是另外一个等位基因。在下面的图片中,分别是一对夫妇的等基因情况,他们是杂合子,其中母亲的等位基因情况是HT,父亲的等位基因也是HT,那么他们后代中基因为HH的概率是0.25,如下所示:如果母亲是纯合子(homozygote),父亲是杂合子(heterozygote),那么他们后代中出现HH的概率则是0.5,计算过程如下所示:什么是p值p值就是生成某数据的随机机率(random
2018年7月3日
其他

StatQuest学习笔记12——FDR及实现

前言这篇笔记是StatQuest系列视频教程的第36节,主要内容是有关FDR的。什么是FDRFDR的全称是false
2018年6月28日
其他

StatQuest学习笔记11——p值详解

StatQuest学习笔记11——p值详解前言这篇笔记主要是讲p值的,它是StatQuest视频教程的第33,34,35,37的内容(跳过36是因为36讲的是FDR,专门写一篇笔记)。其中第33的内容为什么是p值,p值的计算;第34的内容是单尾检测与双尾检验,第35的内容是作者直接以视频形式进行的讲解,内容是关于p值的阈值,无课件;第第37的内容是p值挟持(p-hacking)与功效检验(power)。什么是概率人们通常认为,p值的意思就是概率(probability),p值与概率确实有关,但是它们并不相同,我们先看一个简单的例子。我们抛两次硬币,第1次,正面朝上的概率是50%,反面朝上的概率是50%。第2次,正面朝上的概率还是50%,反面朝上的概率还是50%,此时我们提出两个问题;连续抛2次硬币,出现2次正面朝上的概率是多少?连续抛2次硬币,出现2次正面朝上的这个事件的p值是多少?如下所示:先看第1个问题,出现2次正面朝上的概率是多少,为了方便讲解,我们用H(head)表示正面,用T表示反面(Tails),抛2次硬币,会出现4个结果,分别为:结果1:第1次正面,第2次正面;结果2:第1次正面,第2次反面;结果3:第1次反面,第2次正面;结果4:第1次反面,第2次反面,如下所示:这4结果出现的概率基本上是相等的,我们的计算过程如下所示:此时,我们就知道了,出现2次正面朝上的概率是0.25。此时我们再看一下出现2次反面朝上的概率,计算过程如下所示:此时的结果也是0.25,它与2次正面朝上的概率是一样的。此时我们再计算一下,抛2次硬币,1次正面朝上,一次反面朝上的概率,如下所示:一面朝上,一面朝下的概率是0.5。在这个案例中,我们并没有考虑正面与反面的顺序,为什么不考虑呢?因为通常来说,我们所说的,抛两次,一面朝上,一面朝下,就包括第1次正面朝上,第2次反面朝上和第1次反面朝上,第2次正面朝上这两种情况,并且它们之间互不影响。例如我们在研究小鼠的体重时,有2只小鼠,先测哪只小鼠的体重都可以,两只小鼠的体重互不影响,如下所示:一个生物学的案例我们假设H(红色)是一个等位基因,T(蓝色)是另外一个等位基因。在下面的图片中,分别是一对夫妇的等基因情况,他们杂合子,其中母亲的等位基因情况是HT,父亲的等位基因也是HT,那么他们后代中基因为HH的概率是0.25,如下所示:如果母亲是纯合子(homozygote),父亲是杂合子(heterozygote),那么他们后代中HH的概率主浊0.5,计算过程如下所示:什么是p值p值就是生成数字的随机机率,或者说是跟这个随机机率相同或者是更小机率的值,原文如下所示:a
2018年6月27日
其他

StatQuest学习笔记09——Fisher精确检验

StatQuest学习笔记09——Fisher精确检验前言以前我也写过有关统计学的笔记,本来是想结合StatQuest把原来的笔记整理一下,后来一想,还是算了,直接把StatQuest的系列教程做成笔记,这样比较系统,也会避免笔记冗余。这篇笔记是StatQuest视频教程的第31个,主要内容是Fisher精确检验与超几何分布,Fisher精确检验我以前的笔记中也有,就是《卡方检验》这篇笔记。Fisher精确检验我们还以MM豆(MM豆是M&M巧克力豆的缩写,美国的一个品牌)为例进行说明。此时我从MM豆的盒子里抓了一把MM豆,这批MM豆有8个,其中有7个蓝豆,1个红豆。此时问题来:如何描述袋子中的MM豆颜色的分布?我这个盒子里的蓝豆的比例是不是比正常的要高一些(正常MM豆中的蓝豆比例为21%)?我能否计算这个MM豆样本的p值?如下所示:MM豆的盒子里有40个MM豆,它的各种MM豆的颜色比例如下图所示:此时,我用直方图来研究一下我的这盒MM豆是否是一个特例(就是说跟平常所见的MM豆的颜色比例不同),下面我们就以我手中的这8个MM豆(7个蓝豆,1个红豆)为基础,来计算一下这个概率,如下所示:首先我事先说明一下,我们在计算这批MM豆的概率时,不用考虑它们的顺序,也就是说,当我拿出7个蓝豆与1个红豆的时候,不用在意这8个MM豆是如何排序的,就像是下面的这个样子:现在让我们计算一下这7个蓝豆和1个红豆的概率,如下所示:第1步:第1个MM豆是蓝色,此时它的概率为8/40,如何计算呢?就是因为一盒MM豆中按照正常的比例(这个比例是作者从MM豆的官网上查的),它有40个MM豆,有8个蓝豆,此时蓝豆的概率就是8/40,如下所示:第2步:还是1个蓝豆,它的概率是7/39,如何计算呢?因为此时已经拿出了一个蓝豆了,这盒MM豆剩下的就只有39个了,蓝豆还有7个,那么蓝豆的概率就是7/39,如下所示:按照这种方法计算下去,第3个蓝豆的概率就是6/38,第4个蓝豆的概率就是5/37,最后,第8个MM豆是红色的概率就是5/33,计算结束。现在把这8个概率相乘,就是我们手中有7个蓝豆和1个红豆的概率,最终的结果为0.000000065,如下所示:这个概率是非常小的,不过我们需要记住的是,我们此时没有考虑MM豆的顺序,如果我们考虑了MM豆的顺序的话,我们还可以再计算一次,方法跟前面的是一样的,考虑了顺序之后,就是下面的这个样子:最终的计算结果是0.00000053,如下所示:此时我们计算出了出现这个事件的概率(也就是说7个蓝豆和1个红豆)了,那么,我们如何计算p值呢?首选我们要知道,p值是一系列小概率事件的总和,还包括下面的这些情况,例如8个蓝豆,还有7个橘黄豆和1个蓝豆,如下所示:后来经过计算,这个p值为0.01,那么我们就可以说,我的这盒MM豆是特例。Fisher精确检验与超几何分布另外在这个视频教程的题目中提到了超几何分布,Fisher精确检验可以视为超几何分布的一种变形,超几何分布在GO分析方面有着重要的作用,先留个坑,等视频学完了再填上。
2018年6月26日
其他

StatQuest学习笔记08——比数与比数比

前言——主要内容这篇笔记的主要内容是StatQuest视频教程的第29与30,第29的内容是比值比(Odds)与比值比的log转换(LogOdds)。第30的内容是oddo
2018年6月25日
其他

StatQuest学习笔记07——最大似然法详解

StatQuest学习笔记07——最大似然法详解主要内容这篇笔记的主要内容是讲最大似然法的,笔记源于StatQuest的视频文件26,27,28。其中文件26内容为j最大似然法(Maximun
2018年6月23日
其他

StatQuest学习笔记06——分位数及其应用

前言——主要内容这篇笔记的内容是StatQuest视频文件的第23,24,25。文件第23讲的是分位数(quantiles)与百分位数(percentiles);文件24讲的是QQ图;文件25讲的是分位数的均一化。分位数先看一个案例,我们检测了一些基因的表达情况,下图是第1个基因的表达数据:最终,我们检测了15个基因的表达情况,它们的数据如下所示:从图上我们可以看出,坐标中一共有15个点,如果我们从下向上数,数到第8个点时,划一条线,这个条的上方有50%的点,即7个点,下方也有50%的点,即7个点,这个点就叫做中位数(median),如下所示:从技术角度来讲,中位数就是一个百分比数(quantile),因为它把这一组数据划分成了2个部分,每部分所占的点数占总数目都是相同的,有时候,这个点也被标为0.5,也时候也被标为50%。中位数(median)是将n个变量值从小到大排列,位置居于中间的那个数。当n为奇数时取位次居中的变量值,当n为偶数时,取位次居中的两个变量值的均值。百分位数(percentile)是一种位置指标,用Px来表示,读作第X百分位数。一个百分位数Px将全部产变量值分为两部分,在Px处若无相同变量值,则在不包含Px的全部变量值中有X%的变量值小于它,有(100-X)%变量值大于它。故百分位数是一个界值,其重要用途是确定医学参考值范围(reference
2018年6月22日
其他

StatQuest学习笔记05——线性模型 前言——主要内容

heads)概率并不比大老鼠的高,如下所示:因此在这个公式中,如果有更多的参数,那么我们就有了更多的随机事情来降低SS(fit),导致产生一个更好的,因此人们会使用一个调整的(adjusted
2018年6月19日
其他

StatQuest学习笔记04——拟合

有几张图片总由粘贴失败,另外我的博客里有完整版:http://rvdsd.top/2018/06/04/%E7%94%9F%E7%89%A9%E7%BB%9F%E8%AE%A1-StatQuest%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B004-%E6%8B%9F%E5%90%88/前言——主要内容这篇笔记是StatQuest视频的第13到第15,文件13内容是拟合度;文件14是内容是线性回归;文件15是局部加权最小二乘法。在这篇笔记中,我们需要弄清楚几个问题:什么是相关系数(correlation,简称为R),相关系数的值有什么意义?我们为什么关注R的平方?最小二乘法的原理。第1个案例:R的平方先看一个案例,下图是小鼠的体重与小鼠编号的散点图,如下所示:红色的是点是小鼠的体重,黑色的横线是平均值。x轴上是小鼠的编号,如果我们要查看这组数据的变异(variation),我们就把每只小鼠的体重送去平均值,然后再平方,再加起来(这个在统计学上叫离均差平方和,英文是sum
2018年6月15日
其他

StatQuest学习笔记03——标准差、标准与置信区间

前言这是StatQuest视频教程的第8-12个。第8个视频的内容为标准差,标准误,第9个视频是柱状图与饼状图;第10个视频是对数转换以及对数的运算,这个非常简单;第11个视频:置信区间;第12个视频:标准差与标准误看下面的案例,这5个点是5只小鼠的体重,其中红色竖线是均值,红色横线就是标准差(standard
2018年6月14日
其他

StatQuest学习笔记02——样本量与重复

前言这是StatQuest视频教程的第6、第7个。技术重复现在考虑一个场景,我们要对一批人进行采血,并对这些血样进行基因表达的分析。此时我们先对A进行采血,A的血样我们会检测3次,这3次就叫技术重复(technical
2018年6月11日
其他

StatQuest学习笔记01——基础知识

前言最近生信技能树搞了一个活动,就是学习StatQuest这个系列视频教程。这个教程是北卡教堂山分校做的生物统计学教程。视频的原网址是https://statquest.org/,在Youtube上也有,YouTube上可以自动添加英文字幕,原视频是英文的,没有字幕,听起来还是比较困难的,尤其是会涉及个别统计学词汇。生信技能树要求在学习过程要提交笔记,大概有几篇吧,我就没事的时候把自己的笔记先贴到自己的公众号里,希望有用的同学能参考一下,本人没有系统学过统计学,笔记不保证做得完善,里面肯定有不清楚的地方。这个系列的笔记是StatQuest视频的学习笔记,我的这些笔记有时候会使用一些自己以前收录的数据,外加自己补充的一些笔记。此篇笔记是基础知识,视频教程的1-5。什么是直方图如果我们测量一批人的身高,他们的身高并不固定,因此我们先做一个x轴,从左到右身高依次增高,如下所示:此时,我们开始测量这批人的身高,一个点代表一个人,如下所示:这种图有个缺陷,就是一些相同身高的人的点会重合,并不直观,因此我们可以转换一下图形,把相同身高的人的点叠加起来,如下所示:这样的话,
2018年6月9日