协和八

其他

中国医学科学院/北京协和医学院/北京协和医院《舒缓医学》正式开课啦!

课程采用大量视频资料辅助教学,并使用实际案例进行深入讲解,理论知识与实践操作并重,重点梳理了末期患者所面临的特殊的躯体、心理、社会、灵性、伦理等问题,使传统医学方法与安宁缓和医疗方法的对比更加鲜明。
2021年2月28日
其他

说人话的统计学——终点·起点 | 协和八

从2015年6月30日的第一篇《你真的懂p值吗?》,到上个月的最新一篇《广义线性模型到底是个什么鬼?》,【说人话的统计学】专栏在将近三年的时间里,已经一共推送了将近60篇文章。今天,我们在此告知各位读者朋友,我们在协和八公众号与大家的统计学之旅将要正式告一段落了。这当然不是我们憋不出来新文章、一时拍脑门的决定,而是早前确定的计划。然而,与其说这是一个终点,我们更愿意把它看作一个新起点——我们计划把过去两年多来辛勤耕耘的这片园地,在进一步改进提升以后,再以崭新的面目呈现给更广大的群体(到底是什么计划?接着往下看!)。话别之际,我们都有一种千言万语不知从何说起的感觉——对诸位读者的谢意与不舍,对协和八这个平台和众小编的感激,专栏写作过程的体会与收获,展望未来对大家、对自己的期待,一时竟不知从何下笔。既然如此,不如我们干脆就换个形式,来个轻松随意的对谈吧。我们想象着你——我们亲爱的读者——就坐在我们身边,分享这段聊天。当然,我们十分期待你能在这篇推送下给我们留言,把你的所想所感告诉我们,真正参与到我们的对话中(批评和吐槽当然欢迎!)。Z(张之昊):两年多的时间,说长不长,说短也不短。现在,我们这个专栏算是完成了阶段性的任务,要不咱们先说说此时感想如何吧?
2018年5月24日
其他

广义线性模型到底是个什么鬼?| 协和八

高屋建瓴看统计你真的懂p值吗?做统计,多少数据才算够?(上)做统计,多少数据才算够?(下)提升统计功效,让评审心服口服!你的科研成果都是真的吗?见识数据分析的「独孤九剑」贝叶斯
2018年4月13日
其他

「数」风流人物,还靠泊松回归 | 协和八

❉说人话的统计学❉咱们《说人话的统计学》专栏从开始介绍统计建模以来,已经依次介绍了线性回归、二分类逻辑回归、多项逻辑回归、定序回归等几种回归模型。正如我们已经着重指出过的,这几种回归模型在本质上是相通的——它们都是用一些自变量的线性组合来预测因变量的取值。而因变量的类型和性质,则决定了我们要在自变量的线性组合这个内核基础上,再搭配怎样的变换,以打通自变量和因变量之间的联系,这正是上面这几种回归模型的差异所在。现在就让我们来复习一下,遇到什么样的因变量,应该召唤哪种回归模型。因变量是连续变量?「基本款」线性回归可以搞定。因变量是二分类变量?二分类逻辑回归为您效劳。要是多分类变量呢?那我们还得看看这些分类是无序(名义变量)还是有序(定序变量)的,前者要用多项逻辑回归,而后者则要用到前两集介绍的定序回归模型。读到这里,你可能要问这样一个问题:上面这几种情况是否已经覆盖了所有可能的因变量类型?粗略一想,答案似乎是肯定的。许久以前,我们在《数据到手了,第一件事先干啥?》里讲过的变量分类方法里,就是大体按这几种情况区分的。然而,看过下面这个例子以后你会发现,有个灰色地带并没有被以上的几种情况覆盖到。计数变量如果大家几周以前读过《让人眼花缭乱的多项逻辑回归,原来是这么用的》,也许还记得,格格巫在蓝精灵村落推出了自动售货机。在那集文章里,我们用多项逻辑回归模型分析了如下问题:时间和天气这两种因素对蓝精灵顾客们对商品(蓝莓、披萨、蘑菇、面包)的选择有什么影响?最近,格格巫再次走访了遍布村落各处的自动售货机,发现放置在不同地点的机器的顾客数量有很大差异,有的售货机货物周转很快,有的售货机则是门庭冷落。于是,他想研究一下,不同售货机的客流量与什么因素有关——这个问题对格格巫的生意显然十分重要,如果能对客流量的影响因素有了准确认识,不仅可以更好地安排货物的补给和更新,以避免客流繁忙的售货机出现断货,而且还能对未来增加的自动售货机的选址提供指导意见。根据以往的经验,格格巫知道,周末晚上是自动售货机的重点销售时段。因此,他让助手整理出了旗下所有
2018年3月20日
其他

包教包会:定序回归实战 | 说人话的统计学 · 协和八

❉说人话的统计学❉在上一集《只问方向,无问远近,定序回归的执念你懂吗?》里面,我们一起了解了最有「人味儿」的回归形式「定序回归」。大家还记得为什么定序回归会有这样的名号吗?定序回归的因变量是定序变量,也就是有顺序的类别变量。其由于常常用于测量人的主观判断或感受,比如满意程度,疼痛程度等,所以是最有「人味儿」的模型。今天这集,我们通过一个具体的例子看看定序回归是如何解决实际问题的,下面让我们请出说人话系列的长期客串演员蓝精灵们!蓝精灵村子新开了一家火锅店,原来格格巫在自动售货机上挣了一笔之后,又有了开餐馆的想法了,他把村子外面流行的火锅引入蓝精灵村子,没想到生意很火爆,蓝精灵们经常要排很长的队才能吃上格格巫家的火锅。看着自家餐馆门口长长的队伍,队伍里蓝精灵吃货们既饥渴又不耐烦的眼神,格格巫心里又欣喜,又担忧。他寻思这队伍太长了会不会影响了顾客们对就餐经历的评价,于是琢磨着想研究一下排队等待时间和客户满意度之间的关系。他在用餐结束之后发出满意度问卷,同时记录下每桌客人的等待时间和每桌客人的人数。数据搜集完毕之后,格格巫便请蓝精灵村的统计小天才聪聪来帮忙分析数据。聪聪先从整体上分析了一下要解决的问题,他要研究的因变量是客户满意度,属于定序变量(非常满意>满意>一般>不满意>非常不满意),正好可以用上最近新学的定序回归模型。至于模型的自变量,除了排队的时间之外,还应该考虑客人是一个人还是和别人一块儿来吃火锅的。毕竟,如果是一个人的话,也许对等待的忍耐程度会更低一些。有了大致的思路之后,聪聪就把数据整理了一下。由于聪聪关心的是一个因变量、两个自变量,因此数据集大概是下面这样的(仅列出头四个数据点):表
2018年2月10日
其他

只问方向,无问远近,定序回归的执念你懂吗? | 协和八

而用于名义变量的多项逻辑回归模型,其本质也与这个式子相同,只不过名义变量的多个类别(除了参考类别以外)各有自己的一套回归系数罢了(可戳此处回顾《逻辑回归能摆平二分类因变量,那……不止二分类呢?》)。
2018年1月18日
其他

让人眼花缭乱的多项逻辑回归,原来是这么用的 | 协和八

在逻辑回归里面,我们可以用回归系数除以4的法则来方便地估计自变量对y=1概率的影响的最大值,多项逻辑回归可就没有这个捷径了,这是多项逻辑回归本身的一种局限。下面我们稍微解释一下为什么会是这样。
2018年1月5日
其他

逻辑回归能摆平二分类因变量,那……不止二分类呢?| 协和八

对于第二个问题的答案,也许你已经猜到,对付这两种情形,的确要用到不太一样(但是颇有共通之处)的方法。我们今天就先来讨论一下,当因变量的类别没有顺序(即为名义变量)时,要建立怎样的统计学模型。
2017年12月21日
其他

喂,你的逻辑回归模型该做个体检啦!| 协和八

值等等,还得检查模型的基本假设是否成立。因此,我们当时分两集讲了一些模型诊断的方法和问题,回顾请戳《线性模型生病了,你懂得怎样诊断吗?》《「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」》。
2017年12月3日
其他

逻辑回归的统计检验,原来招数辣么多?

然后,我们把x的回归系数必须为0这个限制给去掉,允许自变量x取任意的值,再一次在同样的数据上拟合模型,找出此时的极大似然值L1。这样一来,L1与L0的差距可以看作是加入x后模型拟合能力的提高。
2017年11月3日
其他

线性回归能玩多变量,逻辑回归当然也能! | 协和八

《你在,或者不在,需要逻辑回归来算》指出了当因变量为二分类变量时,线性回归不再适用,但是施加一个小小的变换(不翻看老文章,你能写出这个变换的数学表示吗?)以后,我们就得到了逻辑回归这个新工具。
2017年11月3日
其他

逻辑回归的袅娜曲线,你是否会过目难忘?

这样一来,模型的含义清晰了许多,但是右边那一堆复杂的函数还是很不直观——到底教育程度与支持哪位候选人是个什么关系?让我们来以支持聪聪的概率为y轴,教育程度为x轴,画出这个模型(图1)。
2017年9月22日
其他

你在 或者不在 需要逻辑回归来算 | 协和八

中自变量(也称为因素)就更灵活了,不仅可以包括多个自变量,每个自变量还可以有多个组别。到了线性回归模型,对于自变量就更加没有限制了,不管是连续的还是类别变量通通都可以丢进去,保准儿给你吐出个模型。
2017年9月9日
自由知乎 自由微博
其他

「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」丨协和八

但由于根源是在模型上,因而解决方法都是从改变模型本身入手,比如对变量进行变换、增加或减少某些变量,甚至换一种方法来拟合模型(如上集提到的加权最小二乘法)等等。
2017年8月26日
其他

线性模型生病了,你懂得怎样诊断吗?| 协和八

除了线性假设之外,在《如果只能学习一种统计方法,我选择线性回归》里面讲过,线性模型将凡是模型不能拟合的部分都是算在一个误差项里面,并且假设误差项以零为中心呈正态分布,且误差是完全随机的,与自变量
2017年8月11日
其他

如果R平方是砒霜,本文教你三种解药! | 协和八

既然如此,模型(3)不应该比模型(2)要更好吧?可是,如果我们考察模型(3)的R平方,就会发现,尽管差别比较微弱,它比模型(2)的R平方(0.5911)要来得更大(0.5939)
2017年7月30日
其他

评价线性模型,R平方是个好裁判吗? | 协和八

警察审问犯罪嫌疑人,通过判断嫌疑人的犯罪动机和过程是不是完全符合案情,找出真正的罪犯。我们在模型里面「审问」可疑变量,先假设这些变量真的与因变量有关,再来看看由这些变量组成的模型能否很好地拟合
2017年7月13日
其他

回归系数不显著?也许是打开方式不对!| 协和八

这个例子能教给我们很多东西,但在进一步深入讨论之前,我们至少可以从这个例子中得到一个最明显的结论,线性回归模型里加入新的自变量,模型中已有的自变量的回归系数并不一定会变小,也是可能会变大的。
2017年6月22日
其他

天啦噜!没考虑到混杂因素,后果会这么严重?| 协和八

这时,如果我们把这一结果和前面得到的小孩子与大孩子身高之间的正相关关系放在一起考虑,就会产生一个疑问:大、小孩子身高之间的关系会不会只是体现了它们各自与父母平均身高的关系?换句话说,在模型
2017年6月1日
其他

找出「交互效应」,让线性模型更万能 | 协和八

读到这里有些爱思考的读者可能会问,加入交互效应,看似繁复的公式,结果好像跟给男孩和女孩分别拟合回归线,建立两个独立的线性模型没什么差别呀?单个自变量的线性回归我已经很熟悉啦,为什么还要引入交互效应?
2017年5月18日
其他

自变量不止一个,线性回归该怎么做?| 协和八

这个点。因此,我们可以十分有把握地说,父母平均身高和子女身高之间存在线性的正相关关系。而且,我们还可以从回归系数的大小以及置信区间的宽度中,认识这个关系的强弱程度及其不确定性。
2017年5月4日
其他

三千回归线里选中了你,你有多靠谱?| 协和八

0,也不能完全说明自变量和因变量之间没有关系,只能说明线性模型不能很好的描述两者之间的关系,有可能它们具有非线性的关系,如下图例子。以后我们会更详细地讲如何用线性模型来处理非线性关系。
2017年4月13日
其他

回归线三千,我只取这一条 | 协和八

在频率主义统计学的体系(可回顾《贝叶斯vs频率派:武功到底哪家强?》)里,模型的参数是有唯一确定(但我们并不知道)的真值的,真值同样也是这个三维参数空间里的一个点,不妨记为(Β0,
2017年3月23日
其他

如果只能学习一种统计方法,我选择线性回归 | 协和八

检验来研究父母身高平均值是如何影响子女身高的,我们可以把班上蓝精灵按照父母的平均身高分为高和矮两组,如果父母身高真的能影响子女身高,父母高的组蓝精灵身高应该显著地高于父母矮的那组蓝精灵(如图1)。
2017年3月9日
其他

车模航模你玩过,统计学模型你会玩吗?| 协和八

中各组方差相等的要求的来源!),我们就可以按照上面的方法,把模型归并到一起,选定某个组作为「基准」,然后根据组别,在「基准」的基础上进行「修正」。如果是多因素的情形,还要考虑主效应和交互效应的叠加。
2017年2月23日
其他

要做ANOVA,样本量多大才够用? | 协和八

有了统计功效,效应大小,显著性水平三个参数的值,我们便可以用之前推荐过的免费功效分析软件G*Power(或者其他具有功效分析功能或模块的统计学软件)来确定样本量。在G*Power中,ANOVA与t
2017年2月9日
其他

ANOVA还能搞三四五因素?等等,我头有点儿晕…… | 协和八

ANOVA,怎么就成了「两」因素了呢?这就好像你去全聚德,明明点了一只烤鸭,结果上菜了一看,好家伙,我只给你端上来俩翅膀——那怎么行?所以,今天我们就来看看,要是有三个或者更多的因素,ANOVA
2017年1月26日
其他

Health and illness | 呱呱英语剿 · 协和八

大家对「健康」与「疾病」的概念都不陌生。今天的栏目中,我们将回顾「健康」与「疾病」的基本涵义,并介绍询问健康状况、描述疾病转归的方法,希望能为听众朋友们带来新的理解,旧事如新。
2017年1月13日
其他

两个因素相互影响,ANOVA结果该如何判读?| 协和八

我们先从一个简单的例子看起,假设我们在研究某种新型药物在治疗某种疾病时的作用,实验组是服用了新型药物,而对照组服用了安慰剂,每一组不同性别各占一半。我们想知道,这种新型药物对疾病有没有效果(用指标
2016年12月29日
其他

多因素ANOVA=好几个单因素ANOVA?可没这么简单!| 协和八

听起来好像有些复杂,其实我们在日常生活中这样的情形实在是太多了。比如说,你的衣橱里有一身最新正版皇家马德里球衣,还有一双锃亮的阿玛尼皮鞋,它们各自都能让你魅力值立增
2016年12月15日
其他

没听说过多因素ANOVA?那你可就OUT了!| 协和八

我们可以用类似的方法算出包子师傅对包子质量也有显著影响,最后就是检验两者的相互作用了,相互作用的组间平方和我们已经计算过了,唯一不知道的就是自由度。包子馅儿和包子师傅的自由度分别是(nA
2016年11月17日
其他

重复测量ANOVA:你要知道的事儿都在这里啦 | 协和八

的基本招式你掌握了吗?》),里头也有一个(各组数据)等方差性的要求,这里的球面性只不过是重复测量情形下的特殊形式罢了。那么为什么要求各条件中两两数据点之差的方差相等呢?回想一下,重复测量
2016年11月3日
其他

听说,成对t检验还有ANOVA进阶版? | 协和八

个实验条件下所有的数据点,但是我们并不能看出哪些点其实来自同一个蓝精灵。解决的办法其实就在一段时间以前我们专栏的文章《优雅秀出你的t检验,提升paper逼格!》里。当时,我们讨论了怎样表现成对样本
2016年10月20日
其他

ANOVA 做出了显著性?事儿还没完呢!| 协和八

的原假设是所有组的平均值相等。在这个原假设下面,所有组的平均值应该围绕着一个共同的值上下波动。在对任意两组数据进行比较时,如果这两组数据的平均值差别很大,那么则不太有可能这两组数据来自同一平均值。
2016年10月6日
其他

ANOVA的基本招式你掌握了吗?| 协和八

图片来源:http://atomic.phys.uni-sofia.bg/local/nist-e-handbook/e-handbook/eda/section3/eda3673.htm
2016年9月16日
其他

ANOVA在手,多组比较不犯愁 | 协和八

那么不止三组的时候呢?这个问题同样存在,而且随着组数的增加,多重检验的问题会越来越严重(想想看为什么?)。而能一揽子解决这个问题的最流行的方法,就是我们上一集提到过的方差分析(Analysis
2016年8月25日
其他

要比较三组数据,t检验还能用吗?| 协和八

另外一方面,如果三位师傅制作的包子差别很大,比如康师傅的包子每个都接近二两,王师傅和格格巫的包子都在一两左右,那么知道包子是哪位师傅做的显然可以更准确地预测包子的质量。
2016年8月11日
其他

要做 t 检验,这两口毒奶可喝不得!| 协和八

大嘴教授给格格巫分配了一个小课题,让他研究白蘑菇汤和褐蘑菇汤对降低血压的作用有没有什么区别。没过几天,格格巫就兴冲冲地跑到大嘴教授的办公室,得意洋洋地宣布:「白蘑菇汤比褐蘑菇汤的降压效果更好!」
2016年7月28日
其他

优雅秀出你的t检验,提升Paper逼格! | 协和八

检验对比了格格巫包子的重量与标准包子重量(50g)的区别,发现格格巫包子的重量(平均值=45g,标准差=3g,95%
2016年7月14日
其他

如何确定 t 检验的置信区间 | 协和八

我们之所以需要这样一个区间,是因为抽样过程所导致的样本平均值的随机性。虽然我们刚才说,样本平均值是对总体平均值最好的估计,但我们知道,这个「最好」只是对这个样本来说的。如果我们又获得一个样本(另外
2016年7月3日
其他

用置信区间,就是这么(不)自信!| 协和八

d值,我们将来还会介绍代表其他检验效应大小的统计量,所有这些「效应大小」,也都是在统计学意义上讲的。究竟对于我们感兴趣的问题来说,这样的效应有没有实际意义,需要我们运用具体领域的知识和经验来判别。
2016年6月30日
其他

找出t检验的效应大小,对耍流氓 say no!| 协和八

我们以前说过,标准差是表示一个样本中所有数据点离它们的平均值的偏离程度的量。因此,我们可以把平均值与标准值之差除以样本的标准差。这样一来,效应大小就是一个综合了平均值的差异及其不确定性的数量了,称为
2016年6月2日
其他

只讲 p 值,不讲效应大小,都是耍流氓!| 协和八

检验用不了?别慌,还有神奇的非参数检验》里我们提到,如果数据本身来自正态总体,但用了符号秩检验或者秩和检验,会降低统计功效。现在我们利用上面的例子来验证这一点。单样本
2016年5月19日
其他

t 检验用不了?别慌,还有神奇的非参数检验 | 协和八

检验就无法派上用场了。定序变量两个相邻等级之间的距离并不是固定的,比如「非常满意」和「满意」之间的差距,与「满意」和「不满意」之间的差距。比较两组不同客户的满意程度是否不一样,就只能用秩和检验而不是
2016年5月5日
其他

数据变换的万能钥匙:Box-Cox变换 | 协和八

说了这么多,咱也得是骡子是马拉出来遛遛是吧?你也许还记得之前两集文章里我们碰到过一个很难缠的尾巴很长的总体分布,其抽样分布逼近正态分布的速度很慢,对数变换也搞不定它。这里我们就用它来试一试
2016年4月23日
其他

样本分布不正态?数据变换来救场!| 协和八

第二,对数据进行变换后,重新进行原来计划的统计检验,其意义会发生变化。比如说,我们想要比较两组数据的均值是否有差别,但是发现样本分布并不正态,于是对数据做了一个平方根变换。当我们对变换后的数据使用
2016年4月21日
其他

只有15个标本,也能指望 t 检验吗?| 协和八

在本集开始时,我们回顾了上一集的一个例子,那正是一个总体不正态的情形。你应该还记得,那个总体分布明显不太对称,但是勉强还是有个中间高、两边低的模样。抽样分布趋近正态的速度如何?在那个例子里,当样本量
2016年4月7日
其他

不是正态分布,t 检验还能用吗?| 协和八

装备上了中心极限定理的蓝精灵们又跑过去找格格巫理论,格格巫显然有点坐不住了,但是他还是要垂死挣扎一下:「别跟俺扯神马中心极限定理,那说的都是样本量很大时候的事儿,你真能证明抽样分布确实是正态的么?」
2016年3月24日
其他

就是要实用!t 检验的七十二变 | 协和八

为了对格格巫进一步宣战,蓝精灵们再一次碰头,想出了一个新点子。他们决定走访两条街以外黄精灵的食堂,买来一堆包子称称重量,看看是不是比格格巫的包子更大一些。这时候他们又该用什么检验呢?
2016年3月10日
其他

想玩转t检验?你得从这一篇看起 | 协和八

值得注意的是,如果无法通过样本的数据拒绝原假设,我们也不能认为原假设是成立的,因为有可能只是统计功效不够,详情可重温我们讨论统计功效的文章《做统计,多少数据才算够?》(上)(下)。
2016年2月25日