果子学生信

其他

TCGA改版后转录组数据的下载以及整理

project,把这些文件放进去,然后再创建一些文件夹,这些是习惯,非必须。比如我喜欢把代码都放在一个文件夹,叫做scripts进入这个项目中,开始下载数据###
2022年5月10日
其他

视频课程: R语言中的批量操作,裂变你的技能。

50分钟*2万=16666小时=694天=大概是研究生的2/3如果能够把50分钟时间压缩成10s呢,答:
2021年6月30日
其他

使用TCGAbiolinks批量下载TCGA的表达量数据。

TCGA的数据下载,需要去GDC,使用官方工具,下载的数据每个样本都在单个文件夹中,需要一系列的处理,才能得到表达矩阵。而数据分析和挖掘就是从表达矩阵开始的。以往我写贴讲课都是用的手工的方法,目的是为了教会大家批量操作,而批量是我学习编程到现在收货最大的部分。还要一个工具,集TCGA数据下载处理可视化为一身,就是TCGAbiolinks。但是因为网络原因,我重来没用过。直到有一天,唐医生帮我彻底解决了网络问题,我才能像一个正常生信工作人员一样生活。我现在无论是SRA,还是github,都没有网络限制了。然后我就用上了TCGAbiolinks,最终我的评价就是,TCGAbiolinks用来下载数据十分方便,用来分析和可视化达不到要求。现在以下载是RNAseq的数据为例,写一个批量的呈现,下载所有33个癌症的数据变成Rdata格式,并分享。对包和项目的探索有哪些项目的数据可以下载呢?library(TCGAbiolinks)projects
2020年7月16日
其他

WGCNA中的eigengene有什么重要意义呢?

经过软阈值确定,TOM矩阵计算,层次聚类和动态切割后,我们获得了一些基因模块,每个模块里面都可以看成是有共同目的的团伙。为了方便后面纷至沓来的相关性分析,尤其是跟性状的联合分析,现在需要选取出每个模块中的代表人物。这个过程就是寻找每个模块的eigengene(读音:
2020年6月27日
其他

WGCNA分析是如何找出基因模块的?

一个WGCNA网络的分析过程包括四个方面。1.确定软阈值,构建邻接矩阵。WGCNA的分析中为什么要挑选软阈值?2.把邻接矩阵变成拓扑重叠矩阵WGCNA有了相关性矩阵为什么还要计算拓扑矩阵?3.根据拓扑重叠矩阵识别基因模块这是今天要讲的。4.探索感兴趣的基因模块:包括性状关联,富集分析,寻找hub基因WGCNA如何识别模块靠的是层次聚类。下面用数据演示一下首先从表达矩阵计算出拓扑重叠矩阵TOMlibrary(WGCNA)###
2020年6月24日
其他

WGCNA有了相关性矩阵为什么还要计算拓扑矩阵?

我和WGCNA的纠葛WGCNA的我忍了他四年了。第一次听到是一位朋友需要学习WGCNA,公司给他报的价格是3万。然后他就硬着头皮自学,然后发了文章毕业了。这大概是四年前的事情。从那个时候,我就知道了WGCNA的名字,但是一直想学但就是没有行动。因为那时候我的R语言没有入门,看到别人limma包都写了本书来说明,就觉得所有R包的学习都需要很长时间。直到有一天Jimmy跟我说,他学习一个新的R包就跟喝水一样,彻底把我震撼了。我说我想看一下你学习R包的过程。他就开了一个网络讲座,现场直播WGCNA的学习过程,在视频里面他说是要给一个朋友演示过程,那个朋友就是果子。但是,不争气的是,那个时刻我见识到他从头到尾学会了WGCNA,后来整个公众号的帖子都是以他的流程作为模板来分析,但是,我还是觉得太难。现在想来,是因为基础太差,数据的增删改查都不能独自完成。怎么样做才能不辜负JImmy的这番好意呢?假装会了。我确实也是这么做的,总不能说自己不会吧。一开始真的很心慌,因为怕抽查,到了后面就坦然了,因为我觉得随时都可以学会。到了这个月,组上的样本堆在我面前,我不能再这么下去了,就开始学习。学习也是直接看的官方教程,然后就开始拆解他的代码。拆解的第一部分弄清楚了,什么叫无尺度网络分布WGCNA的分析中为什么要挑选软阈值?挑选合适的软阈值是为了让基因间的相关性符合无尺度网络分布。接下来就是聚类,找出模块。拓扑重叠矩阵如何计算出来但是WGCNA在找模块之前多做了一步,就是把相关性矩阵(Adjacency
2020年6月23日
其他

WGCNA的分析中为什么要挑选软阈值?

WGCNA是个强悍而且万金油的分析数据分析技能。我们之前讲过他的常见强悍用法视频课程:WGCNA,多样本,多分组,多临床信息的数据挖掘利器。还讲过他的万金油用法:WGCNA是数据挖掘的大熔炉!在使用这个技能时,一开始接触到的概念就是无尺度网络分布,另外一个就是确定软阈值。这两个概念的联系是这个样子的:确定软阈值是为了让数据符合无尺度网络分布。那我们今天就搞清楚这两个问题:1.什么是无尺度分布2.手工计算软阈值无尺度分布假如我问大家,如果你想认识世界上的任何一个人,需要通过几个人来联系?6个。这个就是6度分隔理论,描述的是随机网络里面的情形,随机网络里面,大多数节点拥有相同的链接数。如果用计算机模拟的。在节点完全随机的情况下,任何两个节点的平均距离却远远大于6个。但是我会感觉6度理论是靠谱的,举两个例子:因为你想联系上特朗普的话,应该没那么困难。你先认识地方电视台,然后通过他们联系马云,而马云跟特朗普认识。你如果找马化腾呢?也没有那么困难,你先认识地方电视台,然后找到马云,而马云跟马化腾很熟。你看,只要我们在这个网络中,加入一些巨人,事情就会简化很多,而这些巨人拥有的特点就是,巨人很少,单个巨人跟普通人的链接特别多。这些巨人起到了枢纽的作用,枢纽英文叫作hub。真实世界的网络不是随机的,而是有hub的网络。就像右边的图一样。普通节点占大多数,hub节点是少数。随机网络是可以用一个值来衡量大多数节点之间的距离,或者是6或者是60,也就是你可以用一个尺度去衡量他,可以称为尺度网络。而有巨人的网络,没办法来衡量两个节点之间的距离,叫作无尺度分布,该分布又叫做幂律分布,我们说的二八定律,长尾定律都是幂律分布的口头化呈现。人和人之间的交往是这个样子,那么蛋白和蛋白之间的互作是什么情况呢?目前的观察是,也符合幂律分布,也就是无尺度分布。一个细胞内,不是每个基因都要表达,即使表达,也不定起作用。决定这个基因分化,功能改变,都是一些重要基因,我们把他成为hub
2020年6月21日
其他

WGCNA是数据挖掘的大熔炉!

WGCNA技术,本质上相关性分析,在分析过程中做了两次相关。第一次相关性(这一次的相关性比较特殊)把基因变成很多类。他称为模块。右边的图是原始表达矩阵,行是基因,列是样本。通过相关性分析,把表达模式接近的基因聚在一起。就形成了一个个模块。每个模块里面有很多基因。此时每个模块里面的基因,理论上应该参与相似的通路。那么这些不同的模块,需要同时分析么?不,同时分析,等于没有分析。此时作者提出了一个概念,叫作epigene把每个模块里面的基因进行分析,整合得到一个值,用这个值代替整个模块。那么表达矩阵就变成了,epigene在行,样本在列了。这样,原始矩阵就变得简单了。现在每一行就跟基因一样了,有自己的表达量,所以称为epigene,寓意基因之上的,超越基因的。第二次相关性因为上面的操作,简化了矩阵,得到了一个行是epigene,列是样本的矩阵。而我们同时还有个行是性状,列是样本的矩阵。这里记录了每一个样本的性状信息。那现在我们能干什么呢,可以求出每一个性状信息和epigene的相关性实际上就是性状和基因模块的相关性。最后的结果就像这样的通过查看颜色比较红的色块就可以找出跟某个性状比较相关的模块。性状,肯定是你感兴趣的,你只是不知道哪些基因跟他相关,现在我们能定位到模块,模块里面就是基因啊。这样,一个科学问题就有眉目了。当你想用纯生信发文章的时候,对一个技术的要求是苛刻的,恨不能用某个技术直接代替Western
2020年6月16日
其他

视频课程:WGCNA,多样本,多分组,多临床信息的数据挖掘利器。

今天我们发布第5个教程,就是WGCNA。那么这个技能有什么用呢?对于两组数据,比如加药和不加药的芯片数据,或者测序数据,如果我们要找到跟加药相关的通路或者基因,我们可以做差异分析然后进行GO分析KEGG分析,或者直接使用GSEA分析。可以参考下面的帖子。来完成你的生信作业,这是最有诚意的GEO数据库教程很有诚意!人人可做的转录组数据下游分析那么如果我有多个分组怎么找出每个组的特异分子呢?比如,加药后1小时,6小时,12小时,24小时都测了转录组,我现在想知道每个时间段特异表达的基因,该怎么做呢?可以批量的两两求差异,然后慢慢排查,也可以用时序RNAseq的分析技术,找出某一类基因,他随着时间慢慢增高,也可以找出某一类基因,随着时间慢慢降低。但是还是不够直接,高效,我们来看看高手的玩法。WGCNA
2020年6月8日
其他

ssgsea算法在量化免疫浸润时的运用以及原理

ssgsea在免疫浸润的使用在量化免疫浸润的时候,我们有两种主要的方法第一种是CIBERSORT,他的结果是各个免疫细胞在一个样本中的占有率。量化免疫浸润时CIBERSORT的注意事项第二种是ssGSEA,单样本GSEA分析。使用起来简单,而且高度可定制。以下是一句代码。gsva_data
2020年6月1日
其他

量化免疫浸润时CIBERSORT的注意事项。

关于量化免疫浸润的课程之前我们发布了一个课程。视频课程:TCGA数据免疫浸润的量化方法里面讲了目前量化免疫浸润的10几种方法。主要的是两个,一个是CIBERSORT,一个是ssGSEA。重点讲解了ssGSEA,并在此基础上进行了一些可视化和分析的探索。在可视化方面,我们用ggplot2可以轻松查看处理和非处理因素下,免疫细胞浸润的差异。这里面用到了两个很好的技能。我喜欢的gather快要被淘汰了,迎面走来了更好用的宽长转换工具墙裂推荐!统计方法如何选以及全代码作图实现当然,如果你本身是研究肿瘤的TCGA数据,我已经把结果处理好了,只要指定癌症类型,即可轻松作图。再次基础上,我们还探索了一些批量分析:第一,和RNA-seq的数据结合,可以查看自己研究的基因和免疫细胞的相关性第二,限定某一个免疫细胞类型,可以批量找出和他最相关的基因,如果再减去这个细胞的marker基因,可以认为剩下的就是被这个细胞影响的基因,那可做的事情真多了。这些技能都依赖于批量的思维视频小教程_R语言中的批量操作还要一些没能尽善尽美的地方,现在开始做一些补充。CIBERSORT的注意事项CIBERSORT的使用,我们举了几个例子,但是还有一些疑问,只要有疑问在,就感觉心里不踏实。比如:1.CIBERSORT需要什么样的数据?是芯片数据还是测序数据,是什么格式的,需要取log么?2.CIBERSORT输出的数据是表示什么?在进过一系列运算后我们会得到一个矩阵行是样本,总共25列,前面22列代表22个免疫细胞。那么表格内的数值是什么意思?3.上面的表格中,最后还有三列这里的p值,相关性系数怎么算出来的?RMSE是什么啊?带着这些问题,我们就探索一下吧。CIBERSORT究竟在干什么?我们能够对CIBERSORT进行探索,在于他除了有网页版本之外,还提供了一个脚本。这个脚本在登陆官网后可以申请获得。我们先来展示一下,在R语言里面如何运行CIBERSORT你需要三个东西:第一,这个脚本。第二,基因特征文本第三,表达量矩阵。前两个都可以在官网下载。最后一个是我们自己的数据,行是基因,列是样本。然后运行就可以了##
2020年5月28日
其他

缺什么来什么,单细胞ATAC的数据有救了!

果子推荐:单细胞的教程资源十分丰富,最普及的是scRNA-seq的教程。scATACseq数据也很重要,一直以来没有很好的教程。此时绿叶团队的ArchR出现了,绿叶团队此前在NBT发过两篇单细胞文章,分析实力很强劲。(我后来知道,洲更早就尝试复现过原文)ArchR,他的全称叫作Analysis
2020年5月22日
其他

视频课程:TCGA数据免疫浸润的量化方法

尽管人们说TCGA的数据或者GEO的数据已经被挖掘的差不多了。但是只要一出现新的分组方式,就会立马诞生一大批文章,因为分组后的一系列操作都是现成的。分组是数据挖掘的关键环节常规的以癌组织和癌旁组织分类,然后就可以探索这两组数据的差异基因,显著富集通路,想办法讲差异相关的故事。如果用生存指标来分,样本就会变成以后好的和预后差的,也可以分组了。如果用某个基因的表达区分,可以把样本分成表达量高的和低的。如果用两个因素来区分,就有四种情况。假如这两个都是基因,我们可以提取两基因都高以及两基因都低的样本,这也分组了,意义就是两个基因协同作用。假如一个基因是miRNA一个是靶基因mRNA,那么同样的可以把样本分为两组,变成miRNA和mRNA协作起作用的组和作用弱的组。同理,甲基化水平和mRNA水平也是一样的操作如果两个基因不满足你了,那么就多个基因构建模型,用这个模型给样本打分,也可以分组讲很多故事。比如,如果signature里面的基因来自于自噬就讲自噬的故事如果signature的基因来自于m6a,就讲RNA的修饰的故事。如果你能分析出肿瘤组织的突变负荷(tumor
2020年5月18日
自由知乎 自由微博
其他

高能推荐!批量在多个组织中找出跟你的分子最相关的基因。

在第一个课程中,我们像素级别还原了Nature的一张小图,跟Nature一起学习TCGA,GTEx和CCLE数据库的使用更重要的是,在实现这个图之前的数据处理过程,我们强行执行了数据调整的三大步1.基因名称转换2.行列转置3.添加分组信息1.已经实现的技能这样我们就实现了输入任意两个基因,返回其在多个组织中相关性数据的功能。比如你看到一个分子TMED3,想看看他跟诺奖明星低氧诱导分子(HIF1A)之间的关系只要三步就可以实现:第一步加载数据load(file
2020年5月14日
其他

墙裂推荐!统计方法如何选以及全代码作图实现。

果子推荐这一篇关于统计的帖子,我要强烈推荐,他来自一位线下学员的投稿,这位朋友自我迭代的速度快到惊人。文中讲到了科研绘图时统计方法的选择,如何在图上增加p值,以及全方位的代码实现。本文的灵感来自于那张统计神图我觉得数据挖掘的小伙伴们,可以都来参考借鉴一下,至少可以把论文中的方法选对。到目前为止,我还是没能攻破统计大关,但是只要不下牌桌,就有赢的可能。在生信数据挖掘的淘金路上,总得有人卖水吧,而我们就是其中一员,但我们不生产水。以下是正文看完了MC上那篇m6A胃癌的文章,大家是否对于里面两组或多组之间比较的统计学知识一脸懵,什么时候选择Kruskal-Wallis
2020年4月27日
其他

视频小教程_R语言中的批量操作

(本次操作有配套的视频教程,在果子学生信公众号回复“果子爱批量”自行获取,和代码一起以project的形式分享)目前而言,我学R语言,受益最大的是批量操作。比如,我们可以实现批量计算2万个基因的生存分析。这里有个例子:8秒完成2万个基因的生存分析,人人都可以!如果更猛一点,用双基因来分开样本,可以实现双基因的生存分析。但是数量级有点大,理论上是2万乘以2万,大概是4亿。写成批量的呈现后,就有了4亿个生存分析的结果。我们还可以用批量思维实现别人paper中的图表。这个帖子就是个例子跟Nature一起学习TCGA,GTEx和CCLE数据库的使用只要能批量操作,速度不是很重要,所以,大家都应该掌握的是for循环人人都该掌握for循环当我们梳理掌握for循环之后,学有余力的可以尝试用上apply家族的成员。其中对我而言,最常用的是lapply。1.lapply他接受一个列表和一个函数,然后批量地把列表中的每一个元素都call
2020年1月17日
其他

新年总结是跟过去告别的最好方式,做不做都会过去。

新年总结一般就是个形式,过不了多久,连自己都会忘掉的。至少要包含三个方面的内容才算完整1.你做过什么,取得了什么成就2.还有哪些遗憾3.明年怎么办当我想要做总结的时候,我发现这一年过的很快,经验告诉我,当我们感觉时间过的快的时候,一般都是颗粒度不够多。这一点在旅行的时候感受的十分明显,明明只要2天的时间,却感觉做了很多事情。1-3月份,是标书季节。后面的事情记不清了,一直到8月底,参加了技能树举办的第一届生物信息大会。进入9月份后,就开始了新的课题,进展比较快,目前已经拿到所有数据。比较高兴的是,团队让我看到希望。今年是我和妻子相遇10周年其实这应该算是成就,因为按照我这小小年纪又没有早恋的人,10年稳定的恋情不算短。我们带孩子一起去了珠海长隆海洋世界,广州长隆,以及三亚。10周年纪念的时候,收到的礼物是大疆无人机,到目前只放飞过一次,拍了学校的银杏树。这一年做的一件比较有意义的事情是,我们三个家长在5月30号报了古筝培训班,建了一个群,叫作和孩子一起成长。上周,我们已经学完了古筝的所有基本技法(包括遥指)。自己也能弹奏一些曲子了。目前看来这个培训还可以持续几年,这是信息密度比较低的培训,因为是三个人上课,所以每节课只能教授1/3的内容,又因为内容很少,反倒是不需要过多的练习即可掌握,所以,每次课都能很好进行。现在上课成了每周的期盼。这种学习模式可以轻松地迁移到其他领域,只要把信息密度降到足够低,什么技能都能教会,学生也都能学会。但实际上这种模式是种奢侈,因为成年人没有办法等待很久,大家希望的是大剂量冲击疗法,比如2天学会R语言,我没有办法保证别人学会,所以就尝试变成教别人不要惧怕。这一年也有一些不重要的遗憾,比如,数绘我还没有时间学会,报了几次班,但是连课都没去上。比如,6月份开始的写作计划,被我中断。比如,年底的PPT课程也被我取消,主要原因是,我还没有足够的能量去影响别人的审美。还有,我组织的线上文献阅读,效果不理想,准备转型。不过也有很让我十分高兴的事情,比如,我组织了每周一次的线下文献阅读会,专门精读CNS文献,现在也成瘾了,每周也很期盼那一刻的到来,有种相见恨晚的感觉。当这群人最终成为各个科室中流砥柱的时候,这段时光一定会成为炫耀的资本。比如,最近入门了ggplot2的图层,这得益于线下洲更的辅导,线上Y叔的指导,我还因为这个写了一篇帖子给Y叔,明年大家就会看到。来年1-6月份是有计划的,7-12月份还得看情况。明年3月份,我们家的小孩子要去幼儿园,这意味着她这一生跟父母在一起的时间,屈指可数。小学,中学,高中,大学,大部分时间都是在学校度过,一晃就会到20几岁。然后就会有自己的生活,所以如果你是家长,3岁之前的小朋友,一定要珍惜。此刻,我的心态极其平和,作为一位临床科研工作者,我不再去想以后做什么工作,去哪家医院,干什么岗位,我想的只有,珍惜眼前人,做好手中事情。
2019年12月30日
其他

我喜欢的gather快要被淘汰了,迎面走来了更好用的宽长转换工具

果子唠嗑不断地有人问我,你的简书文章哪里去了。很难受,我的简书被封掉了。而我一直把简书当作写作工具在使用,也一直在蹭他的图床。今天在熊的帮助下,我用上了新的markdown工具,用上了自己的图床,工作又可以开展了。具体的过程在明天的帖子里面。(在发这个帖子的过程中,又获得了熊的极其骚的操作,我现在跪在地上找下巴)假如要办法生信界十大感动人物,我觉得评语可以这样写他以一己之力,结束了生信界效率工具使用长年累月的混乱局面,帮码农们节约了日渐稀疏的毛发。回到今天的主题,我们要讲讲数据调整中的宽长转换我以前只知道转换,但是并不知道什么叫长数据,什么叫宽数据。最近在学习的过程中,看到了定义。如果一个表格数据被处理过后,行数增多,就叫长数据,如果列数增多就叫宽数据。以下展示的是就是长宽数据的转换。数据变成,就是数据的多个列的数值变成一列,而其对应的列名也变成新的一列。
2019年12月12日
其他

group_by和summrise连用后,分组计算就很方便。

关于分组计算这个话题,我在写过的那些帖子里面,经常用到的就是group_by联合summarise比如多探针求最大值,多甲基化位点求平均值,TCGA中miRNA求最大值GEO芯片中多个探针对应一个基因,是求平均值还是保留最大值?批量读入TCGA的miRNA数据(注意细节)R语言学习路上的忆苦思甜凡是重复的,全部删掉,一个都不留!从零开始学技能,以数据集合upset图为例。group_by按照某一列把数据框分成多个组我是知道的,但是summarise我就比较疑惑了,因为他们家还有sammarise_all,
2019年11月21日
其他

z-score的标准化究竟怎么弄?

不过考虑到均值和标准差受到离群点波动很大,可以用中位数替代均值,用绝对标准差替代标准差。R语言中做标准化常用到一个函数scale,它的功能是对矩阵的列进行中心化和(或)缩放scale(x,
2019年11月4日
其他

教程拓展:手上在研究的基因在各种组织,癌症,细胞系中的表达量。

昨天的教程我很喜欢,以后再配上个基因启动子转录调控因子筛选的技能,就是神技中的神技。跟Nature一起学习TCGA,GTEx和CCLE数据库的使用目前已经100人订阅。感谢这部分人的信任。有一位朋友问的很好,我也答的很好。帖子已经足够详细,核心代码全部给出,高手就自己做,如果看了还不懂,那就乖乖买课程。我们真心实意,学员心服口服。但是还是有很多既往的学员支持了这个小课程,我的心情很复杂。表面上看,这个小教程就是实现了任意两个基因,在三个数据多个组织中的相关性,骨子里,我用了同样的代码和思维处理了三个数据库的数据。我说,R语言初学者应该把精力放在数据调整上,而把数据调整为清洁数据(行为观察,列是变量)就是三步,基因注释,行列转置,添加分组。只要成为了清洁数据,大部分R包都可以用起来了。这个小教程,作为data
2019年10月9日
其他

跟Nature一起学习TCGA,GTEx和CCLE数据库的使用

co-transcriptionally这篇Nature首次揭示了组蛋白修饰对于m6A甲基化的影响,展示了基因表达调控的新模式。但是这篇文章让我念念不忘的是文中的一张附图
2019年10月8日
其他

科研工作者的力量来自持续不断的读文献!

长话短说,节前我们组建了文献阅读群果子组建的第一个文献阅读交流群今日开放!为了让群能够运行的更好,我们还写了关于文献阅读交流群的几点说明比如,全天禁言,只有晚上8点到11点开放讨论,目前大家准守的都很好。明天开始文献阅读正式启动。我思考再三,群里读文献最好是主题阅读。比如,下面两周我们阅读的主题就是m6a甲基化(不感兴趣的也要看完这篇帖子,有惊喜)。这样,我们先自己根据这个主题找文献,读文献,推荐文献,最后从群友推荐的文献中再选取文献深入阅读,读起来也不费劲,真正把群体的力量用起来了。关于文献阅读的形式,我先给大家做个示范,简单而言就是,一篇文章,一段推荐,一个技能。单纯推荐文章比如,我想了解m6A甲基化的内容,我就先去看综述。第一篇看的是芝加哥大学陈建军老师写的RNA
2019年10月7日
其他

关于文献阅读交流群的几点说明。

发布文献阅读交流群招人的消息后,不断有人加我微信,要求入群,很意外地,目前已经有160人,这个群算是正式成立。果子学生信创立以来,没有建立任何官方层面的微信群,因为群对人的成长作用有限,而且我也没有精力去管。像小学群,中学群,大学群,都是一开始热闹,然后冷淡,最后死寂。因为大家的交集太少,没有那么多讲不完的情话。每年的学术大会,人数越多,排场越大,质量越差,个人所能获得有价值信息越少。真正有价值的会议都是闭门会议,10个人坐下来好好谈课题,交流思想促进合作。群大了,质量就会下降。但是既然现在群已经建立起来了,我就要作一些说明。如果群的发展很差,我就直接原地解散,重新建一个更小的群。这个文献阅读交流群主要干什么?我觉得是增长见识。有一些在你们课题组极其困难的事情,在另外一个课题组却是家常便饭。有一些问题的解决方案在行业内有成熟的解决方案,但我们却在重复造轮子。解决这些问题,靠的是高质量的文献阅读。当你读了一些文献后,你总会碰到读起来十分过瘾的paper。此时,你可以写个100-200字的推荐语,告诉我们你究竟要推荐什么。是文章的idea巧妙么?是工作无比扎实么?是写作技巧精妙么?是使用了公共数据辅助科研了么?但凡是你觉得值得推荐阅读的点,都可以写出来。发在群里的收集器中即可(方案筛选中)。然后我们整理成文档,供大家学习讨论。时间长了,我们就能够分辨什么是好文章,什么是差文章,慢慢地科研思维也会建立。比如,我就很喜欢看前言,因为好的作者会特别注重文章的起承转合,会慢慢而巧妙地把你带入他的世界,让你觉得他即将解决一个重大的问题,而这些方法可以迁移到国自然的写作中。还有一点,很重要,也很有价值:如果有一些文章,公共数据利用的比较好,产生了说服力比较好的图表,我们会努力复现复现。复现的过程会制作成视频,文章推荐人免费获取,群友优惠获取。我在国庆节期间会制作第一期视频,作为小例子,示范一下如何从一篇高分文章中学习公共数据的使用。群的正式运营时间是10月7号,从那开始,每位群员需要每2周推荐一篇高质量的文献,既然是推荐1篇,那就说明自己私下里要读很多篇。在那之前,群员先自由探索,但是请避免闲聊。在正式运行的时候,群成员禁言,晚上8点到11点是开放时间,到时候会有组织地进行主题讨论,群员自己作嘉宾,选择自己的技能分享,分享后其他人补充,最终总结汇总。关于文献的选择必须是高分文献么?注意,我没说是高分文献,我说的是高质量文献。有很多领域,Top期刊就只有3分,但是质量一点都不差。必须是生信文献么肯定不是,虽然我一开始想要组建的是人类的肿瘤学习群,但是最终还是放宽了要求,因为我还有一些植物领域的十分优秀的朋友。领域不限,但如果是文章中生信的内容,我们可以方便复现。这个群有哪些注意事项和禁忌?(必看)第一,只讨论,不争论。讨论是双方都想把事情弄清楚,争论是为了让别人接受自己的观点。所以,讲清楚事情,请摆事实,举例子,而不是语言上攻击。第二,勿谈国事。“为天地立心,为生民立命,为往圣继绝学,为万世开太平”,为中华民族之崛起而读书,这是读书人该有的家国情怀,但是这个群不以国事为主题。第三,不讨论上网工具。第四,不要不经允许发广告。第五,不要问那种依靠检索就可以解决的问题,群友的注意力是整个群最宝贵的资源,应该用来解决更重要的事务。如果违反了怎么办,第一次,心平气和地警告,第二次,铁面无私地清退。举个例子,如果我看到一个提问,我可以在网上轻松找到答案,我会给出示范,并且告知不要再问,如果下次我发现该群员提出同等级别的问题,我就会直接清退。要注意的是,清退是群发展的必经之路,不代表能力和人品的评判,只是说不符合群的规定,而这个群是我建的,规矩在我。这个群还能干什么?一群有意思的人聚在一起,尤其是自带资源的人聚在一起,总会搞点事情。比如,昨天群里自发地讨论了科研文献的管理,气氛比较友好。一个人可能走得快,一群人才能走得远。但是,人与人之间的交流,本质上是资源的互换。所以,首先尝试让自己自带资源,这样才能实现资源的互换和拓展。没有资源的寻求帮助就是乞求,有平等资源的寻求帮助那叫交流,有了交流就有机会促成合作。如果没有资源怎么办,那就慢慢去积累。一个质粒,会做实验,会生信分析,有钱,都叫资源,他们之间可以互换。我们先做好手上的事,静待碰撞的火花。这个群还能加么?可以,但是也会一直清退。很多人在我同意其入群后,给我说谢谢。我的回答很一致:如果几年后你还在群里,你最该感谢的人是你自己。总会有人一开始激情万丈,但是几天后就慢慢冷却,不读文献不分享。那种10分钟读懂CNS文献的活动我是不会参加的,谁喜欢谁去,反正我前后要花10个小时才能搞清楚一篇CNS。总会有人散漫随意骗人骗己。有很多打卡活动,打卡到最后变成了心理洁癖。你已经知道这只是个形式,打卡内容毫无质量,就是不肯放弃。我们的文献阅读,尽管只需要2周推荐一次,但一定有到了deadline乱写几句的朋友。这种也是要清退的。一个群的发展,如果没有清退机制,就不可能好起来。当我们清退群员的时候,并不代表群员不优秀,而是暂时不适合群的规定。如果需要加群,微信联系我guotosky,介绍自己的时候,尽量给出可用的信息,说清楚你目前的状态,你的专业,你的技能(不限于生信和实验),你能给群员提供哪些帮助。群里面有一位朋友,自己发过两篇Cancer
2019年9月25日
其他

果子组建的第一个文献阅读交流群今日开放!

文献,对于科研人十分重要,我已经在线下组建了文献主题阅读团队。每个月8篇CNS高分文献精读,分四次完成。一个月换一个主题,目前完成的是相分离,正在进行的是m6A甲基化,计划中的是表观遗传,单细胞,多组学等。第一天读相分离,分不清东南西北,但是到了第8篇的时候,我们甚至有信心
2019年9月23日
其他

花了100个小时学习线性回归,写了个万字长文作总结。

今天这个真的长。果子荐读最近我们都在疯狂的学习统计学,上次碰到那个统计神图后,理解上突飞猛进。一张神图,解决科研统计80%的问题。但是,那张图中还缺少统计中的一个重要环节,就是线性回归。我的师弟,包子,在系统学习了接近100小时后(据他自己说是100多个小时,我这里扣除了上厕所以及吃饭的时间),写出了一个超过万字的帖子,我看了之后受益匪浅。这只是开端,他给我保证的是,再写20篇,没有问题。而我看完后,心中暗爽,20篇帖子,加起来就是2000个小时,那基本上就是专家级别了,期待。想起来他的第一篇帖子,也很长如果你想长时间待在实验室,那就把自己最好的设备都放在这里。但是,跟这个比起来,只能说短。以下是正文:大家好,我是那个努力健身想瘦成馒头的包子,相信大家以前都被这样的问题困扰过:那么到底什么是线性回归?它和我们熟悉的统计学方法t检验和方差分析又有什么区别?这里我们引用冯国双老师的话来帮助我们理解:统计学初学者通常会首选接触到t检验、方差分析、线性回归等方法,不少人的感觉就是,t检验用于两组均值比较,方差分析用于多组均值比较,而线性回归则用于自变量对因变量的影响分析。看起来似乎没有什么关系,但它们却统一在一个模型下,这就是一般线性模型(General
2019年9月4日
其他

凡是重复的,全部删掉,一个都不留!

今天值得纪念。R语言里面的去重,有两种一种是重复项里面我们保留一个,典型的应用是探针去重GEO芯片中多个探针对应一个基因,是求平均值还是保留最大值?另外一种是假如重复了,全部删掉,一个不留,典型的应用是如果GEO中一个探针对应多个基因,如何把这个探针全部删掉?最近我们碰到了解决第二个问题的好方法,现在来重新讲一下,正好介绍几个小函数。创建一个数据框,第一列是字母,第二列是数字,字母明显有重复,重复项是A和Ca
2019年9月3日
其他

给R语言学习路上犹豫的人群,Excel中3秒能做的事情,我们能批量。

在几个月前写过一个帖子来解决一个临床师弟的问题。迷人的多参数批量函数mapply那个帖子让我很得意,因为我把一个需要11小时完成的任务,用11s来完成(极大的可能是,我在熊的心里增加了分量)。但是也留下了两个笑柄。第一个是用mapply去生成多参数下的重复,大材小用了。unlist(mapply(rep,1:10,1:10))
2019年8月30日
其他

批量读入TCGA的miRNA数据(注意细节)

我们已经下载到了数据,在rawdata文件夹,总共1207个1.文件合并每个文件夹里面都有一个文本文件,现在需要把他们批量读入R语言,先分解一下,新建文件夹data_in_one,先把所有文本放在一个文件夹里面。如果是用的命令行,就一行cp
2019年8月16日
其他

用R语言中的sample函数来抽上一次的奖。

cat('\n')}我是果子,我很喜欢在果子学生信写作的感觉,明天见。
2019年8月16日
其他

一张神图,解决科研统计80%的问题。

我的统计学一直就是稀里糊涂的状态。大部分情况都是用的t检验,所有分析都只看得懂p值。所以,我买了很多统计学的书籍,一本接一本,有很多都没拆封,看不下去。而我,则没有任何焦虑,静静等待神奇时刻的出现。这种神奇时刻,曾经在我的生命中,出现多次。比如,大学看到了这一句人与人之间的相处,本质上是资源的互换。从那之后,我做的所有事情,都是在积累资源,我要成为一个能跟别人互换资源的人。这种资源,可以是一个技能,也可以是一件物品,或者是钱财。又比如,财务思维课里的这句:花出去的钱,如果能赚钱,那就不叫消费,属于资产。那以后,买书简直如山倒,因为我不再追求看完,而是对自己说:如果一本50块钱的书,里面的任何一句话,让我赚回了50块钱,那么这本书就是白捡的。买其他东西的时候也是一样,如果是刚需,再贵也得买。学习R语言也是一样,徘徊两三年没有学会,但是因为要去培训,一个月每天10小时,最终入门了,这其中,tidyverse这个包
2019年8月4日
其他

如果你想长时间待在实验室,那就把自己最好的设备都放在这里。

果子唠嗑这是我的师弟自告奋勇要求投稿的帖子。我这个师弟叫包子,是位健身达人,身体很强壮,最近得了重感冒。包子在医学硕士毕业的时候,进入了航空圈,报考了飞行员,身体测试的时候,前面一个个选手因为紧张出现高血压,包子因为是医生,立马打电话喊朋友买了点倍他洛克(降心率的药物)送过来,第一次用专业技能平复了自己的血压,顺利地进入面试阶段。但是,最后还是因为热爱科研大于热爱飞机选择读博。包子热爱学习,以至于他强烈地影响了我们组的人看他的眼光,他的每一个举动都必须得跟学习对接起来,比如,他买降噪耳机是为了排除干扰,他买了电竞椅是为了更加专心致志地坐着学习,他买新的衣服是为了给自己更好地心情这样不至于学习起来乏味。这段时间他改变了很多,天天从早到晚待在实验室,完全不是以前的状态。他接受了我的一个建议如果你想长时间待在实验室,那就把自己最好的设备都放在这里。包子买了大屏幕,买了电竞椅,买了靠枕,买了加热颈部的护颈。而我呢,比他多一点,两个27寸曲面屏,音响,高配台式机,录音设备,高清摄像头,折叠床。当你能够长时间做一件事情,无论是好是坏,都会有产出。他说这是最近整理的统计学知识,关于t检验的。我一看确实是花了心思的,就同意他发出来。但是毕竟他现在还处于航空圈到学术圈的转型阶段,还有很长的路要走,进步空间很大,但是好在已经在路上,大概率是要越走越远的人。我愿意在这条路上竭尽所能帮助他。今天老板回来,问我最近怎样,我说,组上现在很快乐,大家在一起互相帮助做点事情,很开心。以下是今天的正文哈。为什么要学习统计学其实和很多人一样,我曾经也很排斥学统计学,看不懂其中复杂的数学公式,种类繁多的统计学方法,这些东西曾经让我很长一段时间被统计学拒之门外,直到有一天看电影《美国队长2》中那么一段对话:希特维尔:索拉的算法是一个程序,用来选择和洞悉目标。美国队长:什么目标?希特维尔:你、开罗的一个主持人、国防部副部长、爱荷华市的一个高中毕业生、布鲁斯班纳、奇异博士。所有可能威胁到九头蛇的人,不管现在还是未来。美国队长:未来?怎么可能知道?希特维尔:怎么会不知道?21世纪是一本数码书,索拉教会九头蛇如何读这本书。你们的银行记录、病历、投票模式、电子邮件、通话信息,还有大学考试成绩。索拉的算法会评估人们过去,预测他们的未来。毕竟九头蛇都开始学习数据分析了,坏人们都那么努力,看超级英雄电影长大的我决定要把这件事要做起来了。既然我们有了学习统计学的动力(假如你也和我一样有着某天拯救世界的幻想),那么我们要从什么地方开始学习成为了最头疼的问题,思考这个问题源于我接到我一个同学的电话,电话里她很着急的问我:t检验和F检验有什么区别,为什么她用统计软件算出的结果一个p值小于0.05,一个p值大于0.05,该怎么解释这个结果。其实当时我听到这里,嘴角露出了一丝诡异的微笑(果子:我觉得是女同学),毕竟偷偷学习了这么久统计学,终于有发挥的余地了,于是我就开始深情并茂的解释,什么是中心极限定律,什么是样本统计量,什么是总体参数,什么样的数据可以使用t检验,t检验使用不了还可以使用非参数检验…..我也不知道我就这样讲了多久,并且还几度凝噎,因为想起了那些死啃统计学知识的艰苦夜晚。然而,沉默的电话那头只默默蹦出了三个字:没听懂!并且还补充说到,你可不可以直接告诉我这个东西怎么用。好吧,我们已经有无数的计算机和软件可以替代我们去计算,因此我们最花时间的事情反而是如何去整理数据并且解读得到的结果,那我们就来试一下先不去纠结t检验的计算过程,而直接通过结果来解释我们的数据。我的数据能使用t检验吗?因为t检验使用比较普遍,我在学习统计学之前也一度的认为只要比较差异就可以使用t检验,但是事实并不是这样,在把你的数据用t检验之前,应该做以下几件事情:1.确定自己的数据只有两组,因为在多组数据的比较当中,使用t检验会增加阳性错误;2.检验自己的数据是否严重的偏态,换句话说就是数据的分布不符合正态分布,因为t检验主要比较的是两组数据均值的差异,如果你的数据严重的偏态,均值便不能反应数据的真实情况,但是这里强调的是严重的偏态,多数统计学家还是认为轻微偏态对结果影响不会太大,仍可以使用t检验,但是评判标准比较主观,我们可以后面再讨论。3.确定两组方差是否相等,与正态性检验一样,在方差相等的检验中,其无效假设为“两组方差相等”,因此我们只需要记住,F检验中,P
2019年7月31日
其他

又是神器!基于单基因批量相关性分析的GSEA

有这样的使用场景么?1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为guilt
2019年7月19日
其他

如果GEO中一个探针对应多个基因,如何把这个探针全部删掉?

6有6个探针可以对应两个基因,需要把他们给删掉,实际上,个数少,手工操作也行。如果我们尝试保留那2971个单一的探针,可以先计数,找出等于1的探针,然后跟原数据merge取交集就可以了,
2019年6月29日
其他

久等了,果子学生信最新课程报名通知。

我们的生信数据挖掘线下培训课来了。课程目前已经迭代多次,是个有体系的课程,对于初学者比较友好。整个课程的设计和迭代,依托于三句话。第一:
2019年6月24日
其他

从零开始学技能,以数据集合upset图为例。

其实,虽然我已经上了10次线下课,但是这种表现多个数据交集的图,一直都不会画。最主要的原因就是,从来没有这个需求。但是今天我突发奇想,想要学习一下。我要连续更新六个月,那么有很多不想学的技能也会慢慢学会。因为我现在不会,所以以下是我学习的过程。我将展示如何从零开始,学会这个图的绘制。我在微信,google
2019年6月23日
其他

把逻辑矩阵变成数值矩阵的最简单方法是乘以1

今天碰到一个需求,就是把如下的是逻辑矩阵变成数值。rm(list
2019年6月22日
其他

GEO芯片中多个探针对应一个基因,是求平均值还是保留最大值?

昨天差一个帖子,明天补上。在之前我写过一个帖子R语言学习路上的忆苦思甜里面讲的是各种分组计算的方法,最终在我的知识体系里,我觉得group_by联合summarise是分组计算的首选所以凡是这种需求,我都是这么做的。先创建一个极其简单的例子。data
2019年6月21日
其他

如何让你的基因放烟花

图一般都是静止的,R语言里面有很方便的工具让他们动起来。这个R包叫gganimate,他的作用就是让ggplot2画出来的图以某个因素,比如时间,动起来。时间在流逝,数据在变化,由于时间点太多,静止的图片表现力度比较差,换成动图表现力好很多。如果我们看到一张图比较炫酷,首先想到的应该是,我有什么数据能用这种方式来展示,说到底,还是自己手上要有数据。我想了一下,没有。没有就造一个,我们有癌症的数据,多个亚型,多个基因,也许能尝试一下。手上的数据是这样的:他有四列,分别是亚型,样本类别,基因名你,表达量。这是清洁数据,可以方便的用ggplot2画图。library(ggplot2)ggplot(test,aes(x=subgroup,y=expression,fill=subgroup))+
2019年6月15日
其他

R语言中性价比最高的函数以及最贵的函数

今天讲几个我喜欢的函数。1.性价比最高的函数t()中文名称转置,就是矩阵的行列转换先创建一个矩阵dd
2019年5月22日
其他

迷人的多参数批量函数mapply

今天的帖子,是对在R语言里面批量操作的总结:事情的起源来自于临床师弟的需求##
2019年5月13日
其他

R语言学习路上的忆苦思甜

今天的帖子是对昨天的补充,也算是对于分组批量操作的总结。昨天群里有人提问:如何对数据框进行多变量分组,分别求平均数?给出的原始数据是这个样子的##
2019年5月7日
其他

每一个R语言初学者都应该掌握for循环!

data.frame(t(bind_cols(map(split(x,x$Month),function(y){
2019年5月6日
其他

8秒完成2万个基因的生存分析,人人都可以!

我以前写过一个帖子TCGA真实数据下的批量生存分析心里很高兴,因为这是我学习生信后做的第一件像样的事,解决了我心里多年的麻烦。当时,正常运行20000个基因要花费50分钟。但是,今天,我10s钟就实现了。事情的经过是这样的。首先我们加载生存数据,也可以通过上次那个帖子来准备rm(list
2019年4月19日
其他

很有诚意!人人可做的转录组数据下游分析

现在转录组测个序大概是1000-2000块钱一个样,这个波动的范围取决于各个公司提供的服务,以及你们那个地区生信的普及程度。既然这么便宜,那么每个看到明确现象的实验团队都改尝试一下RNA-seq,说不定就给课题开了新的思路。转录组测序的分析分为上游分析和下游分析,简单区分就是,你有没有服务器。如果有,那就把上游分析给包了,这在以前不可想象,但是因为生信技能树这样的团体存在,推动了我国生物信息技术的普及,让生物信息不在遥不可及,而这本是国之重器们该做的事情。假如你没有服务器,也不要紧,Y叔的出现,使得下游分析变得十分简单。仅仅使用R语言,使用Y叔的神包clusterprofiler,坐在家里喝着咖啡,也可以搞定所有下游分析。我们今天的任务就是展示一下这个过程,抛砖引玉。首先,加载数据。load(file
2019年4月3日
其他

TGCA数据的标准化以及差异分析

前面我们从GDC下载了TCGA肿瘤数据库的数据,也能够把GDC下载的多个TCGA文件批量读入R今天我们讲一下TCGA数据的标准化,以及差异分析,得到了标准化后的数据,我们就可以按照以前的帖子,做一系列操作Y叔推荐的这个图有毒!图有毒系列之2多个基因在多亚组疾病中的展示在得到了差异分析的结果后,我们可以完成热图,火山图,GO分析,KEGG分析,GSEA分析,就跟这个帖子中的一样。来完成你的生信作业,这是最有诚意的GEO数据库教程下面开始今天的教程:首先加载上一次课获得的数据;###
2019年2月13日
其他

把GDC下载的多个TCGA文件批量读入R

上一次我们已经从GDC下载了TCGA肿瘤数据库的数据多个单独文件合并到单一文件夹但是下载是一个个压缩文件,更要命的是,这些压缩文件还藏在一个个单独的文件夹中。我在以前的一个帖子里讲述了,如何把这些压缩文件放在同一个文件夹中。TCGA提取非编码RNA并完成下游分析直觉告诉我们,一个个复制粘贴是可行的。对!有时候我们就是要凭着自己的直觉做事,这一次我们用更加简单的代码来实现这个功能(文末有免费操作视频)。首先所有的原始数据存在rawdata这个文件夹中,我们现在创建一个新的文件夹叫data_in_one,用来存放所有的压缩文件。dir.create("data_in_one")如果要用for循环来做这个事情,诀窍只有一个:你要清晰地定义,如何做一件事,你能做一件事,就能做多件事。实现一个,很简单1.
2019年1月23日
其他

从GDC下载TCGA肿瘤数据库的数据

我们之前演示了如何在自己有数据的情况下,借用别人的代码画图。乱花渐欲迷人眼,偷得浮生半日闲虽然简单,但是真的需要一点R语言基础技能。要不然再好的教程也是白费。比如这个来完成你的生信作业,这是最有诚意的GEO数据库教程看看底下的留言就能判断,这个是干货,是可用的。我还专门录制了一个导学视频,告诉大家如何把这个代码化为己有,但是依然有很多同学,无法流程运行,因为需要一点R语言基础。这完全比不上另外一个GEO教程,无代码芯片分析图文教程:每个人都可以做一做的生信第1题当时想了很多方法,终于跌跌撞撞地实现了无代码的分析,最终学生们也没有多大疑问,因为基本上没有bug。而两年过后,出现了很多自动分析的网站,但我已经没有动力再去制作无代码教程。回到今天的主题,作图的前提是要有数据,对于TCGA,已经有很多工具可以使用,但用别人开发的工具,意味着比别人慢一步。每一次,我都会讲最原始,也是最可靠的方法(专门录制了一个25分钟的视频)。在浏览器中输入TCGA,一般第一个就是我们需要的,网址如下https://cancergenome.nih.gov/点击进去,是这个界面:
2019年1月16日
其他

乱花渐欲迷人眼,偷得浮生半日闲

当我在线下培训别人的时候,我常常问自己一个问题:教什么才让让学员有真正的收获?第一个答案,画出漂亮的图。因为,开题需要,结题需要,发文章需要,拿基金需要,这简直就是刚需,最应该让学员学会。但是有困境,不知道他们需要什么图。那就直方图,箱线图,小提琴图,圈图,韦恩图统统教一遍。老师高兴,学生也轻松。但是,这个想法被我否决了,画图看起来重要,但是初学者最不应该学。初学者需要的是数据,最应该学的是清洗数据的能力。把数据调整到R包需要的格式,调个包,图就出来了。Y叔说过,数据就是图。我曾经开玩笑的说,不需要任何画图的技能,只要会复制粘贴,也能用R语言画出可以发表的图,现在演示如下:打开这个网站(http://www.sthda.com/english/),按照图中点击跳转后下来,我们看到很多五彩斑斓的图,眼睛都要迷失了,喜欢哪个就点开哪个。箭头所在的那个图,最能让人理解,我们点击进去。往下拉,一直拉到我们一开始看到的那张图。这一看,上面是代码框,那好办了,我们复制一下。在进行下一步之前,你最好还得有个称手的R语言环境。学习R语言,从这一课开始打开Rstudio,新建一个空的脚本文件鼠标点击第一行,然后不断点run,一行行运行这段代码,应该就有结果但是点着点着就报错了,提示“ggboxplot”这个函数找不到,应该是没有加载对应的R包。我们使用两个问号+ggboxplot的形式找对应的R包,名字就做“ggpubr”缺什么补什么,那就安装R包,并加载install.packages("ggpubr")library(ggpubr)这时候再来运行刚才复制过来的代码就没问题了。#
2019年1月9日
其他

学习R语言,从这一课开始。

我们从来不缺什么进取的心,只缺起码能走的路。临床医生学习生信,R语言是性价比最高的选择。想要学习R语言,首先要有一个称手的R语言工作环境。我以前更新过两个帖子,录了视频来讲这个事情。学习R语言,从这一课开始本身这也是线下学员的课前准备视频,随着服务的人数越来越多,我们在应付各种电脑和突发情况方面积累了大量的经验。对于新手而言,操作一个不熟悉的东西心里有很多不确定性,离线操作时,每一步都想要有个人在旁边确认,这跟第一次做实验时一样的,总希望自己的师兄师姐就站在旁边,不停地需要反馈。所以,我又忍不住,重新录制了一个30分钟的手把手教程(其中mac部分由洲更老师录制)。当你在完成这个视频后,就可以操作这个诚意满满的帖子。来完成你的生信作业,这是最有诚意的GEO数据库教程操作完成之后应该会有一点成就感我也同样录制了导学视频。接下来,你就可以对自己有个初判,是学还是留,假如你真的希望学习R语言,可以看看这个R语言的最好资源,一个就够!当掌握了基本的R语言能力后,有一本书可以看一下,我也讲了我的成长过程,大剂量短时程冲击疗法学习R语言,这本书必备。这时候回看这个帖子,可能收获更大。来完成你的生信作业,这是最有诚意的GEO数据库教程当然这仅仅是起步,后面还有很多路要走,我也是在摸索,希望和大家一起进步。我把R语言的安装教程以及GEO芯片教程的视频放在了一起。回复"果子学生信"即可获得。希望能给需要的朋友节约一点时间,我们知道新手起步的时候不能在坡上。
2019年1月3日