查看原文
其他

2022年6月_生信入门班_微信群答疑笔记

生信技能树 生信技能树 2022-09-10


做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的300个问答!

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

下面是2022年4月_生信入门班_微信群答疑笔记

上一期答疑笔记是: 2022年5月_生信入门班_微信群答疑笔记

课前答疑

Q1:R官网上不去了

换个网络环境,关掉科学上网,再不行就不要上R官网了,软件包在群公告网盘有

Q2:以前装过3.6版本的R,里面有很多package。网盘下载的R是4.1版本,直接点击安装就可以了吗,会和3.6版本冲突吗?

可以多个有版本,但会存在R包冲突的问题。一般是可以升级的

Q3:能否不卸载3.6,直接装4.1,成为两个独立的R?这样原来的资料还能保留下来

运行.libPaths(),设置不同的路径,网上搜一下教程。

Q4:请问我之前的R都装在E盘了,需要卸载重装到C吗?

建议卸载重装C盘

Q5:请问这代码没有视频里说的KEGG呢

现在更新,不需要了

Q6:请问这个warning是不是只是说明我的R版本老,但其实是包安好了

包确实是装好了

Q7:我之前的R是4.0.5的,没更新可以吗?不用重新再装4.1了吧

可以的话更新到4.1以上

Q8:能在手机上运行R吗

不能

Q9:钉钉上的课程回放可以看到什么时候呢?

一年


课中答疑

Q1:这是不是R版本低了,要去官网下载?

没报error就没事

Q2:新同学刚来班里报道,请问在哪里补前几节课呢

钉钉群右上角

Q3:练习题的第二题,我直接把中位数赋值给一个x,然后输出这个x行吗?

可以呀,没有区别

Q4:老师我听了回放,觉得我的这个问题就是您说的原因三

是原因4,removed。这个包已经过时,我们不再使用,看群公告答疑文档

Q5:平时工作中,经常需要实现:A表的某三列,根据病案号,匹配到B表。

你选的共同列不好,有重复值。

Q6:在补前两次课的笔记,对数据框取子集后的结果有点好奇,为啥数据框取行和列子集时,取出来的结果不一样呢?

数据框取子集,不写逗号只写数字[n]时,默认是取第n列,并且保留数据框这个数据结构

Q7:读取csv的时候,如果csv文件含有两个sheet,用test=read.csv得到数据框后,怎么分别提取两张sheet里的内容呢

打开方式决定了你可以新建sheet,csv本身应该是不可以有sheet,假如用记事本那种软件打开和excel格式是不一样的~能新建sheet是excel 的功能

Q8:请问各位老师同学,ID转换(from "gene symbol" to "ENTREZID"),提示有近20%没有转换成功。请问这是什么情况?

没关系,这个正常的哦

Q9:还想问一下,tidyr是不是有更新,gather函数被pivot_longer函数替换了。我看小洁老师CSDN的帖子https://blog.csdn.net/weixin_42960896/article/details/115047967里面cheatsheet截图有gather函数,我新下载的cheatsheet没有这个函数的说明。运行这两行代码结果也相同

宽变长函数有过多次更替,我只给你讲最新的,不用学甲骨文。这个教程过于古老了,是18年写的,这就是甲骨文。不用把一个R包里所有函数都学一遍

Q10:老师我这样提取怎么会找不到列呀?

是因为你取子集的方式有问题。中括号里不加逗号,是取列。但是你的代码是取行的,只需要在把你的代码放在[  ,]这个逗号左边就没问题了

Q11:老师,在开始的R包安装教程中,复制了写的代码,结果发现安装不了GSEABase,GSVA和clusterProfiler,错误显示为不存在叫‘GenomeInfoDbData’这个名字的程辑包,所以我又安装GenomeInfoDbData,还是没法安装,请问问题可能出现在哪?

因为报错的两个包只是装了,并不是装成功了。成功的唯一标准是library。

Q12:我重新安装了GenomeInfoDbData和AnnotationDbi,library之后还是显示不存在这个包

你没仔细看报错信息,这一步失败的,网络问题,下载不完整。重新安装

Q13:在使用代码保存图片的时候,如果这个图片很大(400个标本的热图),保存得到的图片比例,字体大小,甚至是图片的像素如何调整?

都有参数,帮助文档里找

Q14:请问老师,我这里的映射属性把color改为size,然后后边想更改size的颜色,为什么报错?

size是个属性,没有颜色这个参数。只有点的颜色,点的大小

Q15:各位老师同学们大家晚上好,我在做KEGG富集分析的时候一直提示”fail to download KEGG data...“,我去GitHub上查了,说是网络问题,我换了网络还是不行。所以请问这种情况应该如何解决?

换了网络也还是网络不行,还得接着换

Q13:请教老师,下面的理解是否正确:1 GeneRatio里的468是研究样本中测得表达有差异,而且被数据库收录的基因;2 GeneRatio里的19是前面468个基因与此行功能通路有关的;3 BgRation里的7916是数据库收录的所有基因,对应不同的功能通路;4 BgRation里的36是7916个基因里与此行功能通路有关的基因

对的。不是有关,是属于,基因属于当前通路

Q14:同样是富集分析,是否KEGG更注重于针对通路的富集分析,而GO更像是对基因的富集?会不会有些基因,同时参与不同通路?geneID里会不会有重复的基因?

都是找基因的归属。除了数据库背景知识的区别,没有别的区别。不会,不需要。你可以验证

Q15:自己生成Group的时候,是不是要先自己判断exp里对照组和实验组的前后顺序?假如前四列是对照,后四列是实验组,那Group里边就要control写在前,RA写在后;反之则要RA在前,control在后?

自己生成Group的时候,通常是匹配的,字符串匹配,有规律。假如前四列是对照,后四列是实验组,那Group里边就要control写在前,RA写在后;反之则要RA在前,control在后。

Q16:请问GEO单平台数据集的预处理是否都必须经过normalize?还是通过boxplot观察,差异特别大的才需要normalizeBetweenArrays处理?

这一个操作理论上不会改变什么,假如你是正常的,多处理一遍,不会改变的,假如你不正常的话,处理一下比较好。

Q17:在用tinyarray这个简化包的时候,错误提示GSE不是表达矩阵,但是我去GEO网站看确实是表达矩阵,怎么解?

应该是因为太新了吧,我们服务器没有收录。你加上一个参数叫byannoprobe=T,自动补齐一下,这样他就会从GEO网页给你下载了

Q18:老师这两个去重方式 都会下标出界

有两种可能原因

1.代码错了

2.你用的运行输入数据错了

仔细看看,前面有句load你没运行

Q19:请问我这个怎么没成功

你已经安装过一次,你如果想重新安装,就删除掉miniconda3这个文件夹再bash

Q20:装mamba显示冲突要怎么办

mamba不要安装在小环境哦,

Q21:老师,这是哪里出问题了

不需要去调用依赖库的帮助文档,直接调用你前面软件的帮助文档。这个软件libstdcxx-ng下载成功了就可以,不用查看帮助文档确定是否成功了

Q22:老师,这个问题啥意思

缺了一个依赖,你试试安装一下rvcheck

install.packages("https://cran.r-project.org/src/contrib/Archive/rvcheck/rvcheck_0.1.8.tar.gz",type = 'source',repos = NULL)

参考:https://github.com/GuangchuangYu/rvcheck

Q23:请问这样子salmon是装成功了吗?这个帮助文档就是这么短的吗?

成功了,但实际上,每一个软件,背后都是一篇论文,一般都会给出详细的文档,介绍其算法原理、代码实现等等,如果你嫌弃这个帮助文档太短,可以去查一下其对应的详细的文档

Q24:安装R语言软件包的时候因为一直没有安装完成,我使用ctrl+C 终止安装,然后就一直报错

你先运行一下 conda clean -a ,然后重新安装,如果还是无法解决,那你就退出这个环境,尝试删除或者新建其他名称小环境再安装

Q25:我想用 . 分隔字符串,怎么出不来结果呢

这是一个特殊字符,你需要\\转置一下

Q26:请教一下,建立软链接后调阅文件Homo_sapiens.GRCh38.dna.primary_assembly.fa出错,具体如下

读取链接的gff3和gft文件也会出现同样的报错

你的软链接有问题,原文件的目录不对

Q27:老师这是说我电脑配置不行还是服务器存储不够啊

你的服务器内存太低了

Q28:需要加上什么命令才能删除data1中符合条件的行?

Q29:请问,排序出现这种情况怎么办

你的数据不是数字,因此R没有按照数字处理,你可以先把它拆成两列,再按照数字排序。

Q30:请问在解压基因组序列及转录组序列时,总是exit(后台运行),是什么原因

内存不够了,学习的时候就用讲师目录的参考基因组

Q31:老师下载了一晚上的sra中断了,现在是得全部从头下载吗

建议删除没下完的文件重新下载,同时建议采取更高级的方法下载,比如用aspera下载fastq格式


优秀笔记

  1. https://www.yuque.com/docs/share/5b71c4b5-1f4c-46d5-a969-0c04c9034b72?# 《Day3-数据结构》-果子

  2. https://www.yuque.com/docs/share/3d72aa4b-2e35-4e34-96bf-79aeafc5780e 《初识转录组》-cecilia

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存