2022年6月_生信入门班_微信群答疑笔记
做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的300个问答!
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
数据挖掘(GEO,TCGA,单细胞)2022年暑期班(收官之作),快速了解一些生物信息学应用图表 生信入门课-2022年暑期班(收官之作),你的生物信息学第一课
上一期答疑笔记是: 2022年5月_生信入门班_微信群答疑笔记
课前答疑
Q1:R官网上不去了
换个网络环境,关掉科学上网,再不行就不要上R官网了,软件包在群公告网盘有
Q2:以前装过3.6版本的R,里面有很多package。网盘下载的R是4.1版本,直接点击安装就可以了吗,会和3.6版本冲突吗?
可以多个有版本,但会存在R包冲突的问题。一般是可以升级的
Q3:能否不卸载3.6,直接装4.1,成为两个独立的R?这样原来的资料还能保留下来
运行.libPaths(),设置不同的路径,网上搜一下教程。
Q4:请问我之前的R都装在E盘了,需要卸载重装到C吗?
建议卸载重装C盘
Q5:请问这代码没有视频里说的KEGG呢
现在更新,不需要了
Q6:请问这个warning是不是只是说明我的R版本老,但其实是包安好了
包确实是装好了
Q7:我之前的R是4.0.5的,没更新可以吗?不用重新再装4.1了吧
可以的话更新到4.1以上
Q8:能在手机上运行R吗
不能
Q9:钉钉上的课程回放可以看到什么时候呢?
一年
课中答疑
Q1:这是不是R版本低了,要去官网下载?
没报error就没事
Q2:新同学刚来班里报道,请问在哪里补前几节课呢
钉钉群右上角
Q3:练习题的第二题,我直接把中位数赋值给一个x,然后输出这个x行吗?
可以呀,没有区别
Q4:老师我听了回放,觉得我的这个问题就是您说的原因三
是原因4,removed。这个包已经过时,我们不再使用,看群公告答疑文档
Q5:平时工作中,经常需要实现:A表的某三列,根据病案号,匹配到B表。
你选的共同列不好,有重复值。
Q6:在补前两次课的笔记,对数据框取子集后的结果有点好奇,为啥数据框取行和列子集时,取出来的结果不一样呢?
数据框取子集,不写逗号只写数字[n]时,默认是取第n列,并且保留数据框这个数据结构
Q7:读取csv的时候,如果csv文件含有两个sheet,用test=read.csv得到数据框后,怎么分别提取两张sheet里的内容呢
打开方式决定了你可以新建sheet,csv本身应该是不可以有sheet,假如用记事本那种软件打开和excel格式是不一样的~能新建sheet是excel 的功能
Q8:请问各位老师同学,ID转换(from "gene symbol" to "ENTREZID"),提示有近20%没有转换成功。请问这是什么情况?
没关系,这个正常的哦
Q9:还想问一下,tidyr是不是有更新,gather函数被pivot_longer函数替换了。我看小洁老师CSDN的帖子https://blog.csdn.net/weixin_42960896/article/details/115047967里面cheatsheet截图有gather函数,我新下载的cheatsheet没有这个函数的说明。运行这两行代码结果也相同
宽变长函数有过多次更替,我只给你讲最新的,不用学甲骨文。这个教程过于古老了,是18年写的,这就是甲骨文。不用把一个R包里所有函数都学一遍
Q10:老师我这样提取怎么会找不到列呀?
是因为你取子集的方式有问题。中括号里不加逗号,是取列。但是你的代码是取行的,只需要在把你的代码放在[ ,]这个逗号左边就没问题了
Q11:老师,在开始的R包安装教程中,复制了写的代码,结果发现安装不了GSEABase,GSVA和clusterProfiler,错误显示为不存在叫‘GenomeInfoDbData’这个名字的程辑包,所以我又安装GenomeInfoDbData,还是没法安装,请问问题可能出现在哪?
因为报错的两个包只是装了,并不是装成功了。成功的唯一标准是library。
Q12:我重新安装了GenomeInfoDbData和AnnotationDbi,library之后还是显示不存在这个包
你没仔细看报错信息,这一步失败的,网络问题,下载不完整。重新安装
Q13:在使用代码保存图片的时候,如果这个图片很大(400个标本的热图),保存得到的图片比例,字体大小,甚至是图片的像素如何调整?
都有参数,帮助文档里找
Q14:请问老师,我这里的映射属性把color改为size,然后后边想更改size的颜色,为什么报错?
size是个属性,没有颜色这个参数。只有点的颜色,点的大小
Q15:各位老师同学们大家晚上好,我在做KEGG富集分析的时候一直提示”fail to download KEGG data...“,我去GitHub上查了,说是网络问题,我换了网络还是不行。所以请问这种情况应该如何解决?
换了网络也还是网络不行,还得接着换
Q13:请教老师,下面的理解是否正确:1 GeneRatio里的468是研究样本中测得表达有差异,而且被数据库收录的基因;2 GeneRatio里的19是前面468个基因与此行功能通路有关的;3 BgRation里的7916是数据库收录的所有基因,对应不同的功能通路;4 BgRation里的36是7916个基因里与此行功能通路有关的基因
对的。不是有关,是属于,基因属于当前通路
Q14:同样是富集分析,是否KEGG更注重于针对通路的富集分析,而GO更像是对基因的富集?会不会有些基因,同时参与不同通路?geneID里会不会有重复的基因?
都是找基因的归属。除了数据库背景知识的区别,没有别的区别。不会,不需要。你可以验证
Q15:自己生成Group的时候,是不是要先自己判断exp里对照组和实验组的前后顺序?假如前四列是对照,后四列是实验组,那Group里边就要control写在前,RA写在后;反之则要RA在前,control在后?
自己生成Group的时候,通常是匹配的,字符串匹配,有规律。假如前四列是对照,后四列是实验组,那Group里边就要control写在前,RA写在后;反之则要RA在前,control在后。
Q16:请问GEO单平台数据集的预处理是否都必须经过normalize?还是通过boxplot观察,差异特别大的才需要normalizeBetweenArrays处理?
这一个操作理论上不会改变什么,假如你是正常的,多处理一遍,不会改变的,假如你不正常的话,处理一下比较好。
Q17:在用tinyarray这个简化包的时候,错误提示GSE不是表达矩阵,但是我去GEO网站看确实是表达矩阵,怎么解?
应该是因为太新了吧,我们服务器没有收录。你加上一个参数叫byannoprobe=T,自动补齐一下,这样他就会从GEO网页给你下载了
Q18:老师这两个去重方式 都会下标出界
有两种可能原因
1.代码错了
2.你用的运行输入数据错了
仔细看看,前面有句load你没运行
Q19:请问我这个怎么没成功
你已经安装过一次,你如果想重新安装,就删除掉miniconda3这个文件夹再bash
Q20:装mamba显示冲突要怎么办
mamba不要安装在小环境哦,
Q21:老师,这是哪里出问题了
不需要去调用依赖库的帮助文档,直接调用你前面软件的帮助文档。这个软件libstdcxx-ng下载成功了就可以,不用查看帮助文档确定是否成功了
Q22:老师,这个问题啥意思
缺了一个依赖,你试试安装一下rvcheck
install.packages("https://cran.r-project.org/src/contrib/Archive/rvcheck/rvcheck_0.1.8.tar.gz",type = 'source',repos = NULL)
参考:https://github.com/GuangchuangYu/rvcheck
Q23:请问这样子salmon是装成功了吗?这个帮助文档就是这么短的吗?
成功了,但实际上,每一个软件,背后都是一篇论文,一般都会给出详细的文档,介绍其算法原理、代码实现等等,如果你嫌弃这个帮助文档太短,可以去查一下其对应的详细的文档
Q24:安装R语言软件包的时候因为一直没有安装完成,我使用ctrl+C 终止安装,然后就一直报错
你先运行一下 conda clean -a ,然后重新安装,如果还是无法解决,那你就退出这个环境,尝试删除或者新建其他名称小环境再安装
Q25:我想用 . 分隔字符串,怎么出不来结果呢
这是一个特殊字符,你需要\\转置一下
Q26:请教一下,建立软链接后调阅文件Homo_sapiens.GRCh38.dna.primary_assembly.fa出错,具体如下
读取链接的gff3和gft文件也会出现同样的报错
你的软链接有问题,原文件的目录不对
Q27:老师这是说我电脑配置不行还是服务器存储不够啊
你的服务器内存太低了
Q28:需要加上什么命令才能删除data1中符合条件的行?
Q29:请问,排序出现这种情况怎么办
你的数据不是数字,因此R没有按照数字处理,你可以先把它拆成两列,再按照数字排序。
Q30:请问在解压基因组序列及转录组序列时,总是exit(后台运行),是什么原因
内存不够了,学习的时候就用讲师目录的参考基因组
Q31:老师下载了一晚上的sra中断了,现在是得全部从头下载吗
建议删除没下完的文件重新下载,同时建议采取更高级的方法下载,比如用aspera下载fastq格式
优秀笔记
https://www.yuque.com/docs/share/5b71c4b5-1f4c-46d5-a969-0c04c9034b72?# 《Day3-数据结构》-果子
https://www.yuque.com/docs/share/3d72aa4b-2e35-4e34-96bf-79aeafc5780e 《初识转录组》-cecilia
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
数据挖掘(GEO,TCGA,单细胞)2022年暑期班(收官之作),快速了解一些生物信息学应用图表 生信入门课-2022年暑期班(收官之作),你的生物信息学第一课