2022年3月_生信入门班_微信群答疑笔记
做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的300个问答!
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
数据挖掘(GEO,TCGA,单细胞)2022年5月场,快速了解一些生物信息学应用图表 生信入门课-2022年5月场,你的生物信息学第一课
老师,我的Rstudio 怎么只有两个窗口了,该怎么调呀?
方法一:Rstudio编辑菜单“View”->“Panes”->“Show All Panes”
方法二:输入“ctrl + shift + 9”
老师,我合并的文件输错了,点了run之后就这个样子了,我要怎么退出去才能显示大于号啊?
直接关掉重启。
上面那条是错的,下面的是正确答案,但不知道错哪儿了,老师有空帮我看一下啊,谢谢!
引号要用中文符。
5是一个数值,对它取非!,就是强制进行逻辑判断,非0数值均为TRUE,取了逻辑非就为FALSE,其他的一样,另外没有>!这个符号。
clusterProfiler包安装不成功,请问一下怎么解决?
你那个是网络问题,你可以看看,上面有一个文件,它的大小是20多兆,但是你下载下来只有15兆,这句话就是下载不完整的意思,是你的网络问题,你可以把安装代码重新运行一下就可以了。
老师好,我原先自学R的时候把笔记做在了一个R文件里,但是没有对应的project。今天我把这个R文件剪切到了另一个project下面后发现注释内容全部乱码了,用了网上的方法也都恢复不了,想请教一下老师有啥补救方法吗?
如果切换成UTF-8还是如此那就是文件损坏了。
老师,这两个的运算结果不同,老师上课说过可以省略函数中的一些指令,比如说seq中的from、to、by即可省略,这个省略了怎么结果就不一样了呢?
你前后两句代码,seq用的都一样,认清括号。
这里为什么不能加逗号呢?
一句完整的R语言代码最后不需要加逗号的,这是一个规定好的基本语法,没有为什么。
老师,order,按照描述order用于返回向量大小顺序的秩,但是这我的这个指令里,100才是最小的,秩应该是1呀,但是算出来却不是
这个不是秩
按文件试了好像还是不行啊 打不开网页
网络不好。不是你干别的没问题,装包就没问题的,换个时间试试吧。
group$cluster 的数据结构属于向量vector,元素类型属于数值numeric,我理解的对吗
对。
这里的‘flower’是默认会出现n次吗 老师
paste0里面还有那个y==x不等长的时候,有出现国循环补齐。
老师,按分数高低给小朋友名字排序为什么不可以写成kids[sort(scores)]
kids[ 需要坐标],取自己操作;sort(scores) 返回的并不是坐标,是排序的值本身;order(scores) 返回的 是坐标,他们是靠相同位置(也就是下标)对应到一起的,kids向量的第一个元素,对应scores向量的第一个元素,所以你只能通过下标把他们联系到一起。
老师,进阶内容有疑问的,有答疑吗?
不要担心太多,先好好听课。如果你有基础的话,你可以课后再去听回放,倍数播放。如果你基础已经很好了,那你可以看一下生信技能树b站你感兴趣的教程。有问题可以在群里问,但是如果你问的问题是你由于你基础不过关导致的,那还是要把基础课程看一遍。
老师,我的plot函数怎么图变成这种样子了,不知道按了啥了
就是这样子的,只是你对代码不够理解。基础函数plot,我们实际上用的不多,后面会讲专门的绘图函数。
老师,我这个VennDiagram包一直安装不成功,请教一下是什么原因
用管理员身份打开rstudio。
老师,这个是r的版本不行,所以没安装吗
这个是已经安装好了的意思 warning不用管 不是报错。
老师,请问上课的幕布思维导图有公开吗,没有找到
https://www.mubucm.com/doc/2RgtkfD33Eq
老师这个链接一直打不开是为哈子https://github.com/jmzeng1314/R_bilibili
你网络不好.GitHub确实有时候访问不了。但如果你是一直都访问不了的话,你应该换个网络环境。
老师,为啥我restart R session后右上方的data没有清空呢
如果你是想要清除这些变量 可以直接rm(list = ls())。
为啥我的镜像无法加载?
你那个镜像加载不了是很正常的事情,这个东西经常会出点儿错,一般来说重启一下就能解决。
这个问题里面,为什么df[,gene]出来的格式不是:gene1.gene12 gene23 gene34 gene4?而下面df[c("gene","change")]出来的就是两列?
因为只提取出来一列的话,没有必要留着一个数据框的形式,那数据框里面是只有一列,是不是有点浪费。数据框这个属性,如果你想要让他只有一列的话,那也是可以的,你就是把F中括号儿,逗号儿基因那个逗号儿给去掉,它就会留着了,你觉得有必要的话,你就去调一下呗。
这个如何解决?
你自己翻译一下它的英文说了个啥意思,然后就是我教你的判断,一个R包是否安装成功的标准是啥,你用那个标准来验证一下他是不是成功了。好吧,做完给我个反馈。
老师,我想起来了,我这个是上课前群公告里按照指导视频安装的很多R包,因为当时电脑用户名里有中文,所以修改了后面两个环境变量,然后以管理的身份运行才把R包都下下来,所以library报错是没有问题因为已经有包了,但当我重新install的时候还是一直报错,不能识别中文用户名,那是不是我以后想下载其他的R包都下载不了啊。用户名可以改成英文的吗?
关掉Rstudio,然后在Rstudio图标右键,管理员打,户名是不能改的,不然会带来比较严重的后果。
老师,我在将数据导出成pptx格式的时候,发现那个火山图出来的pptx可能因为数据点太多,导致程序动不了了,有什么好的解决办法不?
点太多了,几万个可编辑元素一起上,扛不住就对了,导出成pdf格式 在ai中打开。
老师 我用pheatmap做了这张热图,想把这张热图中右边高表达的放在上面,应该怎么设置参数实现呢?
没这个必要的。如果非要做的话,需要调整聚类顺序,比较细致,热图帮助文档里没有,你可以冲浪搜索探索一下。
老师,我画了一张热图,想用topptx函数保存图片,结果报错了,是哪里除了问题呀?
想用右下角面板的export导出图片,也是出现了报错
好像是路径中有中文字符,试试保存到没有中文字符的路径。或者把project移动到没有中文字符的路径。
老师,为啥我png了之后能生成文件,但是打开是一片白板?我在右下角的panel里面直接点右键保存成图片
png三段式,先png,再画图,再dev.off。
老师您早上发的GSE18864的step1.R中有个错误,这个变量phe之前应该没有定义过?
以及step4.R中ggsave前面多了+?分开运行就是可以的……
再想请教一下,这一步是什么意义呀?而且我一直报错……
删除它。
对的。
kegg联网问题。
老师,我电脑360刚刚说这个文件有毒,直接给我删了,我现在再library("HDF5Array")这个包就报错了
重启电脑,然后关掉360等所有杀毒软件,除了win10电脑自带的杀毒软件。
请问始终连接不上KEGG数据库怎么办……
试试换个网络环境,手机热点,把电脑设置里面的代理关掉。
老师,请问单细胞和转录组分析的资料能不能提前发一下?
5套单细胞数据分析代码,腾讯微云里面:https://share.weiyun.com/R4F8i9Hu
老师,我这个PCA图用上课时候的代码运行的,分组只有RA,PCA图做出来也没有control 组
你只换了数据,不改代码,怎么可能不错呢?
难道所有的数据都是RA和control两个组?
并且所有数据都有sourcename列?
那一列里面也都有一个关键词叫control?
RA是类风湿性关节炎,列名和关键词要自己根据实际情况灵活的换,无脑运行在这里行不通。
然后你没学会str_detect这个函数,需要补补上周二的课,或者看看帮助文档。
老师我卡在第一步了, 好像是我的密码不对
登录名,ip,密码是3个不同的东西,你可以通过ssh来登陆我们生信技能树的服务器,使用下面的命令
ssh Mar20@49.232.173.27
然后你的密码是:
老师,请问还在后面爬的人后期听Linux的录播课会有影响吗,我听说有服务器虚拟机之类的东西,但是没学过,不知道听录播课和直播课效果会不会不同
理论上没有影响,除非你也是负基础,而且你也每天只花一个小时学习我们的四个小时的授课内容
老师,我想问一下文件夹Data后面的/,什么时候需要加/,什么时候不加/?cp readme.txt Data/ 和cp readme.txt Data有什么区别?
应该是都可以省略。Data/指明你复制到路径下去了 Data目录如果不存在 会变成readme.txt 复制成Data文件
为什么这里排序10在2前面啊,有办法改一下吗
因为file1,file10前5个字符一样,所以排在一起。
老师,这里是输入我自己电脑的密码吗?进不去
你的用户名输错了
老师我这是什么问题
你没有Data这个文件夹
这个好像就是小写的s把
只需要查看一下帮助文档就能知道~ls --help,确实是小写
为什么把^I替换为;以后显示两个;
因为 tr 只是替换单个字符,命令认为你要把 ^ 和 I 替换成 ; 。等后续我们学习了 sed 命令,你再试。
老师,我想问一下,像这样用tr把文件里的字符替换之后再用>重定向给源文件,为什么源文件就空了呢?我重定向给一个新的文件名就没问题
这是一个无解的问题,就是不能把同一个文件给重定向了,没有为什么的。你可以理解为系统为了数据安全起见,保留原始文件
那我用cut直接提取f=1的时候,第一列数据都被提取出来。那是说明默认就是按照制表符来提取吗?因为我cat-A的时候看到第一列和第二列之间的符号是^I,我还以为这两列之间的制表符是^I
是的 ,cut 命令的默认分隔符就制表符 \t。后面我们学其他命令就不一定了。你可以理解为,cat -A 会把一个看不见的制表符替换成看得见的^I,因为已经被替换,所以信息已经变了
想问一下,录播里老师说ll -thr的最新文件会放在最下面,而ll -th的最新文件会放在最上面,为什么感觉我输入的时候的显示是反的
你对新旧的理解不一样,时间离现在越近就是越新。
助教老师,我liabrary(tinyarray)出现的这种错误是什么意思?查一下说是路径设置有问题
dll报错,大概率是杀毒软件导致的,关掉杀毒软件,重新安装这个依赖包 GOSemSim。
是的
怎么退出R啊 bash好像没用
q()
老师,请您帮我看看我的错误。我安装后显示三个done,但是library(org.Hs.eg.db)出错
你要先输入一个R进入到R的环境里,再library()哈。
安装的时候,每次都要设置镜像吗
设置镜像第一次完成就可以了的,之后都不用管了。小环境是每次都要激活的哦
^I是制表符还是空格?
制表符。空格在cat -A和vim的:set list之后都还是显示空格的。
我用conda命令装R包,一直停留在executing那里不动了
根据前面同学的经验,似乎只要等一会儿就好了。
我是下载好了的,但是加载不出来
缺少一个依赖包 手动安装一下就可以了。
老师,请问conda install -c参数是什么意思啊
指定 channel 。
老师,我也是这个包安装不了
安装依赖包DOSE
这会服务器频繁掉线,是我网络的问题嘛
一般不会频繁掉线。检查自己的网络
我复制了答疑文件中的两行代码,但是没有用。我直接把mamba的命令换成了conda可以了,不知道这么做有没有什么问题。
只要能解决问题,那就没有问题
请问一下,我进入R里面用R的方法装,我是不是要制定一下报的位置
选择 yes
这个如何解决
可以忽略这个提示,实际上成功了
要先create
我的一个环境一直遇到这个报错,然后也没法将环境整个删除也不行,应该怎么办呀
CorruptedEnvironmentError: The target environment has been corrupted. Corrupted environments most commonly
occur when the conda process is force-terminated while in an unlink-link
transaction.
我上课的时候也遇到了这个问题,我后来是直接把整个miniconda3的文件夹给删了,重新安装过就可以了
安装fastqc报错
那可能是安装了某些程序导致环境冲突了,建议你新建一个新的环境,重新安装软件。
我装salmon的时候遇到这个报错,可以请老师帮忙看一下嘛?(我是装在自己买的云服务器上的)
这个问题授课提到的,有一个error pdf。上课的ppt提到过三种解决办法的,可以去回顾一下哦
这个内容没有完全掌握,会影响转录组数据分析流程的学习吗
会有一点影响,我仍然建议尽量跟上。并不是要所有的知识都完全掌握,因为我们的学习本身就是一个间歇式的,我们欠缺的那些知识点可以靠一些逻辑能力去弥补
我最近读到几篇关于TCR测序的文章。就是既然我们都有WES或者WGS,我们为什么要专门的进行TCR-seq。WES不应该也可以测到TCR序列吗?
可以,但是太少了,tcr或者bcr测序,可以测一千多万个b和t细胞的 cdr3区域,非常丰富,但是wes或者rna-seq会分担给两万个基因,所以在cd3r上面的少得可怜哦。
老师,这个图我已经能出结果了,不过为什么lable出来的总是setosa和virginica的P值呢?我是说最上方的Kruskal——Wallis p值和下面不一样
上面是三组总体,下面是你画的那两个组,所以不一样,也不该一样。
所以label只能是三组总体吗?可不可以是我指定的两个组呢
如果你只要两个组的话,你不要那个顶上那个label不就可以吗?对吧,你把那个label隐藏掉不就行吗?如果你要让它显示一样的,那两个一样的数字显示两次有什么意义吗?我想作者应该没有考虑这么奇怪的需求吧,你可以试着把它隐藏掉就可以了
我这用mamba搜索怎么回事
你这个是缺少依赖库. 不过你拍的照片不够全, 我看不出来缺了啥, 你有空重新提供个截图哈. 如果mamba用不了的话, 就还是用conda就好
mass是质量
老师,这个上课的时候没有听懂是啥意思
nr是行号,就是每隔4行做一件事情,读取一个文件,如果有100含,你就需要对其中的25还做一些事情。
老师,按理说head example.gtf |sed -n 's/HAVANA/ENSEMBL/p' | less -SN 因为我没有加g这个flag,那不是应该只替换第一个HAVANA么?为什么我看还是都替换掉了?
sed是以行为单位的,这里说的第一个是每一行的第一个的意思
为什么这里要加个p才可以呢,直接2~4不行呢
p是打印,sed要给他动作才知道要干啥,你不给他p他就不知道你到底让他干啥。
老师 我可能上次异常退出vim,再次打开后出现这种情况,我应该如何处理呢?
你可以先按 Q 退出,然后 ls -alh 查看隐藏文件,应该有个同名的 swp 文件,删除掉
老师,这个里面加了|tac并没有变化,并没有倒置啊
你的截图里第二个代码,那就只有一行,一行不管你怎么上下倒着输出,不都是一样的,对么?tac是处理多行之间的倒置的 rev是处理行内倒置的
这是有什么错误吗?
nohup之后有这句提示的,没错,你按一下回车就好了
出现Exit是我之前出了什么错吗?
嗯,应该是有某些问题,查看一下log
请问sed只是处理管道符传递过来的前10行数据吗?
因为head只输出前10行呀,管道符只能把前面的输出内容传递给后面,所以后面sed接收到的就只有10行。
老师 ,请问想把循环后的结果,每三行合并为一列 paste后面要写什么代码?
paste - - -
老师,我有个问题想请教一下,像这种下载下来的表达矩阵不是全空的也没有负值,但是有一部缺失值的,这种情况应该怎么处理
正常的矩阵也不应该有缺失值,一个是用零填充上,试试看结果怎么样,然后第二个选择就是把含有na的行全部去掉,第三个选择是处理一下原始数据。
弱弱地问一个问题,在进行条件句命令的时候,回车之后发现上面一句写错了,要怎么修改啊?光标移不过去,难道要ctrl+C么?
有一些快捷键 比如Ctrl A可以快速把光标切到命令开头,也可以在别的可以通过鼠标移动光标的软件写好再复制过来运行。
老师,最近我送了一批人的样本做了测序,公司要我指定分析时使用的参考基因组,不然他们会默认使用他们公司自己常用的分析版本基因组。想问一下这个参考基因组一般怎么进行选择呀?目前课程好像还没提到这个,所以提前想问一下。
公司默认的一般都还行 人的参考基因很成熟了 一般都是GRCh38版本。
我在原文件里面可以用zless命令查看,但是软链接到自己的文件夹就会出这个错,请问是为什么呀
提示信息说你这个文件是软链接过来的,而且软链接的文件路径太多层了,相对路径太长了,它识别不到。重新软连接一下,直接软连接文件,如果还不行,就直接查看原始路径。
老师请问这里为什么会报错呢?我是在英文输入法下输入的代码。
括号前面加个c
老师,为什么我出来的重复值这么低,跟你们课堂里面演示的不一样?
因为这个只是测试数据,主要是让大家熟悉这个数据处理流程,等学会了,可以去处理自己的真实数据,
麻烦助教帮我看一下这是这么回事
我试了一下 可以登录 重新输入一下密码,密码可能输错了。下次记得保存一下账号密码 就不用每次输入密码了 除非你改密码啥的
想请教一下,这个PCA之后的“每个主成分对应基因的热图”应该怎么看呀,第一个主成分对角颜色那么分明,是单纯因为第一主成分方差最大嘛?
第一主成分方差最大,所以它才是第一,后面的主成分就越来越弱了
我用hisat2建立了一次索引后,以后再做比对,是不是可以一直用了
对。
老师请问这句代码的报错是因为修改向量中单个元素时赋值符号右侧不可以是向量只能是要替换的元素对吗?
因为你打的是中文引号,每一个练习题都有答案讲解,做完了可以先听讲解,对比正确答案和你的答案 ,多多思考
问一个特别弱的问题,网上暂时没搜到。就是nohup挂起后,怎么重新开始新的命令行啊?按q不行。运行之后,显示的是一个光标,而不是新的命令行$
nohup之后要加&,或者你多按两下回车,nohup会有一个提示的,要按多按几下回车才可以
请问一下一个进程挂在后台了,怎么暂停和恢复啊
挂后台了一般就不进行暂停和恢复的操作了哈,如果不想运行了直接kill掉就可以了
老师好,想问一下,我可以用 别人已有的转录组数据,去解释 我已经做好了的 不同科的生物的生理现象吗,就拿别人的数据再重做一次转录组分析
可以
课程能反复看嘛,上个月搞国基金,这个月闭环在外,电脑都不在身边
一年内反复看
请问一下看录播的后期有啥问题也可以继续提问吗
当然欢迎啊, 来龙去脉,图文并茂的描述你的问题,我们一起讨论进步
老师,练习用的服务器后续还能用吗
上课练习服务器,一般有效期是两个月,实际上我们很久才清理一次账号,但是建议大家不要在练习服务器上保存重要数据
老师,我也报了两个班,怎么进另一个群呢
小助手有拉大家进群了
老师请问为啥这道题我把参数设置成有多个元素的数值型向量就报错了呢?
sd函数不能接受3个参数,把它们c起来
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
数据挖掘(GEO,TCGA,单细胞)2022年5月场,快速了解一些生物信息学应用图表 生信入门课-2022年5月场,你的生物信息学第一课