学习三维基因组数据处理前的准备工作
毫无疑问,处理数据的首要条件是理解数据从产生,对应到我们这个系列,也就是了解三维基因组的背景知识,如下:
看完我昨天的笔记,大概知道三维基因组不只是一种技术,但是最流行的当属Hi-C系列和ChIA-PET啦,也知道三维基因组可以探索基因组之间的互作关系,通常是分析loop和TAD,还有component等等,其中的流程下一讲再公布。
生物信息学基础
我们来先了解一下要想处理这些数据我们必须要有哪些生物信息学基础知识,毕竟还不会走路就排名想跑起来只能算是妄想,勉强动起来也只能是摔得鼻青脸肿!
我在上面的入门指南其实介绍的非常清楚了必备知识,而且本次武汉菲沙基因的培训课程安排也是如此,昨天一直在试图普及三维基因组的背景知识,包括其前世今生和未来展望,已经该技术与其它各种ngs组学技术的结合在各种生物学领域的应用。所以今天应该是普及生物信息学基础知识,也就是linux和R语言。
但是我本人在这方面的经验实在是太丰富了,所以实在是想不到留下来的理由,就旷课一天回老家看看侄女侄子咯,这里就精选几个之前我们的linux和R语言的肺腑之言!
首先是linux
(去可视化概念+练习) 了解 命令+参数+文件 的模式
基础知识:cd -, cd .. , cd -, history, !5 , /home/ , /tmp/ , >,&,jobs,nohup 1,2,0
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp,
用户权限:chown,chgrp,groups,ls
文本操作:awk,grep,sed,paste,cat,diff,wc,vi
可以选择使用腾讯云实验室的免费linux服务器或者干脆购买一个最低配版本云服务器,应该是十块钱一个月。
参考 生物信息学常见1000个软件的安装代码! 来安装软件,至少安装100+软件,力图掌握其中的规律,然后就 可以使用conda,都是需要学习掌握的。
如果学完了,理论上你看下面的总结应该是有茅塞顿开的感觉。
然后是R语言
时刻牢记学习R语言是为了分析生物信息学数据,不要跑偏了。
约翰•霍普金斯大学的Bioconductor学习课程
a Little Book of R for Bioinformatics!
比如掌握R语言后,可以在GEO数据库的海洋里遨游,那么你应该是可以看懂下面的教程:
有了R语言基础,就可以非常轻松的使用各种R包来辅助三维基因组数据处理啦。
理论上还需要会一点perl和python语言,因为三维基因组数据处理过程中会使用到通过perl和python语言编写的软件,不过时间很紧张,而这些基础知识通常是需要半年以上的训练才能算是掌握,这里就先跳过。
明天就开始我们的实战,敬请期待哦!
猜你喜欢
生信基础知识大全系列:生信基础知识100讲
(包括统计学,测序原理,生物学,计算机基础,绘图及可视化,医学)
生信小技巧系列B站高清视频:
https://www.bilibili.com/video/av25131640/
生信小技巧第09课-生信基础资料大全 这些资料长期有效。
史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。
使用R语言做GEO数据挖掘全套教程,免费:奶茶舍不得,GEO还是可以聊的
服务器看 代办生物信息学服务器 明码标价,全新配件京东可查,有需要的朋友,加我微信下单:招学徒 (微信在这里面)
当然了,阅读原文有惊喜!!!