生信媛

其他

还好有记录,否则我还真以为2019年自己啥都没做

当我开始写2019年总结的时候,我一时间不知道自己在这一年中做了些什么,总感觉自己忙忙碌碌,但是一无所获。好在,我记录了,虽然不是以日记的形式,而是以一篇篇学习笔记的形式发布在网络上。当我将时间线拉回到2019年1月1日,然后慢慢向现在拉近时,我知道我这一年还是有一些进步的。第一件值得开心的事,应该是我的个人博客xuzhougeng.top在7月25日的时候又上线了。这是我在2019年年初就想做的事情,我想要把自己简书上的内容完全由自己掌控,不再被无故404,目前已经有3万多人次访问。其实搭建网站是我很小时候就想做的一件事情,那时候看到一篇文章写到用花生壳1元做自己的网站,就觉得这是一件很酷的事情。只不过无人指导,所以我一直在走弯路,但终于是把路走完了。第二个事情,应该是我的编程水平的提高。我从年初就决定去学习数据结构和算法,只不过断断续续,最终也就是知道了大概,LeetCode上面的题目刷的还是不够。我尝试在R语言中使用Cpp提高代码运行速度,希望克服对
2019年12月31日
其他

【答果子问】R语言如何用正则表达式提取特定的字符串

但是不包括括号这个问题来自于他的一篇帖子有些GEO平台的探针转换比较麻烦,
2018年12月11日
其他

bioconductor的安装方式变了,你知道吗?

"AnnotationDbi"))如果要用BiocManager安装Bioconductor包,你需要保证你的R语言版本大于3.5.0,
2018年11月7日
其他

天青色在等烟雨,网红博导的Paper在等你

Y叔者,潮州余氏人也,其名光创,取光耀其宗,旧弃新创之意。Y叔不负宗亲之望,执卷不辍,既取学士于华南农大,又得硕士于安徽医大,终加博士学位于港大,然今事博导于南方医大。先农后医,岂嫌农事之劳苦而慕医者之受崇乎?神农亲尝百草,始有医药;医者悬壶济世,造福生民。医农本无贵贱,况生信所事者多类农人,皆行样品准备,清洗,挖掘,收获,整理之事。故生信人亦数据农人,生信人数海淘沙,寻万物之理,求自然之道,窥天地之奥,登造化之极。史载古希腊尝有医者,名希波克拉底氏,发宏愿曰:尽余之能力与判断力所及,为病家谋利益。吾辈生信人亦叩首谨记。叔沉着内敛,不事昭彰,然名扬江湖,誉加四海,Github
2018年10月12日
其他

如何解决bioconductor下载困难问题

help.biocLite()是BiocInstaller的一个函数。而我们安装的时候,用的其实就是biocLite()。biocLite.R
2018年6月21日
其他

功能注释后如何做富集分析

的目的也是为了基于物种名和基因编号直接爬取KEGG,将基因编号转换成KO号。如果你只是为了做GO和KEGG富集分析,有必要构建物种数据库吗?我的答案是没有必要,因为不构建物种数据库也能够用
2018年5月29日
其他

这篇science文献让我想起了被考研英语支配的恐惧

由于被子植物在过去2亿年间不断发生的全基因组重复,同时还有大规模基因组丢失,这使得同一个祖先的基因谱系分散到了不同的染色体上,从而导致了基因组在大小上显著差别,以及即便是近缘物种上也有重排现象发生。
2018年1月22日
其他

TCGA大作战——初步分析RNA-seq数据03

首先,通过测序,每个实验组的基因表达都会以数值来计量,软件得知道你的表达数值才能计算差异(根据软件的不同,可以是原始数值(raw_counts),也可以是标准化后的数据),这个信息俗称表达矩阵
2017年12月31日
其他

ATAC-Seq 数据分析一文就够(上)

MN酶)处理染色质可以得到单个核小体。核小体是染色质的基本结构,由DNA、蛋白质和RNA组成的一种致密结构。组蛋白是由2个H3-H4二聚体,2个H2A-H2B二聚体形成的八聚体,直径约为10
2017年12月18日
其他

整个世界都是你的已知条件(生信学习心得)

要想成为音乐家,你必然要掌握一门乐器。但是掌握一门乐器是不够的,你还得继续深入,学习理论知识。只有这样子,当你进入一个酒吧,听到别人弹吉他的时候,你能够熟练用任何一门乐器和他进行配合。
2017年11月29日
其他

数据挖掘干货分享(1)

接下来我们将利用Google的sklearn对Adaboost进行测试,代码是我搬运的(略有改动,更简单),毕竟是经典的东西,怕我自己的代码丑到大家,注释是自己写的,爱你是亘古不变的
2017年10月20日
其他

从零开始学统计——第一期答疑篇

好的,现在我们再比较上例身高和体重两个指标的变异度,就要分别把它们的方差处理一下,让它们的量纲都为1,应该怎么做?是不是要选用各自的标准差,再分别除以各自的均值就可以了?这就是变异系数CV的意义了。
2017年10月16日
其他

数据挖掘干货分享

Databases的一个步骤,一般意义上的数据挖掘就是从海量的数据中,通过一定的支持算法,搜索隐藏在数据之间的关系。现代数据挖掘依赖于计算科学、统计学、情报检索、机器学习、专家智库等因素。
2017年10月13日
其他

生信小白,我是其中之一

。在如此多的积累之下,终于有一天我感觉自己迈过了生信初学者的门槛,不再像以前那么迷茫了。为了让自己的知识能够沉淀下来,于是我跟着转录组继续从RNA-Seq数据分析开始,传到这里便于自己不断修改。
2017年10月11日
其他

生信媛建群了。

后来,媛也想过要不要建立一个讨论群,毕竟大家还是很爱媛的。但自己一无足够的积累,而已有各类Q群,是否有必要再多一个,一直耽搁至今。
2017年10月8日
其他

写给生信公众号运营者的排版指南

机械键盘不是必须的,但是当你用过机械键盘打字之后,每次打字那种“啪啪啪”的感觉,总是会让你沉浸在这种写作的快感之中。当然买机械键盘的话,还是去店里面实际感受一下“啪啪啪”的效果,我目前用的是茶轴。
2017年10月6日
其他

生信软件安装神器

Anaconda是Python的科学发行版,它将各种科学计算工具整合到一个安装包之中,从而使得Python变得无比的强大,就像Linux本身也只是内核,通过整合不同的软件之后才会变得如何的实用。
2017年10月6日
其他

Bin, Bin, Bin!Map, Map, Map Now!(一)

还有,如果你对文章有什么不懂,并且留言难以表达的话,我们还准备了微信交流群哦。扫下面微信二维码添加好友,拉你入群,请注明姓名+生信媛+研究方向。备注不全,我们可能就不能通过好友申请了。
2017年10月3日
其他

进阶的生信媛

后来,媛也想过要不要建立一个讨论群,毕竟大家还是很爱媛的。但自己一无足够的积累,而已有各类Q群,是否有必要再多一个,一直耽搁至今。
2017年10月2日
其他

我在生信媛的200天里

biobabble(每次打这个单词,我都是要小心半天)的Y叔,他推荐的三本关于R语言绘图的叔,让打开新世界的大门,而且帅气得不像实力派,9个R包作者。
2017年10月1日
其他

生信媛养成记—实验汪自学生信之路-biostar handbook

虽然其中大部分人知道生信有用,有心想学,但每天实验到半夜累成狗,那有心情和时间自学编程,基本都没有读我推荐的书超过三页。此外,我要反思的是我推荐教材并不适多数人,反而把大家吓到了,不敢再学生信了。
2017年9月28日
其他

生信媛公众号文章目录

《课程21、22-使用samtools和FreeBayes进行变异的calling并用snpEff注释》
2017年9月26日
其他

生信蓝领,一个不舍得分享的高通量数据分析框架

snp-calling等都已经实现了自动化,这些部分如果再自己一行一行输命令,不但浪费时间,而且缺少重复性。因此,我希望有那么一个框架,能够帮我完成所有的上游分析,从而集中精力解决生物学问题。
2017年9月24日
其他

Biostar(大结局):课程29、30

ftp://ftp.ensembl.org/pub/release-77/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz #
2017年9月24日
其他

pandas包里面的一个bug

前几天进城碰到了生信媛,媛问:有朋自乡下来,能复写乎。猿答:大丈夫死且不避,区区公众号安足辞乎,待余文章接收,余定笔耕不辍,徐徐周更。生信媛白了猿一眼:不想写直接说,还说啥子文言文。
2017年9月23日
其他

听说你想学Python

也就是说当你理解了编程语言无非就是一门和计算机交流的工具,你就应该本着学习任何一门工具的态度,挖掘这个工具的本质。比如说Perl一行流处理数据。
2017年9月20日
其他

我的R包:zgtools使用指北

这个必须装,感谢Y叔提醒install.package("devtools")source("https://bioconductor.org/biocLite.R")#
2017年9月16日
其他

所有人问生信媛

open("C:/Users/DELL/Desktop/请教徐老师关于python的问题/blastx_getorf_xiaomi_candidate_lncRNA",'r') seq_len
2017年9月15日
其他

Biostar:课程27、28

http://cole-trapnell-lab.github.io/cufflinks/assets/downloads/cufflinks-2.1.1.OSX_x86_64.tar.gz tar
2017年9月14日
其他

比对软件STAR的使用—高通量测序数据处理学习记录(一)

1000000STAR的输出STAR可以根据你的参数设定输出多个结果文件,包含各种信息,下面对默认参数情况下的输出文件做了一个详细的展示,有些不好翻译的地方我选择使用原汁原味的manual
2017年9月13日
其他

Read Counts的提取—高通量测序数据处理学习记录(二)

https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz tar
2017年9月11日
其他

Biostar:课程25、26

https://github.com/arq5x/bedtools2/releases/download/v2.22.0/bedtools-2.22.0.tar.gz tar
2017年9月9日
其他

RNA-Seq选择参考基因组

qulity的设定,要知道RNAseq是反转录的数据,不可能没错误的;并且选择基因组参考序列时,要知道你要干嘛?只是想看个基因的表达,外显子表达,还是想发现新的转录本之类的。
2017年9月8日
其他

要来杯RNA鸡尾酒吗?

但这里,我们采用的是conda进行软件管理,为了保证环境的一致性和稳定性,我重新建立一个虚拟环境,国内用户可以需要添加清华镜像源提高下载速度(后面提到的配置文件里设置了清华镜像源)。
2017年9月8日
其他

编程语言 | R代码风格

每次写代码的时候,我总要纠结,这个变量叫啥名字,那个函数又要叫啥名字,于是半天过去了,代码居然一行都没写好。命名比较推荐的是用_分割不同单词,比如说code_style。当然驼峰式命名
2017年9月6日
其他

祝我生日快乐

当然我现在也想明白了,坚持不过也是一种矫情。刚好,这一年或许是我生长最多的一年,或许是我高中毕业后打字最多的一年了,记录了大量文字在我的简书,公众号,为知笔记,GitHub
2017年9月4日
其他

从NCBI下载测序数据 | 也许是目前最详细的版本

https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-ubuntu64.tar.gz tar
2017年9月1日
其他

Biostar:课程23、24

如果大家了解fastq的格式的话,一个spot就是指一条完整的测序信息,包含四个组成:名字、序列、+号(+号后面可以加别的说明信息)和测序质量信息。
2017年9月1日
其他

编程语言 | JavaScript 学习(一)

x=1形式声明的变量都是全局变量。如果一个页面有多个js文件,且都有相同的变量名,那么就会相互影响导致错误。因此ECMA在后续的规范推出了’strict’模式,在js文件前添加'use
2017年8月31日
其他

算法导论 | 循环不变式与插入排序

插入排序是最容易想到的算法,因为在平时最常使用。比如说在打扑克的时候,每次抽一张牌,和左手已经有的牌逐个比较,直到找不到更小的为止。R代码如下
2017年8月30日
其他

友军生信技能树居然要进军婚恋市场

我们会提供符合你标签的1~5人的联系邮箱,那些人的性别目前都是和你不一样的。虽然同性之间也有真爱,但是万一对方只对异性有感觉,那就尴尬了,所以就放弃这一想法。
2017年8月28日
其他

七夕快到了,我们做题目吧

一枚做工良好,重量分布均匀,一枚则不是。做工良好的那粒硬币出现正反面的概率都是相同的,而做工不好的那枚硬币则容易出现正面,概率约为3/4.
2017年8月27日
其他

如何用好MacOS(一)

caskroom/cask/electronic-wechat这是由网页版开源制作的macOS微信,Linux下也有。macOS还可以在App
2017年8月26日
其他

我想买一台Mac

曾在大三下半学期投入数据分析潮流学习之中,也在网易云课堂上参加过Python入门课程。结果Python未必打下基础,却喜欢上MacOS系统,因它UI设计和unix-like系统。
2017年8月25日
其他

Lecture 21 - 使用samtools进行变异的calling

#*这是一个python编写的程序,python用缩进来标明成块的代码,如果缩进有问题,程序也会出错。而微信公众号排版有时候会有一些问题,故建议查看原英文网站,确认自己的这个python脚本没问题。
2017年8月24日
其他

R:关系型数据库管理

负责与数据库进行交互,比如说与SQLite数据库交互要用到RSQLite,如果是MYSQL,则是RMYSQL
2017年8月23日
其他

科学网:如何姿势正确的抄袭他人代码?

Y叔的回应是:而ppiPre之所以可恶,就是因为违背了开源精神,改函数名、删注释等各种试图去抹除原作者的痕迹,并试图把代码当成是自己的,所以说啊,开源要说人抄袭也很困难,但ppiPre明显就是.
2017年8月21日
其他

一文学会ChIP-Seq数据分析(想想也不可能)

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE42nnn/GSE42466/suppl/GSE42466_Suz12_peaks_10.txt.gz gzip
2017年8月18日
其他

Biostar:课程19、20

http://sourceforge.net/projects/samtools/files/samtools/1.1/bcftools-1.1.tar.bz2
2017年8月17日
其他

课题做不下去怎么办(植物篇)?

当你遇到一扇锁住的大门的时候,你该如何打开它。你肯定不会盯着锁孔看,因为如果锁上插着钥匙,这一扇门早就可以打开了。你肯定是需要去其他地方找钥匙。
2017年8月16日