生信媛

其他

中山二院某实验室癌症发病率是否过高?

近期看到中山二院的新闻,看到《情况说明》提到:乳腺肿瘤中心实验室于2009年启用,至今培养超过200名学生。成立以来,实验室一直严格按照规范统一管理,对所有实验人员都有开展实验前安全和规范操作培训。针对公众对实验室安全管理的关切,我院将一如既往守好安全红线,并自觉接受上级主管部门检查监督,也感谢网民对我们提出意见建议。针对将患癌与实验室或者试剂接触进行关联的关切,鉴于个体癌症发生的诱因极其复杂,诚挚欢迎有关部门组织第三方机构进行评估调查。“鉴于个体癌症发生的诱因极其复杂“,我们可能无法真切知道什么因素导致了这三位科研人员的癌症发生。但是我们是否有可能通过跟癌症发病率跟这个实验室的发病率进行一个统计检验,从而推断这个实验室的环境是不是很可能有点问题?比较合适的比较数据可能是控制变量,只有实验环境不一样。但是这样的数据基本不可能找到。可能是我找数据的时间投入较少,我也没搜到同一个年龄段的广州的癌症发病率。而是找到一个全球的数据作为一个简单计算。数据来源:http://www.phirda.com/artilce_27200.html?cId=1简单起见,这里用发病率最高的乳腺癌城市人口中的发病率进行推算出一个保守的概率。乳腺癌频率:非乳腺癌频率
2023年11月8日
其他

还好有记录,否则我还真以为2019年自己啥都没做

当我开始写2019年总结的时候,我一时间不知道自己在这一年中做了些什么,总感觉自己忙忙碌碌,但是一无所获。好在,我记录了,虽然不是以日记的形式,而是以一篇篇学习笔记的形式发布在网络上。当我将时间线拉回到2019年1月1日,然后慢慢向现在拉近时,我知道我这一年还是有一些进步的。第一件值得开心的事,应该是我的个人博客xuzhougeng.top在7月25日的时候又上线了。这是我在2019年年初就想做的事情,我想要把自己简书上的内容完全由自己掌控,不再被无故404,目前已经有3万多人次访问。其实搭建网站是我很小时候就想做的一件事情,那时候看到一篇文章写到用花生壳1元做自己的网站,就觉得这是一件很酷的事情。只不过无人指导,所以我一直在走弯路,但终于是把路走完了。第二个事情,应该是我的编程水平的提高。我从年初就决定去学习数据结构和算法,只不过断断续续,最终也就是知道了大概,LeetCode上面的题目刷的还是不够。我尝试在R语言中使用Cpp提高代码运行速度,希望克服对
2019年12月31日
其他

【答果子问】R语言如何用正则表达式提取特定的字符串

但是不包括括号这个问题来自于他的一篇帖子有些GEO平台的探针转换比较麻烦,
2018年12月11日
其他

bioconductor的安装方式变了,你知道吗?

"AnnotationDbi"))如果要用BiocManager安装Bioconductor包,你需要保证你的R语言版本大于3.5.0,
2018年11月7日
其他

天青色在等烟雨,网红博导的Paper在等你

Y叔者,潮州余氏人也,其名光创,取光耀其宗,旧弃新创之意。Y叔不负宗亲之望,执卷不辍,既取学士于华南农大,又得硕士于安徽医大,终加博士学位于港大,然今事博导于南方医大。先农后医,岂嫌农事之劳苦而慕医者之受崇乎?神农亲尝百草,始有医药;医者悬壶济世,造福生民。医农本无贵贱,况生信所事者多类农人,皆行样品准备,清洗,挖掘,收获,整理之事。故生信人亦数据农人,生信人数海淘沙,寻万物之理,求自然之道,窥天地之奥,登造化之极。史载古希腊尝有医者,名希波克拉底氏,发宏愿曰:尽余之能力与判断力所及,为病家谋利益。吾辈生信人亦叩首谨记。叔沉着内敛,不事昭彰,然名扬江湖,誉加四海,Github
2018年10月12日
其他

如何解决bioconductor下载困难问题

help.biocLite()是BiocInstaller的一个函数。而我们安装的时候,用的其实就是biocLite()。biocLite.R
2018年6月21日
其他

功能注释后如何做富集分析

的目的也是为了基于物种名和基因编号直接爬取KEGG,将基因编号转换成KO号。如果你只是为了做GO和KEGG富集分析,有必要构建物种数据库吗?我的答案是没有必要,因为不构建物种数据库也能够用
2018年5月29日
其他

这篇science文献让我想起了被考研英语支配的恐惧

由于被子植物在过去2亿年间不断发生的全基因组重复,同时还有大规模基因组丢失,这使得同一个祖先的基因谱系分散到了不同的染色体上,从而导致了基因组在大小上显著差别,以及即便是近缘物种上也有重排现象发生。
2018年1月22日
其他

TCGA大作战——初步分析RNA-seq数据03

首先,通过测序,每个实验组的基因表达都会以数值来计量,软件得知道你的表达数值才能计算差异(根据软件的不同,可以是原始数值(raw_counts),也可以是标准化后的数据),这个信息俗称表达矩阵
2017年12月31日
其他

ATAC-Seq 数据分析一文就够(上)

MN酶)处理染色质可以得到单个核小体。核小体是染色质的基本结构,由DNA、蛋白质和RNA组成的一种致密结构。组蛋白是由2个H3-H4二聚体,2个H2A-H2B二聚体形成的八聚体,直径约为10
2017年12月18日
其他

整个世界都是你的已知条件(生信学习心得)

要想成为音乐家,你必然要掌握一门乐器。但是掌握一门乐器是不够的,你还得继续深入,学习理论知识。只有这样子,当你进入一个酒吧,听到别人弹吉他的时候,你能够熟练用任何一门乐器和他进行配合。
2017年11月29日
其他

数据挖掘干货分享(1)

接下来我们将利用Google的sklearn对Adaboost进行测试,代码是我搬运的(略有改动,更简单),毕竟是经典的东西,怕我自己的代码丑到大家,注释是自己写的,爱你是亘古不变的
2017年10月20日
其他

从零开始学统计——第一期答疑篇

好的,现在我们再比较上例身高和体重两个指标的变异度,就要分别把它们的方差处理一下,让它们的量纲都为1,应该怎么做?是不是要选用各自的标准差,再分别除以各自的均值就可以了?这就是变异系数CV的意义了。
2017年10月16日
自由知乎 自由微博
其他

数据挖掘干货分享

Databases的一个步骤,一般意义上的数据挖掘就是从海量的数据中,通过一定的支持算法,搜索隐藏在数据之间的关系。现代数据挖掘依赖于计算科学、统计学、情报检索、机器学习、专家智库等因素。
2017年10月13日
其他

生信小白,我是其中之一

。在如此多的积累之下,终于有一天我感觉自己迈过了生信初学者的门槛,不再像以前那么迷茫了。为了让自己的知识能够沉淀下来,于是我跟着转录组继续从RNA-Seq数据分析开始,传到这里便于自己不断修改。
2017年10月11日
其他

生信媛建群了。

后来,媛也想过要不要建立一个讨论群,毕竟大家还是很爱媛的。但自己一无足够的积累,而已有各类Q群,是否有必要再多一个,一直耽搁至今。
2017年10月8日
其他

写给生信公众号运营者的排版指南

机械键盘不是必须的,但是当你用过机械键盘打字之后,每次打字那种“啪啪啪”的感觉,总是会让你沉浸在这种写作的快感之中。当然买机械键盘的话,还是去店里面实际感受一下“啪啪啪”的效果,我目前用的是茶轴。
2017年10月6日
其他

生信软件安装神器

Anaconda是Python的科学发行版,它将各种科学计算工具整合到一个安装包之中,从而使得Python变得无比的强大,就像Linux本身也只是内核,通过整合不同的软件之后才会变得如何的实用。
2017年10月6日
其他

Bin, Bin, Bin!Map, Map, Map Now!(一)

还有,如果你对文章有什么不懂,并且留言难以表达的话,我们还准备了微信交流群哦。扫下面微信二维码添加好友,拉你入群,请注明姓名+生信媛+研究方向。备注不全,我们可能就不能通过好友申请了。
2017年10月3日
其他

进阶的生信媛

后来,媛也想过要不要建立一个讨论群,毕竟大家还是很爱媛的。但自己一无足够的积累,而已有各类Q群,是否有必要再多一个,一直耽搁至今。
2017年10月2日
其他

我在生信媛的200天里

biobabble(每次打这个单词,我都是要小心半天)的Y叔,他推荐的三本关于R语言绘图的叔,让打开新世界的大门,而且帅气得不像实力派,9个R包作者。
2017年10月1日
其他

生信媛养成记—实验汪自学生信之路-biostar handbook

虽然其中大部分人知道生信有用,有心想学,但每天实验到半夜累成狗,那有心情和时间自学编程,基本都没有读我推荐的书超过三页。此外,我要反思的是我推荐教材并不适多数人,反而把大家吓到了,不敢再学生信了。
2017年9月28日
其他

生信媛公众号文章目录

《课程21、22-使用samtools和FreeBayes进行变异的calling并用snpEff注释》
2017年9月26日
其他

生信蓝领,一个不舍得分享的高通量数据分析框架

snp-calling等都已经实现了自动化,这些部分如果再自己一行一行输命令,不但浪费时间,而且缺少重复性。因此,我希望有那么一个框架,能够帮我完成所有的上游分析,从而集中精力解决生物学问题。
2017年9月24日
其他

Biostar(大结局):课程29、30

ftp://ftp.ensembl.org/pub/release-77/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz #
2017年9月24日
其他

pandas包里面的一个bug

前几天进城碰到了生信媛,媛问:有朋自乡下来,能复写乎。猿答:大丈夫死且不避,区区公众号安足辞乎,待余文章接收,余定笔耕不辍,徐徐周更。生信媛白了猿一眼:不想写直接说,还说啥子文言文。
2017年9月23日
其他

听说你想学Python

也就是说当你理解了编程语言无非就是一门和计算机交流的工具,你就应该本着学习任何一门工具的态度,挖掘这个工具的本质。比如说Perl一行流处理数据。
2017年9月20日
其他

我的R包:zgtools使用指北

这个必须装,感谢Y叔提醒install.package("devtools")source("https://bioconductor.org/biocLite.R")#
2017年9月16日
其他

所有人问生信媛

open("C:/Users/DELL/Desktop/请教徐老师关于python的问题/blastx_getorf_xiaomi_candidate_lncRNA",'r') seq_len
2017年9月15日
其他

Biostar:课程27、28

http://cole-trapnell-lab.github.io/cufflinks/assets/downloads/cufflinks-2.1.1.OSX_x86_64.tar.gz tar
2017年9月14日
其他

比对软件STAR的使用—高通量测序数据处理学习记录(一)

1000000STAR的输出STAR可以根据你的参数设定输出多个结果文件,包含各种信息,下面对默认参数情况下的输出文件做了一个详细的展示,有些不好翻译的地方我选择使用原汁原味的manual
2017年9月13日
其他

Read Counts的提取—高通量测序数据处理学习记录(二)

https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz tar
2017年9月11日
其他

Biostar:课程25、26

https://github.com/arq5x/bedtools2/releases/download/v2.22.0/bedtools-2.22.0.tar.gz tar
2017年9月9日
其他

RNA-Seq选择参考基因组

qulity的设定,要知道RNAseq是反转录的数据,不可能没错误的;并且选择基因组参考序列时,要知道你要干嘛?只是想看个基因的表达,外显子表达,还是想发现新的转录本之类的。
2017年9月8日
其他

要来杯RNA鸡尾酒吗?

但这里,我们采用的是conda进行软件管理,为了保证环境的一致性和稳定性,我重新建立一个虚拟环境,国内用户可以需要添加清华镜像源提高下载速度(后面提到的配置文件里设置了清华镜像源)。
2017年9月8日
其他

编程语言 | R代码风格

每次写代码的时候,我总要纠结,这个变量叫啥名字,那个函数又要叫啥名字,于是半天过去了,代码居然一行都没写好。命名比较推荐的是用_分割不同单词,比如说code_style。当然驼峰式命名
2017年9月6日
其他

祝我生日快乐

当然我现在也想明白了,坚持不过也是一种矫情。刚好,这一年或许是我生长最多的一年,或许是我高中毕业后打字最多的一年了,记录了大量文字在我的简书,公众号,为知笔记,GitHub
2017年9月4日
其他

Biostar:课程23、24

如果大家了解fastq的格式的话,一个spot就是指一条完整的测序信息,包含四个组成:名字、序列、+号(+号后面可以加别的说明信息)和测序质量信息。
2017年9月1日
其他

从NCBI下载测序数据 | 也许是目前最详细的版本

https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-ubuntu64.tar.gz tar
2017年9月1日
其他

编程语言 | JavaScript 学习(一)

x=1形式声明的变量都是全局变量。如果一个页面有多个js文件,且都有相同的变量名,那么就会相互影响导致错误。因此ECMA在后续的规范推出了’strict’模式,在js文件前添加'use
2017年8月31日
其他

算法导论 | 循环不变式与插入排序

插入排序是最容易想到的算法,因为在平时最常使用。比如说在打扑克的时候,每次抽一张牌,和左手已经有的牌逐个比较,直到找不到更小的为止。R代码如下
2017年8月30日
其他

友军生信技能树居然要进军婚恋市场

我们会提供符合你标签的1~5人的联系邮箱,那些人的性别目前都是和你不一样的。虽然同性之间也有真爱,但是万一对方只对异性有感觉,那就尴尬了,所以就放弃这一想法。
2017年8月28日
其他

七夕快到了,我们做题目吧

一枚做工良好,重量分布均匀,一枚则不是。做工良好的那粒硬币出现正反面的概率都是相同的,而做工不好的那枚硬币则容易出现正面,概率约为3/4.
2017年8月27日
其他

如何用好MacOS(一)

caskroom/cask/electronic-wechat这是由网页版开源制作的macOS微信,Linux下也有。macOS还可以在App
2017年8月26日
其他

我想买一台Mac

曾在大三下半学期投入数据分析潮流学习之中,也在网易云课堂上参加过Python入门课程。结果Python未必打下基础,却喜欢上MacOS系统,因它UI设计和unix-like系统。
2017年8月25日
其他

Lecture 21 - 使用samtools进行变异的calling

#*这是一个python编写的程序,python用缩进来标明成块的代码,如果缩进有问题,程序也会出错。而微信公众号排版有时候会有一些问题,故建议查看原英文网站,确认自己的这个python脚本没问题。
2017年8月24日
其他

R:关系型数据库管理

负责与数据库进行交互,比如说与SQLite数据库交互要用到RSQLite,如果是MYSQL,则是RMYSQL
2017年8月23日
其他

科学网:如何姿势正确的抄袭他人代码?

Y叔的回应是:而ppiPre之所以可恶,就是因为违背了开源精神,改函数名、删注释等各种试图去抹除原作者的痕迹,并试图把代码当成是自己的,所以说啊,开源要说人抄袭也很困难,但ppiPre明显就是.
2017年8月21日
其他

一文学会ChIP-Seq数据分析(想想也不可能)

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE42nnn/GSE42466/suppl/GSE42466_Suz12_peaks_10.txt.gz gzip
2017年8月18日
其他

Biostar:课程19、20

http://sourceforge.net/projects/samtools/files/samtools/1.1/bcftools-1.1.tar.bz2
2017年8月17日