查看原文
其他

学徒作业-指定基因在指定组织里面的表达量热图

生信技能树 生信技能树 2022-06-06
昨天我在生信技能树发布了一个学徒作业:在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 , 真的是非常简单,只需要下载CCLE数据库的RNA-seq表达矩阵,然后在R里面根据指定基因在指定细胞系里面提取表达矩阵即可。所以今天就有学徒完成了,作业发在生信菜鸟团,见:学徒带你一步步从CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵进行热图可视化,但是我发现大家的留言都是感谢这个学徒细致入微的小白友好型讲解模式,让我也觉得,这样的活动应该是多做一些。
正好,今天接到粉丝求助,想在bodymap数据库里面也是根据感兴趣基因来提前表达矩阵绘制热图,如下所示:
bodymap数据库根据感兴趣基因绘制不同组织表达量热图
这个图比昨天的学徒作业:在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 , 稍微复杂一点,因为它里面的的一个组织肯定不止是一个样本,拿到表达矩阵后需要进行一定程度的归纳总结。

你有没有意识到所谓的的新冠病毒的组织感染特异性研究其实就是一个学徒作业?

与2003年爆发的SARS-CoV类似,SARS-CoV-2使用血管紧张素转化酶2(ACE2)作为细胞受体入侵人类宿主并主要引起急性肺炎。因此,ACE2是了解SARS-CoV-2感染机制的关键。很多研究,就是探索了ACE2基因在单个人体组织(包括肺,肝和结肠)中的表达,比如单细胞水平,或者其它形式的数据。
中国药科大学王小晟课题组和深圳福田风湿病专科医院与深圳大学联合实验室张跃课题组合作在预印本平台Research Square发表题为Aninvestigation of the expression of 2019 novel coronavirus cell receptor geneACE2 in a wide variety of human tissues 的文章,该研究使用生物信息学方法,通过分析GTEx、TCGA以及HPA数据库,研究了ACE2在31个不同人体组织中的表达。
ACE2在31个不同人体组织中的表达

关于bodymap数据库

关于人和老鼠基因表达信息的数据库,基因表达数据来自于不同组织、不同细胞以及不同时刻。通过分析这些数据,可以初步掌握基因活性,了解组织中mRNA的组成。
文献非常古老【BodyMap: a human and mouse gene expression database,链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102396/】,发表日期:2000年。提到官网是:http://bodymap.ims.u‐tokyo.ac.jp 和 http://bodymap.jp/ 两个,But 年代久远,都打不开。数据库建于1993年,数据来源于日本大阪大学(Osaka University)构建的无偏cDNA文库的3'端EST序列,截止到2000年包含有大于270 000 条来源于60个人和38只老鼠组织的序列。BodyMap是首次致力于去鉴定人和老鼠的基因和基因表达信息。数据库的构建是通过开头为GATC的引物序列去扩增3' 定向cDNA文库,并按照以下标准进行筛选和去冗余:
  • 大于5% 的Ns,开始不是GATC,或者有多个GATC的序列去掉;
  • 在50bp的重叠区域有 大于90% 的相似性;
  • 70%的EST序列长度是载体序列或核糖体序列;
新提交的序列用FASTA进行序列比对,50bp重叠区域大于95%相似性的将被认为是相同的tag而进行聚类;
数据库的使用
  • Composition of mRNA
  • Expression patterns of genes
  • Select genes by expression patterns

其实现在应该是有gtex数据库

GTEx,The Genotype-Tissue Expression (GTEx) project,首次被提出来是2013年,上百位科学家联名在Nature Genetics杂志发表的文章首次介绍了“基因型-组织表达工程”,并成立了“基因型-组织表达研究联盟”(Genotype-Tissue Expression Consortium,GTEx)以下简称“GTEx”)。
2015年,GTEx发布了第一个阶段性成果,一次性在Science杂志上发表三篇研究成果,该成果还被选为封面文章。GTEx的研究从175名死者身上采集到了1641个尸检样本,这些样本来自54个不同的身体部位,对几乎所有转录基因的基因表达模式进行了观察,从而够确定基因组中影响基因表达的特定区域。另外两篇文章之一从人所有组织中的基因表达谱进行了描述,证明了组织特异性的某些基因往往决定了组织特异性基因的表达调控;另一篇解释了截短的蛋白变异体如何影响组织中的基因表达。
  • The Genotype-Tissue Expression (GTEx) pilot analysis: Multitissue gene regulation in humans
  • The human transcriptome across tissues and individuals
  • Effect of predicted protein-truncating genetic variants on the human transcriptome
在2017年,一次性在nature发表4篇研究成果,GTEx研究联盟的研究收集并研究了来自449名生前健康的人类捐献者的7000多份尸检样本,涵盖44个组织(42种不同的组织类型),包括31个实体器官组织、10个脑分区、全血、两个来自捐献者血液和皮肤的细胞系,作者利用这些样本研究基因表达在不同组织和个体中有何差异。题为“Landscape of X chromosome inactivation across human tissues”和“Dynamic landscape and regulation of RNA editing in mammals”的论文,采用GTEx数据探讨了与基因表达相关联的基因变异如何能够调节RNA编辑和X染色体失活现象。
  • Genetic effects on gene expression across human tissues
  • The impact of rare variation on gene expression across tissues
  • Landscape of X chromosome inactivation across human tissues
  • Dynamic landscape and regulation of RNA editing in mammals
GTEx官网:https://gtexportal.org/home/
所有的数据都是公开下载的。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存