认识免疫组库测序数据

Original 生信技能树生信技能树 2022-06-07

收录于合集 #免疫组库 6个

号外：绝大部分生信技能树粉丝都没有机会加我微信，已经多次满了5000好友，所以我开通了一个微信好友，前100名添加我，仅需150元即可，3折优惠期机会不容错过哈。我的微信小号二维码在：0元，10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》

前面我带领大家通过IMGT数据库认知免疫组库，而且也一起从IMGT数据库下载免疫组库相关fasta序列，免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类，以及TCR的TRA,TRB,TRD,TRG，它们各自都有V，D（可选），J，C基因。

已经预告了有一个免疫组库的实战，现在终于有时间来带领大家搞定它。

来自于文章；https://www.tandfonline.com/doi/full/10.1080/2162402X.2019.1644110
数据：https://www.ncbi.nlm.nih.gov/bioproject/PRJEB33490

首先研读文献，并且找到其测序数据文件存放的数据库，并且成功下载到！

完成这个数据下载，需要熟悉GEO和SRA数据库，参考：

下载得到的fastq.gz 文件，如下所示：

  7.8M May 23 09:43 ERR3445007_1.fastq.gz
    11M May 23 09:43 ERR3445007_2.fastq.gz
   9.8M May 23 09:43 ERR3445008_1.fastq.gz
    14M May 23 09:43 ERR3445008_2.fastq.gz
   7.0M May 23 09:44 ERR3445009_1.fastq.gz
    10M May 23 09:44 ERR3445009_2.fastq.gz
   7.2M May 23 09:44 ERR3445010_1.fastq.gz
   9.3M May 23 09:44 ERR3445010_2.fastq.gz

我们简单的批量走一下fastqc软件质控：

ls raw/*gz|xargs fastqc -t 6 -o qc/

因为数据量都很小，所以几分钟就ok啦。那我们随机挑选一个样本的fastqc报告看看吧：

首先看summary表格

如下：

summary表格

可以看到，单独的免疫组库样本测序数据库很小，还不到10万条序列，跟10X的单细胞有的一拼哦，正常人类的转录组都是20~50M的。。。

而且这个测序程度高达300，那就是miseq测序仪啦。

reads的每个碱基位置的测序质量分布

reads的长度是300bp，所以横坐标是1到300，纵坐标是碱基质量值，通常是20或者30以上比较好。如下：

reads的每个碱基位置的测序质量分布

可以看到，随着reads的碱基数量增加，后面的碱基测序质量越来越差，符合测序仪的实际情况。。。。

末端那些质量差的碱基，在我们的测序数据质控阶段，会控制软件和参数去除掉它们的哈。

每个碱基位置的GC含量分布

reads的长度是300bp，所以横坐标是1到300，GC含量如果是全基因组测序，那么应该是一条线。但是这个免疫组库测序，下面图虽然说被fastqc软件判定为不合格，但实际上对免疫组库测序来说，是合格的哈。如下：

每个碱基位置的GC含量分布

有非常多的重复序列

这个其实你自己从IMGT数据库下载免疫组库相关fasta序列，探索一下就明白了。因为本来测序的就是BCR的IGH,IGK,IGL这3类，以及TCR的TRA,TRB,TRD,TRG，它们各自都有V，D（可选），J，C基因。这些不同的V基因其实很类似，J基因也是非常类似，所以都是重复序列就对了。如下：

重复序列

miseq测序仪的300bp的双端测序质控步骤

参考发表在Front. Immunol., 30 April 2019的综述：The Pipeline Repertoire for Ig-Seq Analysis

文章链接：https://www.frontiersin.org/articles/10.3389/fimmu.2019.00899/full

免疫组库质控

其中双端测序的reads合并也是有一系列软件可以实现。

下游分析

数据分析大纲如下：

测序数据评估与过滤；
不同种类V,D/J基因的数目、频率统计；
不同种类V-J组合（气泡图）和V-D-J组合（桑基图）的数目、频率统计；
V基因、J基因、V-J组合、V-D-J组合的组间差异比较；（火山图）
CDR3氨基酸克隆型的数目、频率、长度统计；
基于CDR3氨基酸克隆型频率的样本间相似性评估；
CDR3氨基酸克隆型的多样性分析，包括Gini、Simpson、Shannon、Rank Abundance；
CDR3氨基酸克隆型差异表达分析；
样本间共有CDR3氨基酸克隆分析；

免疫组库交流群

我们的拉群小助手会协助大家进入一个免疫组库数据分析交流群哈，跟我们之前的其它群类似：

还是老规矩，18.8元进群，一个简单的门槛，隔绝那些营销号！同时，我们也会在群里共享一些免疫组库数据分析相关资料，仅此而已，考虑清楚哦！

长按识别二维码

添加微信

支付18.8元入学习群

烦请备注姓名学校单位信息

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI，帮助他们多一点数据认知，让科研更上一个台阶：

生信爆款入门-全球听（买一得五）（第5期）（可能是最后一期）你的生物信息学入门课
(必看！)数据挖掘第3期（两天变三周，实力加量），医学生/临床医师首选技能提高课
生信技能树的2019年终总结，你的生物信息学成长宝藏
2020学习主旋律，B站74小时免费教学视频为你领路，还等什么，看啊！！！

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

认识免疫组库测序数据

首先看summary表格

reads的每个碱基位置的测序质量分布

每个碱基位置的GC含量分布

有非常多的重复序列

miseq测序仪的300bp的双端测序质控步骤

下游分析

免疫组库交流群

文末友情宣传

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

生成图片，分享到微信朋友圈

认识免疫组库测序数据

首先看summary表格

reads的每个碱基位置的测序质量分布

每个碱基位置的GC含量分布

有非常多的重复序列

miseq测序仪的300bp的双端测序质控步骤

下游分析

免疫组库交流群

文末友情宣传

您可能也对以下帖子感兴趣