查看原文
其他

认识免疫组库测序数据

生信技能树 生信技能树 2022-06-07
号外:绝大部分生信技能树粉丝都没有机会加我微信,已经多次满了5000好友,所以我开通了一个微信好友,前100名添加我,仅需150元即可,3折优惠期机会不容错过哈。我的微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》

前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。
已经预告了有一个免疫组库的实战,现在终于有时间来带领大家搞定它。
  • 来自于文章;https://www.tandfonline.com/doi/full/10.1080/2162402X.2019.1644110
  • 数据:https://www.ncbi.nlm.nih.gov/bioproject/PRJEB33490
首先研读文献,并且找到其测序数据文件存放的数据库,并且成功下载到!
完成这个数据下载,需要熟悉GEO和SRA数据库,参考:
下载得到的fastq.gz 文件,如下所示:
  7.8M May 23 09:43 ERR3445007_1.fastq.gz
    11M May 23 09:43 ERR3445007_2.fastq.gz
   9.8M May 23 09:43 ERR3445008_1.fastq.gz
    14M May 23 09:43 ERR3445008_2.fastq.gz
   7.0M May 23 09:44 ERR3445009_1.fastq.gz
    10M May 23 09:44 ERR3445009_2.fastq.gz
   7.2M May 23 09:44 ERR3445010_1.fastq.gz
   9.3M May 23 09:44 ERR3445010_2.fastq.gz
我们简单的批量走一下fastqc软件质控:
ls raw/*gz|xargs fastqc -t 6 -o qc/
因为数据量都很小,所以几分钟就ok啦。那我们随机挑选一个样本的fastqc报告看看吧:

首先看summary表格

如下:

summary表格
可以看到,单独的免疫组库样本测序数据库很小,还不到10万条序列,跟10X的单细胞有的一拼哦,正常人类的转录组都是20~50M的。。。
而且这个测序程度高达300,那就是miseq测序仪啦。

reads的每个碱基位置的测序质量分布

reads的长度是300bp,所以横坐标是1到300,纵坐标是碱基质量值,通常是20或者30以上比较好。如下:

reads的每个碱基位置的测序质量分布
可以看到, 随着reads的碱基数量增加,后面的碱基测序质量越来越差,符合测序仪的实际情况。。。。
末端那些质量差的碱基,在我们的测序数据质控阶段,会控制软件和参数去除掉它们的哈。

每个碱基位置的GC含量分布

reads的长度是300bp,所以横坐标是1到300,GC含量如果是全基因组测序,那么应该是一条线。但是这个免疫组库测序,下面图虽然说被fastqc软件判定为不合格,但实际上对免疫组库测序来说,是合格的哈。如下:

每个碱基位置的GC含量分布

有非常多的重复序列

这个其实你自己从IMGT数据库下载免疫组库相关fasta序列,探索一下就明白了。因为本来测序的就是BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。这些不同的V基因其实很类似,J基因也是非常类似,所以都是重复序列就对了。如下:

重复序列

miseq测序仪的300bp的双端测序质控步骤

参考发表在Front. Immunol., 30 April 2019的综述:The Pipeline Repertoire for Ig-Seq Analysis
  • 文章链接:https://www.frontiersin.org/articles/10.3389/fimmu.2019.00899/full

免疫组库质控
其中双端测序的reads合并也是有一系列软件可以实现。

下游分析

数据分析大纲如下:
  • 测序数据评估与过滤;
  • 不同种类V,D/J基因的数目、频率统计;
  • 不同种类V-J组合(气泡图)和V-D-J组合(桑基图)的数目、频率统计;
  • V基因、J基因、V-J组合、V-D-J组合的组间差异比较;(火山图)
  • CDR3氨基酸克隆型的数目、频率、长度统计;
  • 基于CDR3氨基酸克隆型频率的样本间相似性评估;
  • CDR3氨基酸克隆型的多样性分析,包括Gini、Simpson、Shannon、Rank Abundance;
  • CDR3氨基酸克隆型差异表达分析;
  • 样本间共有CDR3氨基酸克隆分析;

免疫组库交流群

我们的拉群小助手会协助大家进入一个免疫组库数据分析交流群哈, 跟我们之前的其它群类似:
还是老规矩,18.8元进群,一个简单的门槛,隔绝那些营销号!同时,我们也会在群里共享一些免疫组库数据分析相关资料,仅此而已,考虑清楚哦! 

长按识别二维码

添加微信

支付18.8元入学习群

烦请备注姓名学校单位信息

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:
推荐阅读






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存