查看原文
其他

测173个成年人的大脑的102个基因

生信技能树 生信技能树 2022-06-06

写在前面

你现在看到的是文献俱乐部2019年笔记分享第一弹,我将会在春节7天连续分享,目录如下:

因为学业需要,我阅读的大量文献都是NGS组学相关,所以会涉及到很多数据处理,而这些文献基于的生物信息学数据处理技巧,我都在过去的5年里以各种形式分享讲解过,也有系列视频,希望你可以在方便的时候再次学习一遍,查漏补缺。也欢迎推荐给有需要的朋友

学习笔记目录

1.3个学生的linux视频学习笔记

2.生信人应该这样学R语言系列视频学习心得笔记分享

3.一万人陪你学习GEO数据库挖掘知识(公益视频听课笔4.记分享)

5.公共数据库挖掘视频学习心得体会

6.生信小技巧系列第一季完结版视频教程学习笔记分享

……期待有你……


如果,你不仅仅是对NGS组学应用文献感兴趣,也欢迎加入我们文献阅读小组分享自己的主页领域文献。

逆向收费读文献社群(第二年通知)

今天是大年初六,给大家带来的是测173个成年人的大脑的102个基因,希望你能学到知识。

文章发表在NC,于2018年10月中旬,题目是:High prevalence of focal and multi-focal somatic genetic variants in the human brain ,测序数据都上传到了:https://www.ncbi.nlm.nih.gov/sra?term=SRP159015 是开放下载的。

研究者相信干细胞分裂过程中产生的 somatic 突变,是很多癌症的罪魁祸首。理论上大脑发育过程中的那些细胞分裂,也会伴随着同样的突变过程,所以呢,就会在局部富集一些 somatic 突变。然后作者假设那些somatic突变位点如果发生在已知的明确基因上,而且位点一致,具有germline病理性性突变效果。

根据超高深度测序,研究团队发现并且证实了54个成年人的173个大脑区域的102个基因的确有一些 somatic 突变,包括 DNMT3A 和TET2 这样可能起源于血液的突变。使用神经发育学的数学模型和近似贝叶斯推断理论,研究者预测,大片段的病理性的突变神经元是非常普遍的在人群中。

背景介绍

神经退行性疾病,比如Parkinson’s disease (PD) and Alzheimer’s disease (AD)都是大脑区域细胞病理化,大部分这样的病例都是散发的,但是有约~5%的病例是有明确遗传倾向的,目前GWAS研究只得到了约莫 50 个人易感基因

名词解释:

  • accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因

  • HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点

  • SRMs: single region mutations ,Somatic mutations that were present in only one brain region

  • MRMs:multi-region mutations,Somatic mutations that were present in more than one sample

  • variant allele frequency (VAF), 突变碱基比例

具有somatic突变的细胞小群体。

突变碱基比例低于5%,在常规肿瘤WES里面是会被somatic caller的默认阈值直接过滤的。

测序实验概览

总体来说,是两个ngs平台,54个受试者,173个脑部区域,最后找到了62个突变,如下:







Summary-SRMs-MRMs-observed.png

超深度测序的173 frozen brain regions 样本病人来源

  • post-mortem cases of AD (n = 20 brains)

  • Lewy body (LB) disease (PD or Dementia with LB: n = 20 brains)

  • age matched controls with no significant neuropathology (n = 14 brains)

有配对的血液样品的病人是6个:(control: n = 2, AD: n = 1, LB: n = 3)

涉及到的大脑区域包括:

  • cerebellum: CB = 54,

  • Entorhinal cortex: EC = 53,

  • Frontal cortex:FC = 32,

  • Medulla:Med = 24,

  • Cingulate: Cin = 10

大脑区域示意图如下:

structure-of-brain.png

只对102个基因的编码区域进行捕获测序,平均测序深度高达5374X。

39个位点的62个突变

其中62个突变分成:

  • 56 single-nucleotide variants, SNVs;

  • 6 insertion-deletion variants, indels

其中18个突变只出现在单个受试者的单个大脑区域,这里定义为 SRMs,它们的VAF平均只有 0.84% (s.d. = 0.005),这个突变频率低的有点夸张了,要不是这样的超高深度测序平台,根本就很难检测到它们。然后它们也并没有很明显的大脑区域分布偏好性,也没有很明显的基因分类偏好特异性。但是14个 C > T 形式突变,只有4个是其它形式突变。

数据分析流程的测试

这里,研究团队选取了最常见的两款somatic突变搜寻工具,就是mutect2和varscan,最后由于作者针对的少量基因组区域的超高深度测序,所以可以使用DeepSNV方法。

这里研究者使用千人基因组计划的两个不同个体的DNA的不同比例混合样品来模拟不同比例的肿瘤含量样品,这样找somatic突变就有了正确与否的判断标准。

这样就可以测试不同测序深度下,这些工具的准确率,召回率等机器学习指标表现情况。







compare-tools.png

上面的D图说明超过4000X的测序深度的必要性。

  • VAF > 1% were consistently detected when the sequencing depth was >1000-fold

  • but VAF >0.5% required >4000-fold depth to minimise the false-negative rate of any caller across the 102 gene 285 kb panel

根据上面的C图,最后作者定下来的数据分析策略是:

strategy-somatic-caller.png

两个平台的一致性

两个平台是:

  • accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因

  • HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点

针对同一个位点,绘制突变碱基频率的散点图可以看两个平台的相关性,如下,可以说是非常棒的相关性!







VAF-ACE-VS-haloplex.png

还有测序深度和覆盖度的区别:

high-coverage-platform.png

展示那些首先被SureSelect ACE 平台检测到的somatic突变,然后也被Haloplex HS平台验证的,同样也是说明两个平台的一致性,同时也说明这些突变的真实可靠。

vaf-validate-two-platform.png

Haloplex HS 平台的特殊性

两个基本假设:

  • 新发突变随机分布在后代细胞

  • 神经发育过程中细胞是对称分裂

Haloplex HS 平台是 基于 barcode tagging 方法,所以可以计算每次测序的细胞总数,以及含有somatic突变的细胞数量。

因为测序的细胞总量是 ~611,000 cells, 所以根据具体的某个somatic突变的VAF可以近似推断含有该突变位点的细胞数量。







b.png

突变特征分析

因为找到的somatic突变比较少,还区分了SRMs和MRMs,我个人觉得,绘制下图几乎看不出啥规律,只能说是SRMs的C->T突变比例高于MRMs。

mutation-signature.png

根据测序结果建模,一般人含有这样的低频somatic突变的个数的比例。

q.png

主要结论

有17个突变出现在同一个人的不同脑部区域。

有9个人的大脑不止一个somatic突变。

尽管在脑部细胞发育早期影响约1000个细胞左右的那些病理突变非常稀有,仍然是有可能造成疾病表型,因为他们有可能影响大量的神经元。作者的研究虽然样本量不多,但是提出另一种新的解释,那些影响了世界10%人口的散发性神经退行性疾病机理,提早检测出那些突变,在医疗上很重要。

后记

如果你完全没有看懂文章说了些什么,却仍然坚持到了最后,说明你有可能对生物信息学感兴趣,你缺乏的是一个入门的契机!

也欢迎推荐你身边的朋友参与我们的线下培训,如果有缘的话



全国巡讲

生信技能树(爆款入门培训课)全国巡讲约你

生信技能树(爆款入门培训课)巡讲第一站-重庆

生信技能树(爆款入门培训课)全国巡讲免费大放送-赶快告诉你导师吧

……未完待续……



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存