测173个成年人的大脑的102个基因
写在前面
你现在看到的是文献俱乐部2019年笔记分享第一弹,我将会在春节7天连续分享,目录如下:
2019年2月份第2周(总第54周)测173个成年人的大脑的102个基因
2019年2月份第3周(总第55周)2.5万汉族人的GWAS乳腺癌风险基因
因为学业需要,我阅读的大量文献都是NGS组学相关,所以会涉及到很多数据处理,而这些文献基于的生物信息学数据处理技巧,我都在过去的5年里以各种形式分享讲解过,也有系列视频,希望你可以在方便的时候再次学习一遍,查漏补缺。也欢迎推荐给有需要的朋友
学习笔记目录
3.一万人陪你学习GEO数据库挖掘知识(公益视频听课笔4.记分享)
……期待有你……
如果,你不仅仅是对NGS组学应用文献感兴趣,也欢迎加入我们文献阅读小组分享自己的主页领域文献。
今天是大年初六,给大家带来的是测173个成年人的大脑的102个基因,希望你能学到知识。
文章发表在NC,于2018年10月中旬,题目是:High prevalence of focal and multi-focal somatic genetic variants in the human brain ,测序数据都上传到了:https://www.ncbi.nlm.nih.gov/sra?term=SRP159015 是开放下载的。
研究者相信干细胞分裂过程中产生的 somatic
突变,是很多癌症的罪魁祸首。理论上大脑发育过程中的那些细胞分裂,也会伴随着同样的突变过程,所以呢,就会在局部富集一些 somatic
突变。然后作者假设那些somatic突变位点如果发生在已知的明确基因上,而且位点一致,具有germline病理性性突变效果。
根据超高深度测序,研究团队发现并且证实了54个成年人的173个大脑区域的102个基因
的确有一些 somatic
突变,包括 DNMT3A 和TET2 这样可能起源于血液的突变。使用神经发育学的数学模型和近似贝叶斯推断理论,研究者预测,大片段的病理性的突变神经元是非常普遍的在人群中。
背景介绍
神经退行性疾病,比如Parkinson’s disease (PD) and Alzheimer’s disease (AD)都是大脑区域细胞病理化,大部分这样的病例都是散发的,但是有约~5%的病例是有明确遗传倾向的,目前GWAS研究只得到了约莫 50 个人易感基因。
名词解释:
accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因
HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点
SRMs: single region mutations ,Somatic mutations that were present in only one brain region
MRMs:multi-region mutations,Somatic mutations that were present in more than one sample
variant allele frequency (VAF), 突变碱基比例
具有somatic突变的细胞小群体。
突变碱基比例低于5%,在常规肿瘤WES里面是会被somatic caller的默认阈值直接过滤的。
测序实验概览
总体来说,是两个ngs平台,54个受试者,173个脑部区域,最后找到了62个突变,如下:
超深度测序的173 frozen brain regions 样本病人来源:
post-mortem cases of AD (n = 20 brains)
Lewy body (LB) disease (PD or Dementia with LB: n = 20 brains)
age matched controls with no significant neuropathology (n = 14 brains)
有配对的血液样品的病人是6个:(control: n = 2, AD: n = 1, LB: n = 3)
涉及到的大脑区域包括:
cerebellum: CB = 54,
Entorhinal cortex: EC = 53,
Frontal cortex:FC = 32,
Medulla:Med = 24,
Cingulate: Cin = 10
大脑区域示意图如下:
只对102个基因的编码区域进行捕获测序,平均测序深度高达5374X。
39个位点的62个突变
其中62个突变分成:
56 single-nucleotide variants, SNVs;
6 insertion-deletion variants, indels
其中18个突变只出现在单个受试者的单个大脑区域,这里定义为 SRMs,它们的VAF平均只有 0.84% (s.d. = 0.005),这个突变频率低的有点夸张了,要不是这样的超高深度测序平台,根本就很难检测到它们。然后它们也并没有很明显的大脑区域分布偏好性,也没有很明显的基因分类偏好特异性。但是14个 C > T 形式突变,只有4个是其它形式突变。
数据分析流程的测试
这里,研究团队选取了最常见的两款somatic突变搜寻工具,就是mutect2和varscan,最后由于作者针对的少量基因组区域的超高深度测序,所以可以使用DeepSNV方法。
这里研究者使用千人基因组计划的两个不同个体的DNA的不同比例混合样品来模拟不同比例的肿瘤含量样品,这样找somatic突变就有了正确与否的判断标准。
这样就可以测试不同测序深度下,这些工具的准确率,召回率等机器学习指标表现情况。
上面的D图说明超过4000X的测序深度的必要性。
VAF > 1% were consistently detected when the sequencing depth was >1000-fold
but VAF >0.5% required >4000-fold depth to minimise the false-negative rate of any caller across the 102 gene 285 kb panel
根据上面的C图,最后作者定下来的数据分析策略是:
两个平台的一致性
两个平台是:
accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因
HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点
针对同一个位点,绘制突变碱基频率的散点图可以看两个平台的相关性,如下,可以说是非常棒的相关性!
还有测序深度和覆盖度的区别:
展示那些首先被SureSelect ACE 平台检测到的somatic突变,然后也被Haloplex HS平台验证的,同样也是说明两个平台的一致性,同时也说明这些突变的真实可靠。
Haloplex HS 平台的特殊性
两个基本假设:
新发突变随机分布在后代细胞
神经发育过程中细胞是对称分裂
Haloplex HS 平台是 基于 barcode tagging 方法,所以可以计算每次测序的细胞总数,以及含有somatic突变的细胞数量。
因为测序的细胞总量是 ~611,000 cells, 所以根据具体的某个somatic突变的VAF可以近似推断含有该突变位点的细胞数量。
突变特征分析
因为找到的somatic突变比较少,还区分了SRMs和MRMs,我个人觉得,绘制下图几乎看不出啥规律,只能说是SRMs的C->T突变比例高于MRMs。
根据测序结果建模,一般人含有这样的低频somatic突变的个数的比例。
主要结论
有17个突变出现在同一个人的不同脑部区域。
有9个人的大脑不止一个somatic突变。
尽管在脑部细胞发育早期影响约1000个细胞左右的那些病理突变非常稀有,仍然是有可能造成疾病表型,因为他们有可能影响大量的神经元。作者的研究虽然样本量不多,但是提出另一种新的解释,那些影响了世界10%人口的散发性神经退行性疾病机理,提早检测出那些突变,在医疗上很重要。
后记
如果你完全没有看懂文章说了些什么,却仍然坚持到了最后,说明你有可能对生物信息学感兴趣,你缺乏的是一个入门的契机!
也欢迎推荐你身边的朋友参与我们的线下培训,如果有缘的话
全国巡讲
生信技能树(爆款入门培训课)全国巡讲免费大放送-赶快告诉你导师吧
……未完待续……