查看原文
其他

从孟德尔的豌豆到人类的遗传病

宋红卫 聊生信 2022-05-14

从孟德尔的豌豆到人类的遗传病

前天下班路上跟小叶聊了几句有关基础研究的话题。我们提到了一个孟德尔研究豌豆的例子。这个豌豆的研究肯定是很基础的,最终总结出了几条规律,几十年后由摩尔根补充,最终形成“遗传学三大基本定律”。

https://studylib.net/doc/5784157/mendel-and-his-pea-plants
所谓“定律”,或可简单类比为“普适性”原则或原理,均主要得益于基础研究,是我们解锁宇宙奥秘的钥匙。

普适性(Universality):指某一事物(特别是观念、制度和规律等)比较普遍地适用于同类对象或事物的性质。事物普适性源于事物的共性和规律。特异性(Specificity)与普适性相对应,但也有重要价值。

“Mendelian diseases”的一个网络释义就是“遗传病”。从豌豆到人类,这个基础的发现开启了遗传学的新时代,也服务了现代医学(相关链接:在线人类孟德尔遗传数据库简介)。
因此基础研究的重要性不言而喻,但我们期待的一个关键结局(Outcome)是需要形成一个“普适性”原则,研究的结果具有普遍的指导性,且可被重现或重复(这一点非常重要)。就像做应用与转化的,如果没有生产出成熟、有用的产品,也没有标准操作流程(Standard Operating Procedure,SOP文件都可以归类为:Job not finished.

A NBA story——“The job's not finished”

Bryant made a similar statement during the 2009 NBA Finals with the Lakers up 2-0 over Howard's Orlando Magic.

"What's there to be happy about?" Bryant said. "The job's not finished. Is the job finished? I don't think so."


https://www.amazon.com/

Finished-Until-Paperwork-Done-Sign/dp/B0087HXFVO

关于基因组和遗传学的一些数据与事实

一个人通常没有或只有一种显著的遗传病。

一个遗传病的致病位点一般只有一个、几个或几十个。CRISPR技术的噱头之一就来自这里,但它总脱靶,哪怕脱靶一点点你说多要命!

如果没有胚系或体细胞变异,人类可能会少生很多病,但一定不会进化为“Homo sapiens”(因为压根就不会进化)。

对于某个病因复杂的遗传病,每个人的致病突变可能不一样,甚至很不一样,但表型相似。

人类基因组包含约30亿个核苷酸、2.35万个基因、18万个外显子。外显子组占人类基因组的~1%(3,000万个碱基对),其它为非编码区、内含子或调控区

约有75~85%的已知致病变异存在于外显子组中。个人外显子组测序结果中,相对于人类参考外显子组,平均每8个碱基中就有一个变异(Nature,2016)。因此一个人的总的外显子组变异数保守估计约为300万(不一定只发生在外显子上)。其中改变了氨基酸的单核苷酸变异(SNV)数约为13,500个,很多预计是功能变异,分散在数千个基因中。

只有一部分基因或等位基因位点的变异是致死、致病或对表型产生显著影响。其原因可能是:

隐性致病突变或携带者;蛋白结构未破坏;自修复、反馈与代偿机制;同家族内基因或蛋白功能的冗余;疾病成因的复杂性;生物生存环境的复杂性(例如轻度的地中海贫血对疟疾有天然的抵抗,相关链接);生物学通路(Pathway)、细胞成分(Cellular component,CC)、生物过程(Biological process,BP)或分子功能(Molecular function,MF )它们之间或其内部基因功能的些许冗余,等等。

综上所述,外显子组海量变异的分类、筛选和甄别,是解读遗传变异与表型关系的核心挑战。从不到2万个涉及蛋白变异的位点中准确关联到一种特定的疾病,难度可想而知。医学研究人员面对的一个艰巨任务就是要将少量致病遗传变异与很少或完全没有可检测的临床反应的其它变异区分开来。

部分数据来自:
Nature,2016,Analysis of protein-coding genetic variation in 60,706 humans

数据分析工作流程

从遗传学外显子组测序数据中鉴定致病基因,一般要结合多种辅助的数据库或信息,一步步小心地筛选和缩小范围。

一个典型的工作流程
1)去除人群中经常变异的位点
  生病尤其是生同一种病的人,在人群中占少数。计算人群频率所参考的库(如gnomAD, ExAC和1000G等)要多要大。有时也考虑Case-Control小样本的变异频率。
2)参考ClinVarOMIM等数据库中的P/LP等变异位点
  库要足够大、足够准、足够权威。
3)只保留错义和高影响(high impact)变异
  例如错义突变、无义突变、移码、剪接供体/受体位置突变等。
4)结合SIFT和PolyPhen等计算机程序批量预测变异的有害性
5)结合PubMed文献、基因功能注释(如GO/KEGG)进一步筛选
6)结合家系、显/隐性和表型等信息进一步关联
7)结合对蛋白磷酸化等修饰、蛋白结构域、三维结构及表面电荷的破坏等信息
8)参考ACMG等指南做进一步归类
9)体外功能实验

10)报告新发现的致病位点,研究结果的发表、审稿、见刊

最后别忘了将新发现的位点及支持性证据提交给主流的遗传变异数据库,后者对我们了解生物学和人类种群历史很重要,也为在临床上对遗传病患者中观察到的变异的解读提供了可靠(critical)资源

撰写:宋红卫

校对:宋红卫

更多人类遗传学知识、文献和分析技术
请关注和星标聊生信

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存