ACMG遗传变异分类标准与指南(2)| 全外专题
ACMG 制定的标准与指南作为教育资源旨在帮助临床遗传学家提供优质的临床检验服务。本文将与大家分享《中国科学: 生命科学》杂志中的“遗传变异分类标准与指南”一文,将分成7个章节与大家一起学习,今天的内容是指南的总论介绍,一起来看看吧~
2. 总论
2.1 术语
突变是指核苷酸序列的永久性改变, 而多态性是指频率超过1%的变异。虽然术语“突变”和“多态性”已被广泛使用, 但由于这两个术语已经错误地与致病性和良性结果关联了起来, 所以往往会造成混淆。因此, 建议使用“变异”加以下修饰词替代上述两 个术语: 致病性的、可能致病性的、意义不明确的、可能良性的或良性的。虽然这些修饰词不可能适用所有的人类表型, 但是正如本指南提出的它包含了孟德尔疾病相关的变异分类五级系统。建议所有致病性(包括可能致病)的结论需要注明疾病及相应的 遗传模式(如c.1521_1523delCTT(p.Phe508del), 致病性, 囊性纤维化, 常染色体隐性遗传)。
应当注意的是, 一些实验室可能选择其他等级 (如意义不明确的变异的子分类 , 特别是内部使用时), 这种做法不被认为与指南不一致. 还应当指出的是, 某种程度上本指南推荐的术语与细胞遗传学基因芯片检测的拷贝数变异分类不同。虽然拷贝数变异分类系统也包括五级分类标准, 但是它使用“临床意义不明确-可能致病的”和“临床意义不明确-可能良性的”。由于本指南提出的“可能的”变异分类标准比拷贝数变异分类指南中用到的“可能的”包含更强的证据, 合并这两个“可能的”分类会使医务工作者和临床报告接收者产生混淆, 因此大多数工作组成员不支持使用“意义不明确的”来修饰“可能致病的” 或“可能良性的”. 然而, 有人认为“可能的”一词的使 用应限于有数据支持其致病性或良性可能性很大的变异。虽然对“可能的”一词没有量化的定义, 但是在某些变异分类系统中已有指导性意见。然而, ACMG 开放论坛的一项调查建议“可能的”这一术语具有更广泛的适用性。认识到这一点, 建议术语“可能致病的”和“可能良性的”用来说明一个具有大于 90%可能引起致病或者可能良性的变异, 尽管是人为的界定, 但还是给实验室提供了一种共同的定义。类似地, 国际癌症机构指南支持致病性的确定水平为 95%, 但是工作组(通过 ACMG 公开论坛期间的反馈确认)认为, 临床医生和患者愿意容忍略高的错误机会, 从而做出确定为 90%的决定。还应当指出的是, 考虑到多数疾病具有异质性, 目前大多数变异没有数据能将它们量化性地归于上述五个变异类别之一。希望随着时间的推移, 能够建立实验和统计方法来客观地赋予变异的致病可信度, 并且采用更严格的方法来定义临床专业人员所期望达到的可信度, 从而能更完整地诠释这些术语及可能性。
新术语的使用可能需要专业培训, 鼓励专业团队对所有实验室和医务工作者进行这些术语的培训,也鼓励实验室直接对其开具检测报告单的医生进行培训教育。
2.2 命名
建议通过一套规范的标准对变异进行统一命名来确保变异的明确定义, 并实现基因组信息的有效共享和下游使用. 标准的基因变异命名由人类基因组变异协会 (the Human Genome Variation Society, HGVS) 维护和版本化 (https://www.hgvs.org/mutnom en), 除非另有说明, 一般推荐该命名法作为确定变异命名的首要准则。实验室应该注意他们在实验方法中所使用的版本。当描述变异时,可利用这些工具提供正确的 HGVS 命名(http://mutalyzer.nl)。临床报告应该包含参考序列以确保该变异在 DNA 水平上的明确命名, 并提供编码和蛋白质命名法来协助功能注释(如“g”为基因组序列, “c”为编码 DNA 序列, “p” 为蛋白质, “m”为线粒体)。
编码命名应该使用翻译起始密码子 ATG 中的 “A”作为位置编号1来描述. 在传统命名已被使用的地方, 当今命名应该对传统命名进行额外注释。参考序列应该是完整的, 并来源于具有版本号的美国生物技术信息参考序列数据库 (http://www.ncbi. nlm.nih.gov/Refseq/)或LRG 数据库(http://www.lrg-se quence.org)。基因组坐标应根据标准基因组版本(如 hg19)或覆盖整个基因(包括 5'和 3'非翻译区以及启动子)的基因组参考序列来界定。当描述编码变异时, 应该在报告中使用和提供每个基因的一个参考转录本。该转录本应该是最长的已知转录本或者是最具临床相关性的转录本。协会支持的参考转录本通常可以通过 LRG 数据库(http://www.lrg-sequence.org)、 CDS 共识数据库(https://www.ncbi.nlm.nih.gov/CCDS/ CcdsBrowse.cgi) 、人类 基因突变数据库(http:// www.hgmd.cf.ac.uk) 、 ClinVar(http://www.ncbi.nlm.nih.gov/clinvar)或特异基因座数据库来确定。然而 , 当这些区域发生临床可解释的已知变异时, 实验室应该评估该变异对所有临床相关的转录本的影响 , 包括含有其他外显子或非翻译区延伸的可变剪切转录本。
HGVS(https://www.hgvs.org/mutnomen) 并未覆盖所有类型的变异(如复杂变异), 但是复杂变异的可能描述已被报道。 此外, ACMG 支持 HGVS 命名规则之外的三种特殊例外: (i) 除了当今 HGVS 推荐的“*”和“Ter”, “X”仍然被认为用于报告无义变异; (ii) 建议根据指定变异选择的参考转录本对外显子进行编号; (iii) 通常因为临床解释直接评估致病性, 所以推荐使用术语“致病性”而不是“影响功能”。
2.3 文献及数据库使用
目前人类基因组中大量变异不断被发现, 且已被许多数据库广泛收录。当临床实验室需要对某一变异进行分类并出具报告时, 可在已有的数据库及发表的文献中寻找到有价值的参考信息。如上文提及, 序列数据库还可用于确定合适的参考序列。数据库有助于信息收集, 但需谨慎使用。
人群数据库(表1)适用于获取某变异在大规模人群中发生频率的相关信息。 需要注意的是, 人群数据库中的信息不仅来源于健康个体, 也包含致病性的变异。另外, 人群数据库并不包含变异的功能效应及可能关联的表型等相关信息。在使用人群数据库时, 须明确数据库收录的是健康群体的信息还是患病群体的信息; (如能确认)数据库是否收录了同一家庭多名成员的信息以及数据库收录的受试者的年龄范围。
疾病数据库(表1)主要包含病患中发现的变异以及对其致病性的评估。疾病数据库和特定基因的数据库常包含一些分类错误的变异, 这些变异在已发表的同行评审的文献中被错误判定, 而多数数据库在收录变异相关信息时并未对证据进行基本的审核。因此, 在使用疾病数据库时, 考虑患者是如何被确诊的尤为重要, 如下所述:
当使用数据库时, 临床实验室应做到: (i) 确定数据库的更新频率, 确定数据库收录相关数据时是否进行了校勘, 以及采用什么方法进行数据校勘; (ii)确认采用 HGVS 命名体系, 并确定描述变异的基因组版本和转录本参考序列; (iii) 确定数据分析准确度的验证程度(如变异是源自于低覆盖的新一代测序, 还是通过了Sanger 测序验证), 并分析用于评估数据准确度的各种指标, 要获得这些信息可能需要阅读相关的文献; (iv) 确定收录对象的来源及其唯一性。
变异解读也需要检索科学和医学文献。在参考一些采用旧的命名和分类系统或基于单一观察结果的文献时需要慎重。在参考携带某一变异并伴有相关表型的个体和家系的信息时, 考虑患者是如何被确诊尤为重要。在评估这些文献的数据时需要谨慎客观, 这是由于受累患者及相关个体在基于不同背景和规模的研究中常常被多次重复报道。重复报道的发生可能是由于作者重叠、实验室间合作或先证者及其家庭成员同时被不同临床系统随访。而这些重复报道可能会导致受累个体被错误地重复计数, 进而使变异频率假性增高。作者或其研究机构互相重叠是发现数据集重复的第一线索。
临床实验室应建立一个内部系统对已报告的基因序列变异及临床诊断进行记录。这对于分析基因型-表型之间的相关性, 以及该变异在患者和正常人群中的发生频率尤为重要。临床实验室也应该积极提交变异数据到相关数据库, 如 ClinVar 数据库, 包含提交临床评估信息以及用于变异分类的证据, 以帮助人们不断加深对人类遗传变异所产生的效应的理解。在任何时候, 提供临床数据应遵循“健康保险携带和责任法案 (HIPAA)”对个人隐私保护的规定。临床实验室应与临床医生合作, 以获得临床信息, 从而更好地理解基因型是如何影响临床表型的, 并解决不同实验室对遗传变异解读存在差异的问题。临床变异数据库极大地促进临床实验室工作的开展 , 因此需对其进行扩展并标准化。标准化便于临床实验室获取数据库的最新信息, 同时有助于提交更新的信息。例如, ClinVar 数据库允许变异连同临床表型和诊断相关信息一并提交, 同时追踪提交变异的审核状态, 以便对校勘质量的水平提供一个更加透明的概貌。
2.4 生物信息学计算预测程序
各种公共和商业化计算机工具可以辅助解读序列变异。每种工具使用的算法可能有差异, 但都会包含序列变异在核苷酸及氨基酸水平上作用影响的判断, 包括变异对主要转录本, 可变转录本, 其他基因组元件影响作用的确认, 也包括对蛋白质潜在影响作用的判定。这些工具主要分为两类: 一类可以预测错义变异是否会破坏蛋白质的功能或结构; 另一种可以预测是否影响剪接(表2)。新的工具已可以处理额外的非编码序列。
错义改变的影响作用是由不同的条件决定的 , 例如一个氨基酸或核苷酸的进化保守性、其在蛋白质序列中的位置及其上下游序列, 以及氨基酸置换导致的生化结果等。对各种计算机算法中的一个或几个条件进行评测可以进一步评估错义改变带来的影 响。已经有一些工作在评估预测软件的预测性能, 是通过对这些预测软件之间的相互比较评估他们预测已知致病突变的能力来实现的。一般情况下 ,多数算法预测已知致病的错义突变的准确率能达到65%~80%。但是大多数工具的特异性较低, 导致有些错义改变被过度预测为有害突变, 而且对于影响较小的错义变异的预测也不可靠。目前临床实验室常用的错义变异解读工具有PolyPhen 2, SIFT和 MutationTaster。用于预测错义变异的生物信息分析工具见表。
目前已开发出许多用于预测剪接的软件, 这是基于内含子或外显子水平上剪接位点的丢失或产生原理基础上而完成的。一般情况下, 相对于特异性(60%~80%), 预测工具在预测剪接位点异常方面具有较高的敏感性(~90%~100%)。一些常用的剪接位点预测分析计算工具见表2。
虽然许多不同的分析软件程序使用不同的算法进行预测, 但其基本原理是相似的; 因此, 在序列解读中, 不同软件工具组合的预测结果被视为单一证据而不是相互独立的证据。因为每个软件工具基于他们使用的算法都各有优缺点, 所以仍然建议使用多种软件进行序列变异解读; 很多情况下, 预测性可能因为基因和蛋白质序列的不同而有差异。无论如何, 这些软件分析结果只是预测, 他们在序列变异解读中的应用应该慎重, 不建议仅使用这些预测结果 作为唯一证据来源进行临床判断。
本文整理自《中国科学: 生命科学》杂志,侵删
【干货】SNP注释神器VEP如何C位出道?你的全外/人重选对软件了吗?
MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍
云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块
云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块
云课堂(10) | MicrobiomeAnalyst在线绘图教程
云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南
云课堂(17) | Cytoscape内插stringAPP完成PPI蛋白互作分析指南
Enrichment Analysis 模块 | 云课堂(18)
蛋白质组学搜库数据下载 | 云课堂(19)
samtools常用指令 | 云课堂(20)