近年来,大样本低深度全基因组测序方法(low-coverage whole-genome sequencing,lcWGS)已从理论上证明能够以极低的成本获取全基因组高密度SNP标记,进而增加QTL定位的精度并更好地挖掘各类疾病的遗传机制。近期中国农业大学胡晓湘教授团队与华南农业大学吴珍芳教授团队合作,基于MGISEQ-2000测序平台,开发了畜禽全套低深度测序分析流程,并进行猪重要经济性状遗传结构的解析,研究成果以题为“Accelerated deciphering of the genetic architecture ofagricultural economic traits in pigs using a low-coverage whole-genomesequencing strategy ”发表在国际期刊 Gigascience (5-Year IF:7.715)。该研究论证了低深度测序技术在没有优质参考单倍型数据库的畜禽物种中的高效高质填充方法,解决了育种中重要的“卡脖子”问题,展示了在功能基因定位和重要经济性状遗传结构解析中的巨大优势,为我国“十四五规划”种业振兴行动方案提供了完全自主知识产权的新型遗传分析方法和育种理论依据。
研究中采集了同一育种场的2869头杜洛克公猪,使用自主优化的Tn5转座酶方法进行基因组文库构建,于MGISEQ-2000平台进行平均0.73×低深度全基因组测序,优选BaseVar-Stitch流程进行Reference Panel构建和基因型填充。同时利用3种不同分型方法(SNP芯片、高深度测序、Fluidigm基因分型) 对低深度数据进行准确性评估,且采用不同参数评价了样本量和测序深度对准确性的影响(图1)。
基于lcWGS的 BaseVar-STITCH分析流程性能评估与15X重测序结果相比,基于低深度测序数据的BaseVar-STITCH分析流程可得到高准确性基因型(R² = 0.919, GC = 0.970) ,超过了基于GATK-Beagle分析流程结果(R²= 0.484, GC = 0.709) (图2 A)。与GGP-80数据(SNP芯片)相比,BaseVar-STITCH结果显示更高的GC一致性和R²值(R² =0.997, GC = 0.990)(图2 B)。此外,与BaseVar-STITCH数据相比,基于Fluidigm基因分型(16个位点,191个个体),平均GC为0.991。综上所述,BaseVar-STITCH流程是一种适用于lcWGS策略的变异检测和基因填充的分析方法。基于0.5×WGS数据进行STITCH分析,在样本量>500时对结果影响不大。在0.1×WGS抽样测序深度下,增加样本量至1985可大幅提升分析结果(图2 C和D)。总体来说,随着测序深度/样本量的增加,结果持续改善,单个位点>200×的总测序深度可保证研究中基因型的可信度。
图 2 BaseVar-STITCH在不同次等位基因频率(MAFs)和样本量中的分析性能注:计算基因型与估算剂量之间的相关性(R²)和基因型一致性(GC),以评价基因型的准确性研究对21个猪重要经济性状进行了全基因组关联分析和遗传结构解析,并系统评估人工选择在杜洛克猪育种过程中对基因组结构产生的影响。对存在主效QTL的性状,利用高密度标记一步法鉴定到了影响猪乳头数的候选主效基因ABCD4、背膘厚的候选主效基因HMGA1;对于遗传力高但不存在主效基因的性状,挖掘到了影响采食行为的重要神经通路中大量微效基因,并清晰地展示了数量遗传经典的“无穷小模型”,为下一代基因组选育提供了理论基础;此外,本研究还发现该群体经受长期人工选择后,生长类性状所表现出来的QTL固定、遗传力丢失等显著遗传变化,证明了该父系群体生长性状前期选育取得的显著成效。本次研究首次建立了适用于低深度测序的BaseVar-Stitch基因分型流程,以极低成本获得了目前杜洛克猪最大群体 (2869头) 的高密度SNP标记集 (11.7M),用三种不同方法评估的分型准确性均超过99%,证明了本研究创制的大样本无参自我填充策略相较于传统基于小样本高深度数据填充,具有显著先进性。本次研究中获得了10M数量级别的高密度标记,且在基因组上分布均匀,与高深度数据注释比例高度一致,可挖掘Novel SNPs。
大样本低深度重测序展示出极高的基因分型准确性(>99%),远高于传统基于少量样本高深度数据作为ref进行填充的策略(86%-95%)。
在设计低深度重测序项目方案时,推荐样本量应>2000个,测序深度应在0.4X-1X之间。lcWGS基因分型为大样本量项目,因此研究团队不断在优化实验和分析环节的大通量样本的速度,通过在建库环节引入自动化,在分析环节进行加速,以进一步降低测序和分析中的时间成本,加速项目周期,以契合产业化分子育种周期效益需求。
有效的育种往往是大群体水平的高强度选择,而大样本低深度重测序在不影响基因分型准确性基础上可有效降低单个SNP成本,从而降低全基因组选择中的基因分型成本。
中国农业大学杨瑞飞博士、郭晓莉博士、博士研究生朱迪为本研究共同第一作者,中国农业大学新进教师王宇哲博士和华南农业大学吴珍芳教授为本研究通讯作者,中国农业大学胡晓湘教授为本研究资深作者。本研究受到国家转基因重大专项 (2016ZX08009003-006),农业部948计划 (2012-G1(4)),广东省重点领域研发计划 (2019B020203002),广东省院士工作站 (2011A090700016) 的支持。华大智造致力于成为生命科技核心工具缔造者,专注于生命科学与生物技术领域,为精准医疗、精准农业和精准健康等行业提供实时(Real Time)、全景(Whole Picture)、全生命周期(Life Long)的生命数字化设备和系统。华大智造MGISEQ-200、MGISEQ-2000、DNBSEQ-T7不同通量测序仪可满足分子育种应用中企业、研究单位和政府机构对不同检测样本量和检测速度的需求,同时搭配MGISP-960自动化核酸提取和样本文库制备系统,可进一步较少人力和时间成本,加速产业化中分子育种周期。
参考资料:
[1]Yang R, Guo X, Zhu D, et al. Accelerated deciphering of the genetic architecture of agricultural economic traits in pigs using a low-coverage whole-genome sequencing strategy[J]. GigaScience, 2021, 10(7): giab048.
国产WES测评|华大智造MGISEQ-2000测序平台值得信赖
用户分享 | 浚惠生物点赞MGISEQ-2000:为肿瘤单细胞基因组测序进入临床打通关键技术壁垒!
10项研究 | 基于MGISEQ-2000平台的肿瘤临床研究专题分享
科研快讯 | MGISEQ-2000助力单倍型组装技术开发