查看原文
其他

同样的群体材料发表多篇高分文章的密码(1)| 群体遗传专题

靠谱er 联川生物 2022-06-07


首先靠谱er抛出一个俗气的问题:同样的群体材料,如何从不同角度切入才能发表多篇高分文章呢?群体遗传由于其特殊性,在研究中我们可能会经常碰见此类问题:同样的一套群体材料,不管是测序还是其他genotyping的方法,基因型始终是不变的(假设遗传群体为永久性分离群体 ),而表型却可以不同,关联分析/连锁分析完成之后,如何整理数据并根据不同结果发表多篇SCI论文呢?今天我们就结合实例看看如何提前谋划,然后出奇制胜。

2019年4月到2019年12月,四川农业大学玉米研究所沈亚欧课题组连续投稿了4篇利用玉米的自然群体和遗传群体进行不同表型关联分析和连锁分析的研究,最后文章分别成功发表在Plant Biotechnology Journal(一区top),Theoretical and Applied Genetics(一区top),Physiologia Plantarum(二区)和Molecular Genetics and Genomics(三区)上,总影响因子19.54,平均影响因子接近5。从投稿到接收平均耗时3.5个月,速度可以说比较快了。这个也从侧面说明了关联分析和连锁分析联合起来的相关研究受欢迎的程度。这四篇paper的截图分别如下:

下面我们先解构下这四篇文章的材料和方法情况。

这四篇paper所用的GWAS材料均为2016年发表的一套“华南育种计划”中的自交系材料(Zhang et al., 2016),数量上除了Physiologia Plantarum为332份之外,其他均为310份。遗传图谱QTL定位材料为玉米两个非常著名的自交系B73XMo17杂交构建的Syn10 DH系(原始DH系包含360个系),该DH系构建历史悠久(Hussain et al. 2007),并有大量研究者利用该系对诸多性状进行了QTL定位。四篇paper中材料的具体数量均不同,范围在250-274之间,推测同一年同一点种植管理的材料一致,但是部分DH系表型鉴定的时候出现问题导致减员,不过这对后续不同表型的QTL定位工作无甚影响。这些经典的材料的既往研究成果也为讨论部分提供了绝佳的素材。

表型考察为这4篇paper的亮点工作。最少的环境出现在Physiologia Plantarum中,关联群体3个环境,QTL定位群体2个环境。最多的研究达到9个环境,关联群体3个环境,QTL定位群体6个环境,这个也是这篇paper能发表在Plant Biotechnology Journal的原因之一。每种环境也有2个生物学重复试验。这种地和考种的规模,工作量让人感动得想哭……表型考察时间在2015-2017年三年内,集中在2016年和2017年。材料种植地点主要分布在四川和云南,个别年份种植在河南新乡和新疆昌吉,而且新乡和昌吉仅限于DH系群体,靠谱er猜测关联分析的材料收集于西南地区,在其他地方的适应性不太好,所以仅种植于四川和云南,而由DH系的Mo17和B73作为亲本配制的杂交种种植地广泛,故地域跨度较大。这四篇paper具体的表型为:Plant Biotechnology Journal聚焦在籽粒大小(籽粒长度,籽粒宽度和籽粒厚度),Theoretical and Applied Genetics则专注于玉米产量相关性状(穗轴直径,穗轴重量,穗直径,穗长度,穗行数,单穗重,百粒重,每穗行粒数,每穗粒重),Physiologia Plantarum的表型为玉米穗凸尖,Molecular Genetics and Genomics的表型为玉米籽粒容重。从表型上来看,产量绝对是当前玉米最关注的的性状之一。影响力较大的Plant Biotechnology Journal,Theoretical and Applied Genetics两篇paper为两种类型,一种是聚焦在某个表型上,然后深入挖掘,克隆到基因或者阐明性状形成的分子机制,一种是平台式的研究,讲究宏大(某类表型,数量较多)但是不去深入探究,像本文的产量相关性状,仅仅深入挖掘表型靠谱er都认为能发表Field Crop Research这种级别的杂志。而Physiologia Plantarum和Molecular Genetics and Genomics上的两篇paper同样专注于某个表型,发表paper影响因子高低的一个重要参考是定位结果的情况,定位结果越好,影响因子也就越高。当然,实验设计的完整性也是一个因素,下文我们慢慢分解。

关联分析群体的基因型鉴定采用Maize SNP50K Bead Chip,50K的芯片SNP密度在今天看来较低,关联定位的分辨率肯定不及重测序,且在鉴定候选基因时劣势明显。而且需要较高密度才能得到更可靠结果的单倍型分析,受选择分析内容均未出现在这4篇paper中。DH系群体的遗传图谱和个体的基因型均采用传统的基于PCR/跑胶的标记,遗传图谱包含了6618个bin标记。由于这4篇paper中用到的DH数量少于360个,因此QTL定位的分辨率会低于6618个bin 标记的平均物理距离。

数据分析方面,表型数据分析比较一致,单个表型基本上都采用了方差分析(ANOVA),表型的广义遗传力计算,不同环境的基因型和环境互作分析,但是普遍缺少了联合方差分析,靠谱er猜测可能不同环境之间差异较大,因此这部分内容并未反映在文章中。由于在多种不同环境中鉴定了表型,作者还对表型进行了最优无偏线性估计(BLUP),将估计的结果作为一个新的表型用于定位分析。在GWAS关联上,为了充分挖掘定位信息,或者说为了测试最好的结果,四篇文章均采用了不同的关联模型进行,最丧心病狂的是Molecular Genetics and Genomics文章中用了GLM(分考虑以及不考虑PCA)+CMLM+MLM(分考虑以及不考虑PCA)+farmCPU 6种关联模型。所有模型中,FarmCPU模型则是常客,在PBJ文章中,基于FarmCPU模型结果中作者还计算了每个SNP的结实表型变异率(PVE)。FarmCPU很强大,但是不一定是最适合的,比如Physiologia Plantarum的凸尖表型GWAS中,MLM模型(考虑PCA)最适合,故只采用了该模型的结果。GWAS的阈值选择上,多是采用了Bonferroni校正(005/n),但是在n的选择上,最严格的的是采用关联分析入选的SNP数量,也有利用R包中的simpleM program计算有效SNP数量后进行Bonferroni校正(Gao et al.2008),此时的SNP数量会大大减少,阈值此时就比常规Bonferroni校正松了。还有为了最大可能获得不同环境中均能检测到的SNP位点,将-log10p阈值固定为4(最宽松的阈值)。QTL定位的方法则比较一致,均采用的WinQTL Cart2.5的CIM模型,阈值多数为LOD=2.5,其中Physiologia Plantarum的文章中还用到了1000次的PT检验作为阈值。这里靠谱er插播一个私货,QTL定位阈值的选择多半是看菜下饭,如果定位的结果很好,可以用更严格的阈值,而如果定位结果一般,则用较宽松的阈值,但是也不能无限宽松,一般LOD=2.5就是宽松的极限阈值了。

 

本次解构就到此为止,下期将继续解构实验设计和结果部分,请继续持续无条件关注。


参考文献

Gao X, Starmer J, Martin E R. A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms]. Genetic Epidemiology: The Official Publication of the International Genetic Epidemiology Society, 2008, 32(4): 361-369.

Hussain T, Tausend P, Graham G, et al. Registration of IBM2 SYN10 doubled haploid mapping population of maize]. Journal of Plant Registrations, 2007, 1(1): 81-81.

Zhang X, Zhang H, Li L, et al. Characterizing the population structure and genetic diversity of maize breeding germplasm in Southwest China using genome-wide SNP markers. BMC genomics, 2016, 17(1): 1-16.




点击下方图片进入OmicStudio资料汇总(整合了B站和公众号中的精品资源,及时更新,永久有效)

云平台网址:https://www.omicstudio.cn

云平台特点:

  • 免费免费免费

  • 所见即所得

  • 生信人员直接开发

  • 可下载PPT格式

  • 绘图带数据处理功能 

  • 分析参数多样(结合多年售后经验提供) 

  • 一键分析 

联川生物云平台OmicStudio至今已帮助28000+科研伙伴处理各类组学数据,点击量累计超77000+。目前提供多种云工具、生信分析流程以及各种干货资料和用户文章,已被Theranostics,Bioresource Technology Reports等杂志的多篇文章引用。


相关阅读

植物基因克隆发Nature的秘密全在这里了 | 群体遗传专题

Nature Genetics|从GWAS结果里挖掘候选基因方法|群体遗传专题

2020 PBJ|关联分析和连锁分析解析玉米籽粒大小的遗传结构|群体遗传专题

一文说清楚BSA如何确定混池规模 | 群体遗传专题

结合甜瓜实例来了解群体结构分析三剑客 | 群体遗传专题

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存