查看原文
其他

群体作物大数据,大牛这样发高分文章!

小萍 华大科技BGITech 2019-06-02

编者按


随着测序和信息分析技术的不断进步,相关高分文章越来越多,特别是与人类生活息息相关的物种,在Google学术上一搜,一些作物的测序相关文章数量逐年上升,而且每年文章数都破万(图1)。


图1 Google学术搜索获得文章数


另一方面,人口持续增长和气候变化,给农业生产带来了前所未有的挑战。从传统育种到分子育种,再到精准育种,基因组学技术不断促进育种进程,并最大限度地有效利用资源的多样性。那么,在高分文章越来越难发的当下,如何充分挖掘种质资源的潜力?如何发文章并促进育种实践?又如何提高研究的逼格呢?今天科技君就和您一起看看,作物育种研究的潮流和大牛动向!




Nature Genetics

2万大麦GBS测序构建大麦种质数据库 [1]


基因库/种质资源库充当着“诺亚方舟”的角色,一般都会收集非常多重要物种的种质资源,这些资源是保证物种多样性、保障粮食安全的后盾。且种质资源大多按照分类和起源等有限信息进行记录,很多信息是数十年前非电子信息,在物理转运过程中很容易丢失。


许多研究都发现,动植物遗传差异与地理来源相关,一些遗传差异来源于育种实践。如果有了品系的遗传信息,不仅能用于指导基因库的品种保存和补充不完整的登记信息,而且可以利用关联分析,关联遗传信息和表型信息,帮助在育种过程中充分利用基因库中的遗传资源。


本研究由布尼茨植物遗传和农作物研究所(IPK-Gatersleben)主持对德国联邦ex situ基因库的所有大麦进行基因型鉴定,用于研究基因库中大麦的遗传多样性,并进一步研究在作物进化过程中,基因和位点的受选择情况


1. 为种质库样本建立分子身份证

对22626个DNA样本进行GBS分型,其中21405份来自IPK大麦中心,还有297份来源于中国农科院国家作物种质库,684份来源于瑞士联邦农业科学院国家基因库,240个GBS数据来源于之前的研究。研究的样本包含了驯化大麦和野生大麦。所有样本采用PstI-MspI双酶切GBS进行测序,测序reads比对回参考基因组检测SNP。


表1 GBS测序检测的驯化大麦和野生大麦SNP统计


PCA分析结果展示亚群分化与大麦的驯化状态相关(图2a),驯化大麦遗传结构与地理来源紧密相关,例如在PCA分析中,第一象限PC1为东方大麦和西方大麦,PC2是埃塞俄比亚大麦(图2b)。ADMIXTURE按照共祖先系数k=2-12进行计算,结果与PCA分析结果一致。除了地理因素,生长习性和与最终使用相关的形态特征(行数、有无壳等)也与群体的划分相关。从20世纪起,由于登记信息错误或是在育种过程中利用了外来种质,造成研究中的分析结果与登记的信息不一致,基于遗传分析可以弥补传统的基因库登记信息。研究中将没有来源记录的373个地方种被划分到了混杂亚群。


图2 大麦品系遗传结构。a. 22621个野生和驯化大麦基于171263个SNP做PCA分析样本。b. 基于76102个标记做19778个驯化大麦的PCA分析,不同颜色代表不同地理来源。c. 知道出处的17640个样本的共祖先系数分析(k=3,12)。


2. 利用遗传信息识别种质库中的冗余,筛选核心资源

过去基于最初的登记信息进行不同种质库间的材料交换。传统登记方式信息简单,且容易出错,使得保持基因库储存的种质无冗余成为很大的挑战。遗传分析能用于检测样本间的相似性,本研究利用GBS数据分析IPK的种质,发现2229个组,组内样本高度相关,每组样本数2-112个。IPK中大麦种质有33%左右为重复样本,超出根据记录记载的评估值。基于基因型数据,有利于进行种质资源的管理和利用,但是重复种质其实也是安全保障。同样基于遗传数据还能分析基于地理位置定义的种质群体间的遗传相似性,能帮助基因库资源管理和制定资源交换的策略。


3. 大群体的GWAS分析,检测重要性状相关基因

本研究利用核心种质进行GWAS分析,对形态学特征、大麦芒特性和重要的农艺性状,进行了基因型数据与表型数据的关联分析。基于大群体,能检测到原来遗传分析中检测不到的位点。而且许多农艺性状是数量性状,容易受环境的影响,种质库有积累多年的表型数据和基因型数据,还能用于研究环境互作,更有利于帮助筛选有利基因。


1)形态学特征的关联分析

大麦主要有二棱大麦、六棱大麦,区别就是麦穗断面为二行麦粒或六行麦粒。六棱大麦在世界上种植区域更广,但是在中东二棱大麦比较多,因为它的谷粒均匀度更高,而受到麦芽制作产业的青睐。在1000个核心种质中鉴定大麦外形并进行关联分析,除了检测到之前已知的VRS1INT-C与六棱大麦外形相关,在1H上又检测到一个强信号,与二棱大麦和六棱大麦外形相关(图3b)。猜测1H上的基因在六棱大麦中受到选择,用于增加侧部花序的生育力和侧部谷粒大小。野生大麦和有壳大麦有谷壳保护着谷粒,但是也增加了人类食用的难度,NUD基因丧失功能后成为裸大麦。GWAS分析和FST分析都显示NUD与大麦无壳相关(图3c)。虽然在其他的染色体上也检测到信号,但可能是因为单起源的建立者效应。

图3 形态学特征的全基因组关联分析。a. 侧部花序生育力关联分析。红色和蓝色箭头分别代表VRS1INT-C的位置。b. 六棱大麦和二棱大麦的遗传差异(FST)。 c. 有无外壳的关联分析结果,绿色箭头代表NUD基因位置。


2)大麦光滑芒的选择

大麦很显著的特征之一是它长而直立的芒——这为农民收割和动物取食都带来麻烦。无芒大麦虽然存在但是并未被广泛种植,因为芒的存在对于野生大麦来,有利于它的传播,而且芒的缺失还会影响光合作用,影响产量。为了中和这种影响,光滑芒大麦在很多地方种植,但是在全球的种植优势并不明显。


为了解释光滑芒的机理,本研究选择1000个核心种质进行GWAS分析,在5H长臂上检测到强信号(图4b),这个之前与双亲衍生群体中被定位过芒性状相关的raw1位点重合(图4c),同时还发现这个位点周边有个HORVU5Hr1G086520基因与水稻中的LABA1基因同源。LABA1基因参与细胞分裂素合成,能增加稻芒表皮细胞中的细胞分裂素含量。在大麦作图群体的双亲间此区域检测到一个非同义差异位点(c.1186G> A)(图4d),我们发现一个等位基因功能缺失,降低了表皮毛的长度(图4e-g)。


图4 ROUGH AWN1基因定位。a. 大麦芒的粗糙程度。粗糙芒(上)和 光滑芒(下)的电子显微镜图。b. 大麦芒粗糙程度的关联分析结果。 c. 利用来源于Morex × Barke 杂交衍生的F8群体中180个粗糙和光滑芒混合样本做定位分析。 d. ROUGH AWN1 基因的外显子-内含子结构图,Barke 和 Morex间存在一个非同义差异突变 (c.1186G> A) 。e–g. 大麦第四个外显子TILLING突变体后代芒粗糙度比较,(e)为纯和野生型, (f)为杂合型, (g)为纯和突变型。


3)利用多年数据进行农艺性状的关联分析

作物研究常常关注重要的农艺性状如产量、株高、开花时间和抗病性等,这些性状往往是数量性状,且易受环境的影响。这些表型数据如果由基因库去收集会是很庞大的工作,而且由于基因库中保存的大量种质并不适合于当今的育种实践,所以结果会如何也很难确定。但是基因库收集大量的数据,就有机会进行大规模的关联分析,并将研究结果用于育种过程中。像本研究用了从1946年以来收集到的69代的数据信息,提取了9903个春大麦的开花期,通过数据过滤和去除异常值,研究环境效应和变异的不均一性,GWAS分析有3个结果与已知开花期基因(2H上的PPD-H1、5H上的VRN-H1、7H上的VRN-H3)位置接近(图5a)。但是要注意的是,这里所有的地方种都被种植在德国中部的同一个环境下,但是有可能一些品种对环境并不适的,所以检测到的表型数据可能会有偏差。


利用31年(1985-2016年)的1894个冬大麦的抗黄色花叶病毒(BaYMV)和大麦和性花叶病毒(BaMMV)的表型数据进行关联分析,在3H长臂上检测一个BaYMV抗性位点(图5b)与已知的编码真核生物转录起始因子4(Hv-eIF4E)的rym4/5位点比较接近。Hv-eIF4E对BaYMV和BaMMV都有效,同样rym4/5位点与BaMMV抗性高度也相关(图5c)。另外在4H长臂上检测到另一个强信号,落入了Taihoku A × Plaisant 群体研究中定位的与BaMMV相关的区间。并且Taihoku A携带有rym13抗BaMMV,甚至胜过于Hv-eIF4E。但是本研究是基于自然群体进行的关联分析,发现Taihoku A对BaMMV的抗性并不是一个独立事件。等位基因rym13在控制BaMMV感染中发挥着重要作用,这个基因可能是由东亚的农民选择的,那也是许多抗性品系的起源地。

图5 农艺性状的关联分析。a. 春大麦开花期关联分析结果,蓝色、红色和紫色箭头分别代表与开花期相关的基因PPD-H1 , VRN-H3VRN-H1。b. IPK基因库中冬大麦BaYMV抗性关联分析结果。c. IPK基因库中冬大麦BaMMV抗性分析结果。绿色箭头代表Hv-eIF4E (rym4/5),蓝色箭头代表rym13位点。表型数据分别来自的样本数,(a)为8,825,(b) 为1,852和(c) 为1,894个。




Nature

3K水稻重测序剖析水稻种质资源遗传多样性[2]


由中国农业科学院作物科学研究所牵头,联合国际水稻研究所、上海交通大学、华大基因、深圳农业基因组研究所、安徽农业大学、美国亚利桑那大学等16家单位共同完成了“3000份亚洲栽培稻基因组研究”。3000份水稻来自全球89个国家和地区,代表了全球78万份水稻种质约95%多样性的核心种质研究针对水稻起源、分类和驯化规律进行了深入探讨,揭示了亚洲栽培稻的起源和群体基因组变异结构,剖析了水稻核心种质资源的基因组遗传多样性。这一重大成果将推动水稻规模化基因发掘和水稻复杂性状分子改良,提升全球水稻基因组研究和分子育种水平,加快优质、广适、绿色、高产水稻新品种培育。目前3000份水稻种质已经发放给40家科研单位、高校和育种单位,发放超过4万份次,用于大规模发掘影响水稻高产、抗病虫、抗逆、优质新基因和育种应用,全面开始推进水稻全基因组分子育种。


科技君曾解读过文章,点击回顾:

解读 | 3000份水稻重测序为“geng”稻正名


3K 水稻项目反应了大规模基因组学研究的潜力,如果所有的品系都被测序将构建一个大型的数字基因库。下一步的研究将会集中到将水稻的基因型和表型进行关联,检测不同大田和实验环境下的表型值,并鉴定哪些基因、哪些标记与目标性状关联,去指导和加快水稻的育种进程。当我们把控制农艺性状的基因研究透彻,未来实现水稻的分子设计育种将成为可能。



文章&数据库&应用软件&育种

20万份小麦和玉米GBS测序促进种质资源的育种应用[3]


CIMMYT(国际玉米小麦改良中心)种质库有14万小麦和2.8万玉米样本,代表了广泛的遗传多样性。为了促进这些资源到作物改良应用,SeeD(Seeds of Discovery)利用遗传分析技术去扫描CIMMYT玉米和小麦种质的多样性,开发有用的、新的遗传信息用于育种实践。SeeD是由多部分组成,包括CIMMYT和墨西哥农业部一起发起的传统农业的可持续现代化项目、国际农业研究磋商组织(CGIAR)在玉米和小麦上的研究项目、由英国生物技术与生物科学研究理事会(BBSRC)支持的计算基础设施和数据分析项目。


SeeD可能是迄今为止全球范围内最全面的基因库鉴定工作。他们对来自基因库和基因渐渗群体的多达20万个DNA样本进行基因型鉴定,同样还会对有重要农艺性状的群体进行基因型和表型鉴定。到2016年中,已完成了10万个小麦和4.45万玉米样本的基因分型,数据都已经公开放到了SeeD网站上。


SeeD项目在保证参与者公平分享利益的前提下,鼓励各种资源和信息的共享,以促进资源利用和下游产业的开发。项目内容不仅进行样本基因型表型数据的收集、数据标准化、存储、数据可视化、大数据分析、咨询等。信息分析内容包含了PCA分析、系谱研究、遗传图谱&物理图谱可视化、指纹图谱、表型&基因型&环境型数据、育种相关数据等等。SeeD还利用相关数据,设计软件搭建遗传资源利用平台,方便所有育种和研究人员利用数据、进行种质鉴定或指导育种研究。


来自CIMMYT、丹麦、印度、墨西哥、巴基斯坦和英国的40多位科学家一起利用高通量测序数据和多环境下的表型数据研究六倍体小麦,利用外来基因组用于pre-breeding[4]Pre-breeding是指利用野生或外来小麦或玉米的优良基因,用于育种实践。研究通过合作开发、评估和培育新的遗传资源以应对气候变化下的粮食安全问题。研究团队开发了大量的pre-breeding材料,对重要的性状包括产量、质量、抗病性等进行评估,Pre-breeding 和haplotype-based方法研究性状相关的基因信息。研究发现通过外来种质与CIMMYT的优良品种杂交,来源于外来种质的基因,能提升品种生物性和非生物性胁迫的耐受力。将外来种质中的优良基因导入现有的商业品种中是加速育种的一种方式,而本项目则大大缩减了寻找合适的种质资源的时间。


图8 小麦pre-breeding策略。种质库中样本基因型已知,选择部分品系进行田间表型鉴定。利用表型和基因型信息进行关联分析,并将含有目标性状相关基因的种质作为供体,与优良种质杂交选育含有目标性状的优良个体。




结语


大规模的基因组测序的完成仅仅是一个开端,随着分析的深入和更多数据的产生,包含众多优良基因多样性的数据库将越来越庞大和精细,人们可以从中找到与任何性状相关的关键基因并应用到育种实践中。这将为开展作物全基因组分子设计育种提供足够的基因来源和育种亲本精确选择的遗传信息,为培育优质新品种奠定基础。


参考文献

[1] Milner S G, Jost M, Taketa S, et al. Genebank genomics highlights the diversity of a global barley collection[J]. Nature genetics, 2019, 51(2): 319.

[2] Wang W, Mauleon R, Hu Z, et al. Genomic variation in 3,010 diverse accessions of Asian cultivated rice[J]. Nature, 2018, 557(7703): 43.

[3] https://seedsofdiscovery.org/

[4] Singh S, Vikram P, Sehgal D, et al. Harnessing genetic potential of wheat germplasm banks through impact-oriented-prebreeding for future food and nutritional security[J]. Scientific reports, 2018, 8(1): 12527.



撰稿:小   萍

编辑:市场部


最近热文:

BGISEQ RNA-Seq & ChIP-Seq | 组团发高分文章,这对CP乐此不疲!

Nature子刊 | MRM助力颠覆传统进化观念,基因驱动生物演化假说再下一城!

Nature子刊 |香港中文大学林汉明教授团队联合华大基因解析全球首个野生大豆高质量参考基因组

如何规避Small RNA研究缺陷?这个关键技术来得太及时了!

硬核测序!新发文利器、被实名点赞、大数据样本护航,这个技术究竟有多刚?!

用了都说好的数据库又升级了!新版KEGG有哪些新功能?

BGISEQ PE150高质量数据开放下载!

集中爆发!自主平台BGISEQ助力发文破200篇!

不好好写文章,连烧烤都吃不起?对不起,我怕把老板吃垮了!

北京营销总部,我们在这里等您!

华大科技营销总部(北京)正式启航!

华大基因CEO尹烨博士入选国家“万人计划”



请继续关注“华大科技BGITech”,

科技君将一如既往为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存