首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
1
2
123456
3
kN
4
九边
5
@i商周
6
@葫芦岛都市网
7
@贵平老师
8
@志云说
9
@宾曰语云
10
鱿鱼游戏
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
1
2
123456
3
kN
4
九边
5
@i商周
6
@葫芦岛都市网
7
@贵平老师
8
@志云说
9
@宾曰语云
10
鱿鱼游戏
分类
社会
娱乐
国际
人权
科技
经济
其它
中美友好合作故事——十万名中国弃婴长大了
中美友好合作故事——十万名中国弃婴长大了
看个病要排队两年,癌症都被拖成晚期
不仅要看已抓谁,还须一直抓到没
话费充值活动来了:95元充值100元电话费!
生成图片,分享到微信朋友圈
查看原文
其他
Science Bulletin | 中国农业大学团队开发多组学数据关联分析挖掘玉米种质资源方法
植物科学最前沿
2023-03-29
2022年 2月 12日,中国农业大学农学院、国家玉米改良中心王向峰教授在著名国际学术期刊
Science Bulletin
(影响因子:11.78)上发表了题为“
MODAS: exploring maize germplasm with multi-omics data association studies
”的方法学研究论文 [1]。
农作物种质资源精准鉴定与基因挖掘是从源头上实现种业创新、保障粮食安全的根本路径,是生物育种重点攻关的关键技术之一。
全基因组关联分析(GWAS)是通过推断基因型与表型的关联显著性,实现挖掘种质资源的常规手段。但是,基于基因型-表型的传统GWAS分析存在诸多不足
,如:1)GWAS仅能定位到基因组区间,而区间内功能基因及其变异(Causative gene and mutation)的精准定位,仍然需要研究人员根据生物学知识进行主观判断选择;2)对于多个微效基因决定的复杂农艺性状,GWAS挖掘基因的能力十分有限,很难准确定位功能基因;3)GWAS分析仅仅获得基因型与表型之间的“关联”信息,至于两者之间是否存在因果关系(Causal relation)就不得而知了。随着转录组、代谢组、蛋白组、表观遗传组(共同定义为分子性状,mTrait:molecular trait),以及表型组(定义为表型性状,pTrait: phenotype trait)等各种组学技术的飞速发展与检测成本的大幅降低,聚焦一套公共核心种质资源开展全方位多组学研究将是种质资源研究领域的重点发展方向。
大规模、多维度的组学数据的急速积累催生了“高维生物学(High dimensional biology, HDB)”研究领域。由于多组学数据具有规模大、维度高、噪音大、异质性强等特点,传统关联分析中常用的混合线性模型很难用于HDB数据的高效、精准解析。
王向峰教授团队开发的MODAS软件运用多种先进数据分析技术解决上述问题,实现多组学数据在群体水平上的关联分析与因果推断。
MODAS包含以下六大功能模块或分析步骤:
第一步,MODAS利用Jaccard index、 DBSCAN与PCA算法对基因型数据进行降维;将全基因组范围内数百万个SNP的基因型数据,抽象成由6万个基因组区段(Genomic blocks)代表群体的遗传变异,并生成伪基因型索引文件(Pseudo-genotype index file);该文件用于分子性状(即:基因表达、代谢物等等)的过滤,以及关键基因与代谢物的初步筛选(图1)。该步骤是大幅度提升多组学关联分析的关键步骤。
图1. 基因型数据降维示意图。DFP基因QTL区域内866个SNP在500个玉米样本中的基因型通过Jaccard, DBSCAN, PCA算法降成一个维度,代表该区间的变异。
第二步,MODAS利用伪基因型文件首先将分子性状与基因组区间的关联分析;在获得显著关联的分子性状与区间后,提取区间内的SNP在进行第二部的分子性状与SNP基因型之间的关联分析,确定显著性;通过以上两步,实现分子性状的初步筛选(图2)。
图2. 通过两个步骤的区域关联分析筛选具有生物学意义的分子性状与基因组区段。
第三步,由于代谢物数据、表达数据可能存在较大的冗余,MODAS对共同关联到相同基因组区段的分子性状进行降维,降低关联分析的冗余(图3)
图3.对定位到共同基因组区段的代谢物进行降维,进一步去除冗余。
第四步,MODAS将筛选出来的具有潜在生物学意义的分子性状(Biologically meaningful mTraits)进行基因表达-全基因组关联分析(eGWAS)或代谢物-全基因组关联分析(mGWAS),确定显著相关的分子性状与QTL(图4)。
图4. 基因表达-全基因组关联分析(eGWAS)或代谢物-全基因组关联分析(mGWAS)。
第五步,MODAS将所有曼哈顿图以及QTL内基因信息进行注释与整合,生成可以网页式浏览的可视化数据库(图5)。
图5. MODAS对分析结果的可视化浏览。
第六步,MODAS应用孟德尔随机化(Mendelian randomization, MR)算法 [2, 3, 4],推断遗传变异、转录因子、目标基因、基因表达、代谢物含量、表型性状两两之间的因果关系(图6)。MR因果推断的结果可以更好的辅助生物学家建立可验证的分子通路假设,对挖掘获得的候选基因开展下游的实验验证。
图6. 应用孟德尔随机化算法推断遗传变异、分子性状、表型性状之间因果关系。
中国农业大学的刘松誉、徐峰博士生为该论文的共同第一作者,也是MODAS(Multi-Omics Data Association Analysis)软件的主要开发人。
本项目受到“合成生物学”国家重点研发计划子课题“抗逆回路在底盘作物中的智能重建与育种应用”的资助。
全文地址:
https://doi.org/10.1016/j.scib.2022.01.021
MODAS软件下载地址:
https://modas-bio.github.io/
参考文献:
1.Liu S, Xu F, Xu Y et al. MODAS: exploring maize germplasm with multi-omics data association studies. Science Bulletin 2022; Jan 31, online.
2.Zhu ZH, Zheng ZL, Zhang FT, et al. Causal associations between risk factors and common diseases inferred from GWAS summary data. Nat Commun 2018; 9:224
3.Zhu ZH, Zhang FT, Hu H, et al. Integration of summary data from GWAS and eqtl eQTL studies predicts complex trait gene targets. Nat Genet 2016;48:481-487
4.Wu Y, Zeng J, Zhang FT, et al. Integrative analysis of omics summary data reveals putative mechanisms underlying complex traits. Nat Commun 2018;9:918
植物科学最前沿,专注于植物科学前沿进展、
资讯、
招聘信息的发布及方法软件共享等
。
投稿及招聘请后台回复“投稿”
,均为无偿;
商务合作请联系微信ID:
zwkxqy
;
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存