科研 | 中国科学院:利用综合计算方法扩大栽培水稻代谢景观的覆盖范围(国人佳作)
编译:微科盟大陈子,编辑:微科盟Tracy、江舜尧。
微科盟原创微文,欢迎转发转载。
基因组规模的代谢组学分析越来越多地用于后基因组学时代的途径和功能发现。由于开发的基于质谱(MS)的技术所提供的巨大潜力受到阻碍,目前为止只有一小部分检测到的代谢物是可识别的。为了解决代谢组学中低识别覆盖率的关键问题,我们采用了代谢组学深度覆盖分析策略,整合了先进的算法和扩展的参考数据库,采用实验参考光谱和计算机参考光谱来促进结构注释。为了进一步表征代谢物的结构,我们的策略中纳入了两种方法,即结构基序搜索结合中性丢失扫描和代谢物关联网络。我们采用超高效液相色谱-四极杆- Orbitrap质谱联用技术对150个水稻品种进行非靶标代谢组学分析,并在MS/MS光谱标记(MS2T)库中对4491个代谢物特征进行了1939个注释,表明注释覆盖范围在水稻上扩展了一个数量级。我们揭示了籼稻和粳稻品种黄酮类化合物的差异积累模式,特别是O-硫酸化黄酮类化合物,并对一系列密切相关的黄酮木脂素进行了表征,进一步证明了三聚氰胺低聚木质素醇在木质素化过程中起重要作用。本研究为进一步探索植物化学多样性提供了一个很好的模板。
论文ID
原名:Expanding the Coverage of the Metabolic Landscape in Cultivated Rice with Integrated Computational Approaches译名:利用综合计算方法扩大栽培水稻代谢景观的覆盖范围
期刊:Genomics Proteomics Bioinformatics
IF:7.051发表时间:2021.02通讯作者:李轩
通讯作者单位:中国科学院合成生物学重点实验室
实验设计
1. 为了采用代谢组学深度覆盖分析策略整合先进的算法和扩展的参考数据库解决代谢组学中低识别覆盖率的关键问题;
2.使用超高效液相色谱-四极杆-Orbitrap质谱联用技术对150个水稻品种进行非靶向代谢组学分析;
3.采用非靶向代谢组学对59个水稻品种(包括40个籼稻和19个粳稻)进行了分析探究不同水稻品种的籽粒代谢特征;
4. 采用高斯图形模型(GGM)构建代谢产物关联网络,明确了籼粳品种间代谢谱的系统差异。
实验结果
为了处理UPLC-Q-Orbitrap质谱仪产生的质谱数据,我们采用了一种深度代谢组学分析策略,结合多种计算方法对串联质谱特征进行排序,并对检测到的代谢产物进行注释(图1)。代谢物注释主要包含2种互补途径,分别参考(1)从公共数据库中收集的实验参考质谱数据,(2)从结构数据库中生成生物相关化合物的电子参考质谱数据。我们利用结构模体搜索结合中性丢失扫描和代谢产物关联网络对上述文库中未引用的新代谢物的结构和潜在功能进行了进一步的表征。第一种方法利用Metlin、MassBank和ReSpect等公开数据库收集的实验参考质谱数据,评估了归一向量点积(NDP )和INCOS两种光谱相似度评分算法的性能,并选择INCOS算法进行后续分析(图S1A)。由于实验参考质谱的可用性有限,我们采用第二种方法扩大了用电子质谱数据注释这些代谢物的覆盖范围,而第一种方法不受影响。电子质谱由内部结构数据库(生物相关化合物结构数据库,SDBRC,表S1 )生成,包含从KEGG、PubChem和KNApSAck数据库中收集的8万多个生物相关化合物的结构信息,程序CFM-ID可用于SDBRC中化合物的电子裂解以及查询和参考质谱的相似评分。为了评估上述方法的性能,我们从Metlin和Massbank中抽取实验质谱作为查询集(表S2 )。在第一种方法中,以实验质谱为参照,INCOS对前1匹配的识别率为75 % ~ 79 %,对前5匹配的识别率为96 % ~ 97 %,均高于NDP (图S1A )。在第二种以电子质谱为参考的方法中,我们分别以KEGG库和SDBRC库评价其性能。前1名匹配的识别率为52 % ~ 73 %,前5个匹配的识别率为86% ~ 96%(图S1B)。采用SDBRC进行搜索的话,其识别率低于KEGG。这是由于普遍存在的异构体化合物通常具有高度相似的质谱特性,很难通过质谱分析加以区分,所以当我们采用较大的参考数据库进行搜索时,识别率就会下降。但是SDBRC含有更多的生物相关化合物,能为更多的代谢特征提供有价值的结构参考信息,将这两种方法结合能极大地扩展植物代谢组的注释范围,对我们探索水稻植物化学多样性和功能具有重要意义。
第一种方法采用公共数据库Metlin、MassBank和ReSpect收集的实验参考质谱对检测到的代谢物进行注释。第二种方法是利用生物相关结构数据库KEGG、PubChem和backpack预测的计算机模拟参考质谱,以提高对检测到的代谢物的注释覆盖率。CFM-ID软件用于计算机模拟质谱预测。采用了两种先进的方法来表征新代谢物,而没有参考上述光谱和结构数据库。采用结构基序搜索结合中性丢失扫描的方法,将未知质谱与特征片段离子和特定骨架和修饰的中性丢失进行匹配,以表征新代谢产物的亚结构。 2. 注释的MS2T文库定义了稻米的代谢多样性
为构建水稻籽粒代谢组学分析的MS2T库,我们利用150份代表性水稻样本(表S3 )。大米是从中国东南部和东北部的农田上收获的,然后混合(称为参考混合物)用于后续加工,进一步将提取液经UPLC-Q-Orbitrap质谱仪进行检测。我们采用Compound Discover软件(Thermo Scientific, v2.0)对重复分析的原始数据进行对比。首先,将正负模态检测到的158840个信号和118077个信号分别归11263个和6495个复合特征;经过质量控制和冗余过滤,正负模式分别保留2637和2446个代谢物特征,其中2234个和2123个标记了MS2光谱;最后,将这些正负模式的代谢物特征合并,得到4491个代谢物特征,其中3832个带有MS2光谱标记(图S2,表S4-S5)。随后,我们采用代谢组学深度覆盖分析技术对这些水稻MS2T文库中的代谢物特征进行注释。最后,以实验质谱为参照,我们对298个代谢产物特征进行了注释。对于其余3534个代谢物特征,使用计算机质谱作为参考注释1641个。综合来看,1939个代谢物特征在水稻籽粒MS2T库中得到注释(表S5 )。本研究构建的MS2T文库被报道为推荐文库(表S4和S5)。利用高分辨率MS、代谢组学深度覆盖分析技术和综合计算方法,我们与之前的研究相比,扩大了水稻品种的代谢物注释范围,黄酮类化合物在稻米注释代谢物增加中占很大比例。本研究中注释的黄酮类化合物表现出多种修饰,如糖基化、乙酰糖基化和硫酸化。糖基化含有单糖苷、二糖苷和己醛酸,包括RSM04010p(槲皮素-3 -葡萄糖苷)、RSM04966p (异牡荆素-7 - O-木糖苷)、RSM05128p(芹菜素-7 - O-龙胆苷)、RSM05322p(去甲氧基香豆素-7 - O-芦丁苷)和RSM02409n (芹菜素4'-葡萄糖醛酸苷) (图2A-E )。对于硫酸化黄酮类化合物,我们发现RSM02011n (商陆素-3-O-硫酸盐) (图2F )。乙酰基糖基化含有脂肪族和芳香族酰基糖苷,包括RSM05065p (三聚氰胺7-(6-丙二酰葡萄糖苷) )、RSM05648p (异牡荆素7-O- (6 '''-O-E -p-香豆素)葡萄糖 )和RSM05758p (7-O- (6-阿魏基葡萄糖基)异荭草苷 ) (图2G-I)。这些修饰使黄酮类化合物在溶解度、反应性、稳定性和功能上具有多样性。本研究注释的黄酮类化合物有助于加深我们对水稻酶修饰多样性的认识,有助于探索代谢物修饰在植物生长发育及与环境交互作用中的分子机制。
A. RSM04010p(异槲皮素):m/z 303.04922是槲皮素的特征质子化,m/z 162.1087的中性损失对应于己糖基。B. RSM04966p(异牡荆素-7-氧基糖苷):m/z 313.07016和433.11319是异牡荆素的特征质子化离子(m/z 120.043的中性损失是C-己糖类黄酮的特征),m/z 132.0404的中性损失对应于戊糖基。C. RSM05128p(芹菜素-7-O-龙胆苷):m/z271.05936是芹菜素的特征质子化,m/z324.1032的中性损失对应于两个己糖苷基团。D. RSM05322p(去甲氧基矢车菊素-7-O-芸香糖苷):m/z 315.04944和331.08078是去甲氧基矢车菊素的特征质子化离子,m/z 26/33 146.0587的中性损失对应于脱氧外显子苷(鼠李糖苷)基团。E. RSM02409n(芹菜素4'-葡萄糖醛酸):m/z 269.04575是芹菜素的特征性脱质子离子,m/z 176.0317的中性损失对应于己脲基。F. RSM02011n(商陆素3-O-硫酸盐):m/z 313.03574和329.06674是商陆素的特征脱质子离子,m/z 79.95658的中性损失对应一个硫酸盐基团。H. RSM05648p(异牡荆素7-O-(6'''-O-E-p-酰基)葡萄糖苷):m/z 308.0898的中性损失对应于一个香豆酰葡萄糖苷基团,m/z 147.04376是p-肉豆蔻酰单元的特征质子化。I. RSM05758p(7-O-(6-阿魏基葡萄糖基)异东方素):m/z 449.10651和329.06485是异东方素的特征质子化离子,m/z 338.0989的中性损失对应一个阿魏基己苷基,m/z 177.05418是阿魏基单元的特征质子化离子。黄酮的质子化前体离子[M+H]+和去质子化前体离子[M H];RSM*****p/n,在正离子或负离子模式下获得的水稻s筛选质谱序列。 3. 差异代谢谱分析揭示了籼稻和粳稻品种的特征代谢产物
为了解不同水稻品种的籽粒代谢特征,了解其自然变异,我们对59个水稻品种(包括40个籼稻和19个粳稻)进行了非靶向代谢组学分析。这些水稻品种代谢谱包含3409种代谢物特征的相对丰度(表S6)。基于代谢物特征的相对丰度,我们对59个水稻品种进行聚类分析,结果显示出籼稻和粳稻品种之间的差异模式(图3A)。从树形上看(图3B),籼粳品种之间的关系与系统发育关系基本一致。通过主成分分析(PCA),我们将籼粳品种通过第一成分(PC1)和第二成分(PC2)进行分离,表明两个亚种之间代谢谱的系统性差异(图3C)。我们采用正交偏最小二乘判别分析(OPLS-DA)对籼粳品种的特征代谢产物进行分析,根据我们的OPLS-DA模型,籼稻和粳稻品种被分为两个不同的聚类(图4A),预测值中变量重要性大于2.5的代谢物在我们的研究中被定义为特征代谢物。我们总共定义了58个特征代谢产物(表S7),这其中有11个黄酮类化合物、3个萜类化合物和2个苯丙类化合物。我们采用结构基序搜索结合中性损失扫描模式对3个新的三胞苷衍生物进行了表征(RSM03724n(三辛-O-磺酰己糖苷)、RSM04661n(三辛-O-乙酰鼠李糖苷-O-二乙酰基汉糖苷)和RSM05814p(三辛-O-阿魏糖苷-己糖苷)) (图S3A C和表S7)。相反,经愈创木酰基或酰基修饰的四种O -糖基化黄酮化合物RSM05526p (麦黄酮-4 ' - O - (愈创木酰基)醚7 " - O -吡喃葡萄糖苷)、RSM05648p (异牧荆素-7-O- ( 6"' - O - E - p -香豆酰基)葡萄糖苷)、RSM04661n (麦黄酮-O-乙酰鼠李糖苷-O-二乙酰汉糖苷 )和RSM05814p (麦黄酮-O-阿魏酰基己糖基-O-己糖苷 )在粳稻中的含量显著高于籼稻品种(图4C和表S7)。此外,两种O-硫酸类黄酮RSM02011n(商陆素-3-O-硫酸酯)和RSM03724n(麦黄酮-O-磺胺碘盐)在籼稻和粳稻品种之间存在差异(图4D和表S7)。水稻籽粒中C-糖基化黄酮和O-糖基化黄酮的差异积累模式与前人的研究一致。此外,我们将研究结果扩展到O-硫酸类黄酮,这是一种不常见的类黄酮衍生物,由磺基转移酶催化。研究表明,水杨酸硫转移酶编码基因的自然变异导致了籼粳亚种对水稻条纹病毒抗性的分化,凸显了硫酸化在水稻抗病中的重要作用。然而,关于水稻中类黄酮磺基转移酶的研究还很少。本研究揭示了O-硫化类黄酮的差异积累模式,为研究类黄酮硫转移酶活性的自然变异提供了新的视角,有利于探索类黄酮硫转移酶的生物合成基因及其在水稻抗病中的潜在功能。
A.基于3409个代谢物相对丰度的59个水稻品种热图和层次聚类。B.基于3409种代谢物相对丰度的59个水稻品种的邻接树。C.基于3409种代谢物相对丰度的59个水稻品种主成分分析得分图。PC1和PC2分别占方差的26.4%和18.9%。PC1,第一主成分;PC2,第二个主成分。
A. 以3409种代谢物的相对丰度为基础,建立了59个水稻品种的OPLS-DA评分图。OPLS-DA模型的R2X、R2Y(拟合优度参数)和Q2(预测能力参数)分别为0.555、0.99和0.98。B. 特征代谢物中四种C-糖基黄酮相对丰度的箱线图。RSM03824p,胞苷;RSM03991p,三羟基甲氧基黄酮C-己苷;RSM04142p,前霉素I;RSM04767p,二-C,C-戊糖基芹菜素。C. 特征代谢物中四种O-糖基化类黄酮相对丰度的27/33箱线图。RSM04661n,tricin O-乙酰鼠李糖苷-O-二乙酰鼠李糖苷;RSM05526p,麦黄酮 4'-O-(愈创木酰甘油基)7'-O-吡喃葡萄糖苷;RSM05648p,异牡荆素7-O-(6''-O-E-p-酰基)葡萄糖苷;RSM05814p,麦黄酮 O-阿魏酰己糖苷-O-己糖苷。D. 特征代谢物中两种O-硫酸类黄酮相对丰度的箱线图。RSM02011n,ombuin 3-O-硫酸盐;RSM03724n,麦黄酮 O-磺胺己糖。OPLS-DA,正交偏最小二乘判别分析;t[1],OPLS-DA模型的预测分量;to[1],OPLS-DA模型的正交分量。 4. 代谢物关联网络表征了参与木质化的多种黄酮类化合物
基于网络的分析广泛应用于代谢组学研究,以了解代谢产物的相互作用、结构表征和通路阐明。以往的研究表明,具有相似结构的代谢物通常在丰度上表现出相关性,因此已知的代谢物可以通过代谢物关联网络来推断未知的代谢物的结构。我们利用59个水稻品种的代谢谱(图S4A和表S8),结合高斯图形模型(GGM)构建代谢产物关联网络,这个网络包含2874个节点(代谢物)和42147个显著边缘(代谢物对)。我们利用分子复合物检测(MCODE)程序从GGM网络中分离出64个簇(表S9 )。第一级簇中的一个亚群主要含有类黄酮。此外,在第二级簇中,大量节点被标注为萜类,其中大部分为三萜类(图S4B和表S10)。第一级簇的一个亚组包含32个代谢物(图5A和表S10),其中13个被注释为含有羟基和甲氧基的常见类黄酮(图S5)。值得注意的是,在这个簇中,我们发现了一些黄酮木质素类化合物(图5B和图S6),它们是通过黄酮类化合物与三种单木质素醇(对香豆素醇、松柏醇和芥子醇)氧化偶联产生的。RSM04702p(salcolin B)和RSM04355p(5′-Methoxyhydnocarpin-D)是愈创木脂基黄酮素,RSM04382p(aegicin)是对羟基苯黄酮素。基于上述研究结果,我们认为在这个类黄酮素群中还有其他类黄酮素,然后,我们观察了前体离子和未知分子在这个簇内的碎片模式,并对更多的黄酮木质素进行了表征。RSM04691p与RSM04355p的质谱显示出相同的片段离子(m/z为315.04895),这意味着它们在结构上具有相同的类黄酮部分。它们的前体离子之间的质量差是30.01031,相当于一个甲氧基。因此,RSM04691p在RSM04355p的松柏醇部分有一个额外的甲氧基,被鉴定为palstatin,即丁香基黄酮木脂素化合物。同样的方法,我们对RSM05474p、RSM05479p、RSM05574p、RSM04546n的结构进行了表征。RSM05474p被表征为木素O-[愈创木酰基-(O-p-香豆素酰基)-甘油基]醚,它的特点是在RSM04702p的愈创木酚甘油基上具有额外香豆素酰基单元(木质素的特征修饰)。RSM05479p、RSM05574p和RSM04546n被鉴定为三聚体,它们是三聚体与对香豆醇或松柏醇通过醚桥或呋喃桥氧化偶联而进一步扩链形成的(图5B和图S6E-G)。在之前的研究中,人们在植物中发现了从咖啡醇中提取的罕见儿茶酚木质素。出乎意料的是,在我们的研究中,我们发现RSM04164p和RSM04201p均具有儿茶酚类黄酮木质素的光谱特征,均具有黄酮部分的特征片段离子和咖啡醇单位的中性损失(m/z 166.0626)。因此,我们推断RSM04164p和RSM04201p的结构分别为二羟基-二甲氧基黄酮和四羟基-甲氧基黄酮部分,通过二恶烷桥连接到咖啡醇单元(图S6I, J)。除了之前在水稻叶片和籽粒中发现的RSM04382p和RSM04702p外,我们在水稻籽粒中对其余8种黄酮素进行了鉴定,这大大扩展了水稻黄酮素的多样性。在以往的研究中,木质素中出现了一系列的单子叶植物。我们在玉米中发现了三聚氰胺以三聚氰胺低聚木质素的形式存在于木质素中,并在木质素聚合物的形成过程中起到了成核的作用。本研究发现的一组密切相关的三聚体和二聚体进一步支持了三聚体在水稻木质化过程中的重要作用。此外,对非三萜素类黄酮木质素的表征,如RSM04355p和RSM04691p,为木质素化过程中存在更多样的黄酮类化合物提供了证据。在这个簇中,另外6个代谢物在其质谱中被发现含有麦黄酮的特征离子,它们可能是麦黄酮衍生物。这其中两个显示了愈创木酚甘油基或对羟基苯基甘油基单元的中性损失,尽管它们的整个结构仍然未知(图S7和表S10)。
A.第一聚类子组内的成分及其部分相关关系。B.黄酮木质素的结构与关系。黄色、绿色和蓝色分别表示对香豆醇、松柏醇和芥子醇或它们的衍生物。红色表示香豆酰单位。RSM04382p、RSM04355p、RSM04702p和RSM04691p是黄酮素二聚体,由黄酮类化合物与单醇氧化偶联而成。RSM05474p在RSM04702p的愈创木酰基甘油基上有一个额外的香豆素基。RSM05479p、RSM05574p和RSM04546n是黄酮素三聚体,由RSM04702p与单醇类化合物之间进一步延伸而来。
结论
代谢产物鉴定的技术和分析障碍阻碍了植物化学多样性和功能的进一步研究。为了解决植物代谢组学鉴定覆盖率低的问题,我们采用了代谢组学深度覆盖分析策略进行大规模代谢物结构注释,实验和计算机质谱用于促进具有高覆盖率的代谢物注释。我们进一步采用结构基序搜索结合中性丢失扫描和代谢物缔合网络方法来表征水稻代谢物的结构和功能。我们对米粒进行了非靶向代谢组学研究,注释代谢物的覆盖率显着提高。我们借助扩展注释范围的水稻代谢组,进一步明确了籼粳品种间代谢谱的系统差异,包括C -糖基化、O -糖基化和O -硫酸化类黄酮的差异积累模式,并揭示了一系列与木质化密切相关的黄酮醇类物质。该策略可应用于其他重要农艺植物的代谢组学研究,在通过遗传育种提高作物品质和营养价值方面具有巨大潜力。
----------微科盟更多推荐----------
免费生信作图平台——生科云 | |
长按左侧二维码 进入生科云 | |
生科云所有分析工具可以免费使用,不收取任何直接或间接费用;您还可以在微信上联系微生态老师,随时获取免费的指导,帮助您解决分析时遇到的问题;专业的生信分析团队,持续添加、更新、优化生信云上的分析工具,集成多种生信分析流程,一键批量生成主流科研图,帮您节省时间,有更多的时间探究生物学意义。 |
----------微科盟精彩文章----------
科研 | J Clin Invest:抗PLA2R1相关膜性肾病中IgG4糖基化改变促进凝集素补体通路激活
科研 | Gut:基于血浆和血清代谢组学的多变量预测模型对慢性胰腺炎患者和非胰腺疾病控制患者的鉴别和验证
如果需要原文pdf,请扫描文末二维码,加助理获取
代谢组科研学术群期待与您交流更多代谢组学科研问题
(联系代谢组学老师即可申请入群)。
了解更多代谢组学知识,请关注下列二维码。