科研 | Environ Pollut.:综合机器学习和代谢组学方法预测纳米毒性(国人佳作)
编译:微科盟大陈子,编辑:微科盟Tracy、江舜尧。
微科盟原创微文,欢迎转发转载。
预测工程纳米颗粒(ENPs)对环境健康的影响至关重要。代谢途径的紊乱反映了生物对ENP响应的整体情况,由于来自复杂生物系统的高度异构数据和各种ENP性质,导致结果很难预测。我们整合多个机器学习模型和代谢组学可以准确预测33个ENPs引起的代谢途径紊乱,通过筛选9种典型的ENPs特性,确定了ENPs的类型和大小是决定其对代谢途径影响的首要特征。相似网络分析和决策树模型克服了数据源的高度异构性,根据排序优先特征直观判断代谢途径的发生。通过动物实验验证了模型的正确性,即使对于数据库外的ENPs预测也能达到75%-100%;这些模型还预测了代谢途径相关的组织病理学。这项工作为快速评估已知和未知ENPs引起的环境健康风险提供了一种方法。
论文ID
原名:Predicting nanotoxicity by an integrated machine learning and metabolomics approach译名:综合机器学习和代谢组学方法预测纳米毒性
期刊:Journal of Allergy and Clinical Immunology
IF:6.792发表时间:2020.12通讯作者:胡献刚
通讯作者单位:南开大学环境科学与工程学院
实验设计
实验结果
1. 纳米毒性异构数据的挑战
表S1列出了收集到与ENPs属性相关的原始数据。定量属性(如dTEM、dDLS、剂量、zeta电位和表面积)和定性属性(如生物测定模型、ENPs类型、表面配体和形状)被放入RF和BPNN模型中。上述定性和定量属性涵盖了与ENPs代谢效应相关的主要内容。ENPs生物测定模型和类型的数据点分布如图1所示。由于生物测定模型具有多样性(如小鼠、小球藻和HepG2细胞),导致模型具有预测不准确性。通过与Pearson系数的相关性分析(图S1),我们将生物测定模型分为细胞、动物和植物,因为它们与其他特征的关系不大,合并后Pearson系数变化不大。由于定性和定量两个不同属性,这两种属性的数据不平衡性是显著的,如氨基酸代谢数据点较多,核苷酸代谢比例不高。为了保证机器学习工作流和模型结果的可靠性,我们从精度和ROC曲线两个方面比较了RF和BPNN在处理异构性方面的性能。为了解决数据的不平衡性和异质性,RF模型结合了相似网络和DT来可视化数据点与分类结果之间的关系。模型的性能和优化如下所述。
图1 基于生物测定模型(A)和ENPs类型(B)的数据分布
ENPs类型的缩写见表S1。
2. 影响纳米毒性的优先特征筛选和排序模型的性能和优化
通过10倍交叉验证对6种模型的性能进行了检验。对于BPNN模型,如图2 (A)所示,氨基酸代谢、脂类代谢、碳水化合物代谢、能量代谢、核苷酸代谢和次生代谢产物生物合成这六条代谢途径的平均准确率分别为97%、79%、64%、88%、93%和96%。RF模型对6种代谢通路的平均正确率分别为97%、89%、87%、90%、92%和92%。基于准确性和模型稳定性,RF优于BPNN,尤其在脂类和碳水化合物代谢方面。氨基酸代谢、脂类代谢、碳水化合物代谢、能量代谢、核苷酸代谢和次生代谢产物生物合成的数据集分别为269、113、172、70、63和65。由于核苷酸代谢和次级代谢产物生物合成的报道较少,因此这两种代谢途径的数据集比其他测试的代谢要少。更大的数据集有助于更高的准确性,这符合机器学习的特点。为保证机器学习模型具有处理不平衡原始数据的能力,对机器学习模型的可推广性和可解释性进行了描述。本文以准确性和ROC曲线(包括AUC)作为二值分类模型性能的判断标准,与BPNN相比,RF获得的AUC更接近于1(图S2)。经RF模型10倍交叉验证,6条检测代谢通路的AUC分别为0.98、0.94、0.89、0.95、0.91和0.95,这意味着RF比BPNN表现更好(表1)。虽然BPNN在某些代谢途径中的准确性与RF没有显著差异,但其预测效果受到影响。基于所有数据集,如表S2所示我们计算了RF模型的精确度、召回率和F分数。在涉及不平衡的分类问题、多类别、小样本数据无需数据预处理程序上,RF算法的性能优于BPNN算法。
由于射频算法本身具有过拟合的容错性,因此选择OOB预测精度来表示模型的性能和预测精度。我们随机选取20%、40%、60%、80%和100%的训练集,在射频模型中训练10次(图2B)。当训练集大于60%时,OOB误差小于15%。这说明测量精度和ROC曲线可作为解决二元分类和评价RF模型性能的指标。
LASSO回归模型中引入了纳米材料的性质(如类型、大小、表面配体和形状),通过10倍交叉验证得到的6条代谢途径的λ值分别为0.16、0.07、0.09、0.13、0.24和0.10。此外,6条代谢通路分别选取9、9、8、7、8和9个特征,如表S3所示。LASSO回归进行后,排除了一些被认为不重要的特征,但大多数特征仍具有重要意义被。然后,我们根据基于Gini不纯度的方法(MDG)进一步筛选其余特征;并对各变量进行归一化,以确定MDG特征的重要性和平均精度的下降。在图3中,ENP的类型被确定为影响代谢通路的最优先特征。我们最近的工作也证实了ENP的类型是影响ENP行为的最重要的性质。颗粒大小(dTEM或dDLS)是RF模型中大多数代谢通路的第二优先考虑因素。变量的重要性也取决于代谢途径的类型。例如,剂量对氨基酸代谢的影响大于对次生代谢产物的生物合成的影响。以上结果建立重要变量和代谢途径类型之间的联系,为更好地利用ENPs预测和调节代谢提供了可能性。此外,部分依赖性分析为深入理解ENPs类型与代谢通路之间的关系提供了一种有效的途径(图S3)。图S3 (A)中,氨基酸、碳水化合物和脂质代谢是受ENPs类型影响最大的三条途径。相反,能量代谢、核苷酸代谢和次级代谢产物的生物合成受ENPs类型的影响较小。此外,部分依赖性分析发现,颗粒大小与氨基酸代谢密切相关,而与核苷酸代谢或次级代谢产物的生物合成无关,结果如图S3(B)所示。由于ENPs对代谢影响的研究成本很高,需要动物实验,但整合这些数据可以实现对代谢紊乱的预测和定量分析。
图2 模型显示
A、RF和BPNN的性能。为了测量模型的准确性并评估二进制分类,分别对RF模型和BPNN模型应用了十倍交叉测试。使用t检验比较使用R(版本3.6.1)的数据,***,**和*符号分别表示P<0.001,P<0.01和P<0.05。B、选择RF模型中的OOB错误率来表征模型性能和预测准确性,其中20、40、60、80和100%的数据集被随机选择为六个代谢途径的10个训练集。
表1 RF和BPNN训练集的曲线下面积(AUC)值
3. ENPs诱导的代谢通路紊乱的可视化预测
为了检验数据点之间的异质性,我们建立了ENPs类型和代谢通路的相似网络。表S4列出了合并数据点后15个ENPs的RF投票率。表S5列出了衡量数据聚类趋势的指标(如密度、聚类系数、模块化等)。图4显示了ENP类型的相似网络颜色。这些类别从相邻的集群中分离出来,并且在每个集群中具有很大的同质性。例如,Ag在脂类代谢和次生代谢产物的生物合成中聚集,而GO仅在碳水化合物代谢中聚集。从图4可以看出,数据具有明显的异质性,并且代谢途径取决于ENPs的类型。纳米材料类型和代谢通路的分析解释了数据点之间的异质性,为后续分类结果提供了可靠的依据。图4中纳米材料类型的聚集和分布表明,干扰的代谢途径可以用来对ENPs进行分组。
此外,如图5(A)所示基于优先级特征的数据集,通过精度和根节点误差来评估DT模型。结果显示精度大于70%的DT模型被认为具有良好的性能。DT模型对所有代谢途径的预测均较好,其中氨基酸代谢、脂类代谢、碳水化合物代谢、能量代谢、核苷酸代谢和次生代谢产物生物合成的平均准确率分别为92%、71%、71%、86%、91%和86%;其中根节点误差较低,分别为8%、41%、45%、21%、19%和19%。通过对DT模型进行特征选择和分类,在剔除有限效应特征后,我们成功地预测了特征变量对代谢途径的影响。通过选择交叉误差小的叶节点和分支,可以得到6条通路的DTs和ENPs的特性,如图5 (B)所示。ENP类型和粒径(dTEM和dDLS)是决定代谢通路的前两个DT决策节点。例如,核苷酸代谢和次级代谢产物的生物合成都只有两个节点,最终节点为dTEM或dDLS。DT还证实了ENP类型在代谢途径中的关键作用,例如Ag直接促进氨基酸和碳水化合物代谢的发生而不是脂质和能量代谢。DT模型的优势在于其多维视角,有效的可视化有助于我们定量了解代谢途径的发生。RF用于挖掘特征变量,然后使用DT模型获得分类基础,避免数据异质性和不平衡。图5显示不同的ENP诱导的代谢途径是不同的。我们通过结合dTEM和dDLS对ENPs进行分类,并根据是否发生代谢途径进行分组。
图3 通过基于Gini不纯度的方法(MDG)(A)和准确度平均下降幅度(B)的归一化百分比筛选变量重要性
图4 基于邻近矩阵在相似性网络中获得的优先级特征的异质性分布
相似性网络的相邻节点连接的值大于邻近矩阵中平均值的两倍。该节点测量树的同一节点中两个数据点的概率。
图5 决策树分析
在六个决策树(A)上通过十次迭代获得的模型的准确性和根节点误差。对ENPs特征变量进行决策树分析,以判断紊乱代谢途径(B)的发生(是)和不发生(否)。
4. 动物实验验证模型
GO和MWCNT ENP广泛应用于各个领域。我们对模型中未包含的材料GO-PVP和MWCNT进行了研究,以验证模型性能。GO,GO-PVP和MWCNT的表征如表S6和图S4中所示,并且鉴定的代谢物如图S5所示。代谢谱涵盖了优先代谢途径,包括碳水化合物,氨基酸,脂肪酸,尿素和小分子酸代谢途径,如图S6所示。我们将倍数变化小于0.5或大于2.0的代谢物成为差异的代谢物,采用MetaboAnalyst3.0鉴定出受影响的代谢途径,如图S7(A)所示。
动物实验得到的观测值与机器学习预测的相关性分析如图S7 ( B )所示。氨基酸代谢受所有测试的ENP影响,这与图S7(B)中的模型一致。GO-PVP中主要改变的代谢途径(例如甘氨酸,丝氨酸和苏氨酸代谢)与没有表面配体的实验组中是相似的。上述结果还证实,与ENP类型相比,表面配体的作用不显着,这与图S7(B)中的模型一致。氨基酸代谢,脂质代谢,碳水化合物代谢,能量代谢,核苷酸代谢和次级代谢产物生物合成的预测精度分别约为100%,25%,50%,100%,75%和75%,该模型准确预测了氨基酸和能量代谢。通过比较GO和MWCNT,ENP的类型确实导致了代谢途径(如脂代谢和碳水化合物代谢)之间的显著差异,并确认ENP的类型是最优先的特征。GO优先影响氨基酸代谢而不是核苷酸代谢或次级代谢产物的生物合成,这与图5中的DT分类是一致的。重要的是,GO-PVP也没有出现在模型数据库中,但对氨基酸和碳水化合物代谢的预测是正确的。动物实验验证了该模型的实用性,甚至可以用于数据库外的ENPs预测。机器学习模型激发了如何评估污染物毒性的新概念。我们发现具有相似结构和组成的ENPs也可以在氨基酸代谢和碳水化合物代谢等重要途径中被准确预测。
组织病理学与代谢途径的改变密切相关。通过预测而不牺牲动物来反映组织病理学是有用的但非常具有挑战性。共聚焦显微镜显示对照组小鼠的肝脏和肾脏没有明显损伤,如图S8所示。ENPs暴露小鼠的肝组织可见细胞胞浆空泡,伴炎症细胞出现肝坏死,肾组织近端小管肿胀和坏死。MWCNTs的毒性大于氧化石墨烯,且随浓度的增加损伤明显增加。我们将组织病理学预测和检测到的代谢通路(如氨基酸、脂类和碳水化合物代谢)与图S9中的观察结果进行对比,发现代谢紊乱对组织病理损伤的影响,与上述预测一致。碳水化合物代谢紊乱表现为小鼠肾脏组织的病理损伤,氨基酸诱导的肝脏生理对能量代谢有严重影响。从图S10可以看出,暴露组织(GO-low、GO-high、GO-PVP-low、MWCNT-low)中PA和MDA含量均高于对照组(PBS),这与预测脂代谢的显著变化一致。组织病理学分析的成本很高,利用机器学习通过代谢途径预测组织病理学结果是非常有用的。表S1列出了决定纳米材料生物反应的主要数据类型(如尺寸、表面配体、剂量、zeta电位和表面积)。其他数据类型(例如,晶体结构)不包括在模型训练中,因为这些数据类型在纳米毒理学文献中没有经常报道。当模型中加入更多的数据类型时,模型就会更准确。随着纳米毒性研究的增多,通过meta分析可以获得许多具有不同数据类型的统一数据集,这将进一步完善模型。考虑到动物实验的成本和时间限制,“按设计安全”的计算方法有助于纳米材料的应用和风险评估。代谢通路作为一种生物终点,在纳米信息学中一直没有引起人们的重视。该研究融合了多种机器学习模型和代谢组学,为快速评估已知和未知ENPs引起的环境健康风险提供了一种方法。此外,基于QSAR建模的机器学习可以建立具有统计学意义的模型来预测纳米毒性,其中结构的精确描述符仍然值得关注。
结论
挖掘代谢途径和ENPs性质之间的关系是评估纳米毒性的关键,但传统的方法或模型难以获得上述关系。综合机器学习和代谢组学方法,筛选和整理了决定ENPs干扰代谢途径的前3个重要特征( ENPs类型、dTEM和dDLS )。相似网络可视化了优先特征的异质性分布,并预测了不同ENP类型组合下的紊乱代谢通路。DT可视化分类,并预测代谢途径(如氨基酸、脂类和碳水化合物代谢)的发生或不发生;ENPs根据不同的代谢途径分组。动物实验验证了机器学习的性能,甚至可以在数据库之外准确预测纳米毒性。我们利用机器学习预测纳米毒性避免了高成本的动物实验,节省了时间,为评估纳米毒性提供了有价值的参考。
----------微科盟更多推荐----------
免费生信作图平台——生科云 | |
长按左侧二维码 进入生科云 | |
生科云所有分析工具可以免费使用,不收取任何直接或间接费用;您还可以在微信上联系微生态老师,随时获取免费的指导,帮助您解决分析时遇到的问题;专业的生信分析团队,持续添加、更新、优化生信云上的分析工具,集成多种生信分析流程,一键批量生成主流科研图,帮您节省时间,有更多的时间探究生物学意义。 |
----------微科盟精彩文章----------
科研 | Environ Pollut . :如何提高苜蓿对镉胁迫的抗性?(国人佳作)
科研 | NAT COMMUN: 帕金森病患者的脂质失调背后的机制是什么?
如果需要原文pdf,请扫描文末二维码,加助理获取
代谢组科研学术群期待与您交流更多代谢组学科研问题
(联系代谢组学老师即可申请入群)。
了解更多代谢组学知识,请关注下列二维码。