New Phytologist | Tansley Medal获奖文章综述机器学习在植物-病原菌互作领域的应用!
澳大利亚国立大学Jana Sperschneider在权威期刊New Phytologist发表了题为“Machine learning in plant–pathogen interactions: empowering biological predictions from field scale to genome scale”。该综述论文获得了New Phytologist Tansley Medal。本文综述了机器学习(ML)在植物-病原菌相互作用的应用领域中的应用和发展。
机器学习(ML)包括学习识别复杂数据集模式的统计方法。本文回顾了最近受益于ML的植物-病原菌相互作用的应用领域,如病害监测、基因调控网络的发现、抗病性的基因组选择和病原菌效应蛋白的预测。然而,从ML中实现稳健的性能并非易事,需要对方法学和生物学的了解。本综述讨论了使用ML方法的常见陷阱和挑战。最后强调了未来的机会,ML作为一种工具,利用高通量数据来剖析植物与病原菌之间的相互作用,例如,通过整合不同的数据源和更高分辨率的分析,如从单个细胞或在详细的空间和时间尺度上。
机器学习(ML)是应用统计方法来识别数据模式的方法,通常分为无监督和有监督的方法。无监督的ML使用未标记的训练数据,并包括探索性分析(例如k均值聚类)或降维(例如主成分分析)。监督学习通常发生在分类问题中,并利用标记的训练数据或部分标记的数据(半监督学习)。
图2 机器学习(ML)在植物与病原菌相互作用中的应用
由于技术的进步和价格的下降,植物与病原体相互作用的领域正在越来越多地产生和利用千兆字节到TB级的大型数据集。例如,决策-通过使用机器人,传感器或无人机,农业制造越来越数字化。高通量测序现在是一项常规任务。大数据生成与超级计算资源的可访问性相结合,导致ML在从领域到基因组规模的生物学预测中的应用得到了越来越多的应用,到目前为止,我们仅在植物与病原菌相互作用领域才看到了这一开端。但是,对生物学应用领域和ML理论的认识对于实现强大的分类器是必不可少的,这些分类器可以增强知识发现的实用性。经过生物学和计算机科学培训的专家将是机器学习驱动的领域进步的中心。