为此,科学家们遵循工程设计原理,利用工程的可预测性来控制复杂的生物系统。这些原理步骤包括:- 设计:假设一组可以实现预期设计目标的 DNA序列或细胞操作。
- 构建:在生物系统上实施设计步骤,主要涉及DNA片段的合成及成功将其转化为细胞。
- 测试:生成数据以检测表型与预期目标的接近程度,并评估任何脱靶或不可预见的副作用。
- 学习:循环利用数据学习,达到预期目标,包括对因不可预见的脱靶效应所引起故障的诊断。
更具体地说,合成生物学通常涉及基因组的操作,以推动细胞产生特定产品或以某种方式表现。本文全面概述了AI用于合成生物学的潜力、现有成果以及面临的挑战和机会。AI+合成生物学,潜力无限
合成生物学可能会对食品、能源、气候、医药和材料等所有领域产生变革性影响。它不需借助猪的胰腺而生产出胰岛素、吃起来像肉一样的无肉汉堡、不含啤酒花的啤酒、合成人体胶原蛋白等等。许多人认为这只是冰山一角,因为改造生物的能力提供了无限可能,该领域的投资金额也不断增加。
图:合成生物学在学术和商业的发展,为AI布局提供了有力支持
更重要的是,随着AI进入第三次浪潮,其应用于合成生物学的潜力也不断增加。众所周知,生物体的基因与其说是表型的蓝图,不如说是一个复杂、相互关联的动态系统中的初始条件。生物学家花了数十年,构建和管理大量属性以表征这个复杂的动态系统。包括基因网络、已知功能关联、蛋白质间的相互作用以及用于转录、翻译和相互作用的知识驱动动力学模型等,最终极大地丰富和完善了AI模型。同时,部分AI模型的可解释性对于发现生物学领域创新性的设计原则也至关重要。由此,AI成了合成生物学家揭秘复杂生物系统的一个强有力的工具。当前有哪些落地应用?
转录组学数据总量每七个月翻一番,蛋白质组学和代谢组学的高通量工作流程正变得越来越可行。此外,微流控芯片逐渐实现了自动且小型化的实验室工作……
这些技术预示着,不远的未来,数据处理和分析将成为合成生物学中重要的生产力加速器。结合生物物理学、机器学习和强化学习模型的AI技术,如今已被用来预测基因构建体对宿主之间相互的影响,尽管仍有一定的改进空间。例如对于机器辅助基因的电路设计,包括专家系统、多代理系统、基于约束的推理、启发式搜索和机器学习等AI技术已经落地。
图:使用图卷积网络的基于结构的蛋白质功能预测
基于序列的模型和图卷积网络也获得了关注。因子图神经网络可以将生物学知识整合到深度学习模型中;图卷积网络能从蛋白质-蛋白质相互作用网络中预测蛋白质的功能。而基于序列的卷积和递归神经网络模型则用于识别蛋白质的潜在结合位点。目前,AI已经用于代谢工程过程的几乎所有阶段。如人工神经网络已被用于预测转译起点、注释蛋白质功能、预测合成途径、优化多个异源基因的表达水平。还包括预测调控元件的强度、预测质粒表达、优化营养浓度和发酵条件、预测酶动力学参数,了解基因型-表型关联,并预测 CRISPR 指导功效。AI的影响已经远超出了DBTL周期的“学习”阶段,它能为实验室工作自动化和实验设计提供建议。作为获取AI算法所需的高质量、大容量、低偏差数据和提高生物工程可预测性的最可靠方式,自动化正日益成为一种关键应用。首先,其提供了将实验方案快速扩展到其他实验室的机会。例如,自动化液体处理站构成了生物铸造厂和云实验室的支柱,从而能够通过DBTL周期进行快速迭代。其次,作为宏观液体处理器的替代方案,微流体可以提供更高吞吐量和更少的试剂消耗。事实上,微流体可能是实现自动化实验室的关键技术。自动化实验室涉及全自动DBTL流程,其中AI算法通过根据先前实验假设结果来主动搜索潜在可行的实验程序。虽然自动DBTL循环已在自动化液体处理站中得到证明,但微流控芯片提供的可扩展性、高通量能力和制造的灵活性可能会带来更大的技术飞跃。我们还面临哪些挑战?
数据挑战
来自实验的大量已标记的高质量数据,仍是AI应用于合成生物学的关键。
尽管人们在建立包含各种生物序列(包括全基因组)和表型数据库上取得了进展,但可用的数据仍然很少。
图:AI金字塔的中层往往是关注的焦点,但基础至关重要,需要大量资源投入
如今,各种垂直行业花费了大量精力进行数据清理、提取转换和加载,以将不规则的数据转化为适合分析的形式。这些任务占数据科学家近50%到80%的时间,限制了他们获取见解的能力。
同时,处理多模态数据对合成生物学研究人员来说也是一个挑战,其工作的复杂性随着数据种类的增多而急剧增加。
建模/算法挑战
许多推动AI进步的流行算法在分析组学数据时并不可靠,这些模型在遇到特定实验中收集的数据时经常会遇到“维数灾难”。
例如,一个实验人员可以在特定条件下为生物体生成基因组学、转录组学和蛋白质组学相关数据,这些数据将提供超过12000个测量值(维度)。但测量差距使得对复杂的动态系统的驱动推理成了一项重大挑战。
图:相较于ImageNet 使用的传统数据集,组学数据集拥有更多的维度
组学数据与序列数据、文本数据和基于网络的数据等有相似之处,比如位置编码和依赖性,以及复杂的交互模式,但他们之间也存在一些根本差异。如它们的基本表示、有效分析依赖的情境以及为了在生物学上进行有意义的比较所必需的跨模态标准化。
因此,很难找到可靠的生成模型准确表征组学数据。此外,很少有系统方法以类似解释语义或情境的方式,来表示这些决定生物功能的复杂编码。
简而言之,我们可以在黑匣子系统中观察输入和输出,但对系统内部运作的了解有限。
指标/评估挑战
目前,通用AI评估指标不适用于合成生物学领域,现有的回归/分类模型的准确性也并不能说明基础生物系统的复杂性。而用于量化模型阐明生物系统内部运作和获取现有领域知识水平的指标也同样重要。
为此,包含可解释性和透明度原则的AI解决方案是支持迭代和跨学科研究的关键。此外,我们需要创造性地开发新的指标来衡量这些方法的有效性,让不确定性得以量化。
衡量实验设计是否合理的指标也是需要的。
AI模型的评估和验证有时需要额外实验和资源,极小的分类错误都可能会对研究目标产生巨大影响。这些成本应该被整合到AI模型的目标函数或评估中,以反映错误分类对现实世界的影响。
机会在哪?
就推理和解释其学习机制的能力而言,AI技术处于起步阶段,但它改变了我们对如何处理特征工程和模式发现的看法。
将物理和机械模型与数据驱动模型结合的新型算法是一个令人兴奋的新研究方向。此外,人工智能还可以支持科学家设计实验,并选择何时何地采样。
由于AI提供了修改生物系统的工具,合成生物学还可以反过来激发新的人工智能方法。包含因果推理、可解释性、鲁棒性和不确定性估计要求的AI解决方案更加适合作为生物学家新的工具,赋予研究人员更快探索大型设计空间和跳出“条条框框”的能力。
当前,合成生物学为AI解决方案提出了一些独特挑战,一旦它们得到解决,将促进合成生物学和 AI 两大领域的根本性进步。
参考链接:
https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext
推荐阅读