mRNA序列优化的目标是为了提高mRNA的稳定性和效率。为了达成这个目标,科学家们首先将序列优化目标集中在了密码子上。密码子,是由相邻的三个核苷酸组成的。在蛋白质合成时,代表了氨基酸的规律。然而,能够编码氨基酸的密码子有61个,它们能翻译出的氨基酸却只有20个;有的氨基酸可以是由多个不同的密码子编译而成的,体现了排列组合的多样性。研究发现,如果将低丰度的稀有密码子替换为高丰度的常见密码子,mRNA的稳定性和蛋白表达效率便显著提高。同时,如果mRNA的密码子与人体密码子更匹配,那么将更易于被翻译,从而提高蛋白的表达水平。随着生物技术的发展,科学家们对序列优化的认识便不再局限于密码子优化,mRNA二级结构成为序列优化的另一个重要方向。研究发现,mRNA在体内会形成不同的二级结构,二级结构越稳定,mRNA在体内的半衰期越长,其表达出的蛋白量就越多。基于目标蛋白质的高级结构来优化氨基酸序列,使其能够高效折叠或形成特定构象,这是一种以终为始的高效设计理念。如在新冠mRNA疫苗中广泛使用的S-2p Furin酶切位点设计,精巧地利用2个脯氨酸突变就达到了稳定S蛋白融合前构象的效果,使其诱导的中和抗体水平更高、免疫原性更强。然而,这种设计理念并不是每一次都能针对性地找到实践解决方案,原因在于序列设计对算法的要求极高。在AI时代,需要借助计算机软件设计对二级结构进行优化,帮助提高mRNA序列的结构紧密性、转录稳定性及翻译效率,最终提升疫苗诱导的免疫原性。
图片来源于网络
看一个序列优化的具体实例:
新冠疫苗的靶点:全长刺突蛋白(full-length spike protein)。
在上市产品中,M公司和B公司的新冠mRNA疫苗均单独使用全长刺突蛋白作为mRNA靶点;
全长刺突蛋白有1273个氨基酸;能翻译成全长刺突蛋白的mRNA序列有10的632次方之多!
另外,全长刺突蛋白还拥有不同的空间构象,两家公司均采用了融合前稳定(prefusion-stabilized)构象的全长刺突蛋白,这是在模拟全长刺突蛋白未与细胞结合时的状态。这导致了对应的mRNA序列优化工作再次增加,但得到了更好的预防效果。
从这个例子就可以看到,寻找到二级结构足够稳定、翻译效率高、密码子足够优化的mRNA序列是巨大的挑战,耗时耗力耗钱。mRNA的序列优化可比为梁山英雄们排序难得多,这个工作可不是用算盘能够解决的。2020年年中,全球首个mRNA疫苗基因序列设计算法推出,这是一种专门用于优化mRNA序列设计的高效算法。对于新冠病毒mRNA疫苗的研发而言,这个算法能在16分钟内设计出大大提升疫苗分子架构的稳定性和蛋白质表达水平的基因序列,因此,业内人士预判,在精准医学背景下,AI技术与高通量验证法虚实结合,将是mRNA序列优化的新路径,也是最新的发展目标。而对于mRNA研发企业来说,能够进行全面整合新的AI技术进入研发、并建立高通量的筛选平台是大趋势,这也是他们与传统医药研发企业区分开的重要标志。再次感谢中国药学会药学服务专业委员会委员栗世铀教授、中科院纳米生物效应与安全性重点实验室研究员王浩教授对文章内容做出的贡献。
声明:本文旨在知识共享,所有内容仅学术交流研究,不构成任何建议,无商业用途。