重磅长篇系统综述 (IF:72.087)|Chem Rev.:古蛋白质组学
生科云网址:https://www.bioincloud.tech/
编译:微科盟-三金,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读古蛋白质组学是指对古蛋白质的研究,是分子生物学、古生物学、考古学、古生态学和历史学交叉领域中一个快速发展的领域。古蛋白质组学研究利用蛋白质的寿命和多样性来探索关于过去的基本问题。虽然它的起源早于DNA的表征,但在软电离质谱法出现后,古蛋白质的研究才真正步入正轨。考古和古生物学记录中丰富的古蛋白质生物档案的保存、降解和恢复在过去20年的技术进步中取得了越来越多的机会。从1990年代对单个高度丰富的古蛋白质的少数研究发展以来,如今古蛋白质组学成为一个不断扩展的领域,参与多种实际应用,如高度碎片化的骨骼和贝壳的分类鉴定、灭绝物种的系统发育分辨率、探索过去的美食、牙结石和陶器食物结痂、及古代疾病的表征。通俗的讲,这些研究为理解过去的人与动物之间的相互作用、重建过去的环境和环境变化、通过大规模筛选非诊断性骨骼碎片来扩展人类化石记录以及脊椎动物化石的系统发育分辨率打开了新的大门。即使有了这些进步,许多古老的蛋白质组学记录仍然未被探索。本文概述了该领域的发展史,总结了当前使用的主要方法和应用,以及对当前挑战的批判性评估。最后,我们展望未来,创新解决方案和新兴技术将发挥重要作用,使我们能够获得仍未探索的“黑暗”蛋白质组,从而更全面地了解古蛋白质在解释从前蛋白质组中所起的作用。
论文ID
原名:Paleoproteomics译名:古蛋白质组学
期刊:Chemiacal reviewsIF:72.087发表时间:2022.07通讯作者:Christina Warinner通讯作者单位:哈佛大学人类学系,德国Max Planck进化人类学研究所古遗传学系
主要内容
古蛋白质的研究既是一个非常古老的领域,也是一个非常年轻的领域。最早在1930年代便有相关研究,后来在1950年代被表述为“古生物化学”,古蛋白质研究的早期历史深深植根于化学、人类学和地质学领域。然而,2000年代初应用软电离质谱法之后,古蛋白质序列的研究才步入正轨,发展成为今天被称为古蛋白质组学的领域。
古蛋白质研究正在快速发展,其应用包括对各种考古、历史和古生物遗骸和材料的研究。与古基因组学的姊妹领域相比,古蛋白质组学在规模或范围上还没有发展,但它在从样本中检索生物分子序列数据方面突破了古代DNA (aDNA)的限制,并且能够表征特定组织和生物过程使其特别有价值并增强其细微差别的解释性。
在数百万年的时间尺度上,蛋白质是探测过去的生命的最佳生物分子。蛋白质几乎存在于所有生物组织中,在塑料时代之前,它们也构成了很大一部分世界各地人类社会生产的物质文化。蛋白质长期存在于其生物学功能之外,成为食品、纺织品、建筑材料、油漆和胶水。过去的这些材料和活动的残余物已被纳入历史和考古记录,因为人类、动物和植物的遗骸会融入生物圈和地球圈,并在那里长时间保留。
尽管蛋白质会腐烂,但氮循环并不是完全顺利的,并且在受保护的环境中(例如骨骼、牙齿、蛋壳),蛋白质可以保留数百万年甚至更长时间。在化石(例如种子、骨头)、加工过的生物遗骸(例如木材、纺织品、考古和艺术史文物)、烹饪容器上的残留物、或土壤和沉积物中可以识别到蛋白质。这个“死库”中的蛋白质氮含量比地球上所有活细胞中的蛋白质氮的总含量还要多。由DNA编码的蛋白质将相同数量的DNA序列信息打包到大约六分之一的原子数量的蛋白质中。例如,50 bp的DNA片段(30.4 kDa)的质量比许多完整蛋白质大,包括β-乳球蛋白(18.4 kDa)、血红蛋白(15.9 kDa)和牙釉蛋白(24.1 kDa)。蛋白质折叠和聚集进一步保护蛋白质免受化学攻击并促进捕获。由于原子更少,化学键更少,结构更紧凑,蛋白质因此比DNA分解得更慢。然而,我们探索更大范围的活性物种以及恢复有关其衰变状态的直接信息的能力有限,意味着古蛋白质扩展了我们对衰变过程和成岩修饰理解的极限,但结果并不深奥,因为与古蛋白质相关的修饰与了解衰老和患病组织有关,并且在含蛋白质材料和食品的生产和消费过程中被诱导。
在本篇综述中,我们讨论了古蛋白质组学的历史、质谱技术带来的革命性变化以及目前使用的方法和应用。我们进一步详细介绍了当今古代蛋白质研究面临的主要挑战,并就该领域的未来方向提供了展望。
1.1 蛋白质作为过去的生物档案
蛋白质是长寿的生物分子,能够留存数百万年。它们通常比现存最古老的DNA更长寿,并且它们的完整寿命还有待确定。尽管蛋白质不会像脂质那样存续很长时间,但它们序列多样性可以提供更多信息,因此蛋白质代表了过去最有价值的生物档案之一。
蛋白质的寿命和生物学效用在很大程度上源于它们的结构。蛋白质是由折叠成复杂的三维形式的氨基酸线性序列构成的大型生物分子。20种标准氨基酸,每一种都围绕一个中心碳形成,包含一个羧基和一个氨基,它们形成将氨基酸连接成蛋白质的肽键,以及一个R基团,它在氨基酸之间变化并赋予不同的化学性质。R基团在化学上是多种多样的,包括带正电、带负电、极性和非极性基团,可以是小、大或结构受限的。构成主要蛋白质结构的氨基酸序列由DNA编码,然后转录为RNA,并使用每个氨基酸的三核苷酸密码子序列翻译成蛋白质。由于蛋白质来源于遗传密码,单个蛋白质保留了生物体的部分可遗传遗传信号,因此,蛋白质序列可用于进行分类鉴定和重建系统发育。
蛋白质合成后,可以对氨基酸进行额外的翻译后修饰(PTM),从而改变其化学性质。蛋白质剪接、自动加工、缀合和其他形式的修饰进一步扩大了蛋白质的生化复杂性。这种生化多样性使蛋白质比脂质或DNA等其他生物分子复杂得多,一级氨基酸链折叠成的更复杂的二级、三级和四级结构构成了蛋白质结构和功能多样化的基础。
活细胞中,蛋白在其功能或结构作用完成后会定期降解,以便回收氨基酸来产生新的蛋白。虽然哺乳动物的平均蛋白质寿命只有1-2天,但特定蛋白例如转录因子和免疫配体的寿命范围可以是从几分钟变成生物体例如牙釉质和晶状体蛋白的整个生命周期。此外,如头发角蛋白和丝蛋白等分泌的蛋白构成了非生命组织和结构的基础,这些组织和结构在生物体死亡后可以持续存在几个世纪或更长时间。由于密码子冗余和不存在非编码序列,蛋白质比DNA的遗传信息更少,但它们通常要丰富几个数量级,因为每个基因组都会产生许多蛋白拷贝。此外,某些蛋白质的组织特异性表达提供了有关给定样本的额外信息(例如,牛奶与肌肉;叶子与种子),而这些信息无法仅从基因组中获得。
古蛋白质组学的目标是将超过其自然寿命后经过数百年、数千年甚至数百万年间从生物圈转移到岩石圈并被广泛修饰之后的蛋白质恢复、识别并研究它们。蛋白质的寿命、生物学的普遍性和多样性使其成为探索深层次及近期的理想材料。因此,蛋白质成为重建生物和文化历史的有力工具之一。
1.2 古蛋白质组学的起源
使用蛋白质深度研究历史的想法并不新鲜。在发现DNA结构和制定定义 DNA、RNA和蛋白质之间关系的中心法则理论框架的近20年间,化学家们试图使用抗血清来检测木乃伊和骨骼中的蛋白质。在战争年代,人们对古蛋白质的兴趣逐渐减弱,但在1950年代政府实验室工作的地球物理学家重新振兴了这一行业,他们的兴趣从制造炸弹转向了深层次的“古生物化学”。在1970年代和1980年代,人们重新开始对免疫学检测产生兴趣,随后在1990年代尝试使用Edman降解对古代蛋白质进行测序,并最终在21世纪开始使用质谱法(表1)。
表1 古蛋白质研究中使用的仪器和方法的比较1.2.1 古生物化学
很少有任何学科起源于单一机构,但Phil Abelson和他在1953年至1971年间领导的华盛顿卡内基研究所地球物理实验室的成员们却做到了(框1)。在战后的几年里,他们可以自由地进行基础研究而不受工业和政府工作的压力或大学学者的教学负担的阻碍,他们将大量时间投入到开拓氨基酸研究上和远古的蛋白质。通常认为Abelson的文章《古生物化学:化石的有机成分》的发表标志着古蛋白质研究的开始,他仅用1000多字概述了对古蛋白质组学领域的展望。地球物理实验室成员在氨基酸检测、分离和定量方面的创新,以及对其手性和同位素丰度的表征,推动了未来二十年对古蛋白质及其生存、衰变和同位素分馏机制的研究。《氨基酸的生物地球化学》一书中详细介绍了这项早期研究的大部分内容。
这一早期工作的主要成果之一是氨基酸外消旋法(amino acid racemization,AAR)地质年代学的发展,可作为化石比较及测年的工具,这是由Abelson和他的学生Ed Hare发起的一个项目(框1)。然而,这种检查L-氨基酸到D-氨基酸(肽结合或游离)的手性转化的方法,在碳同位素重测AAR先前分析的骨骼后陷入了争议,碳同位素测得的人类到达北美的时间为上一次最大冰川期之前。尽管随后的埋藏学和技术挑战进一步减缓了AAR作为一种相对测年技术的发展,但最近的方法学改进和对生物矿物成岩作用的理解正在引导对该方法重新兴起,这对有机质含量低、受大型14C储层影响或超出放射性碳测年限制的材料有特别的帮助。
1.2.2 成岩作用、污染和免疫学的回归
尽管地球物理实验室在从化石中回收氨基酸用于化学进化研究方面取得了早期成功,但Ralph Wyckoff(框1)和其他人在1960年代的工作清楚地表明,化石蛋白质被高度降解并表现出改变的氨基酸谱。因此,它们通常不适合推断系统发育。大多数恐龙骨骼中缺乏可测量的羟脯氨酸也导致Wyckoff质疑化石衍生蛋白质的起源,以及它们是否可能是近期土壤微生物活动的结果。
鉴于化石氨基酸的成岩变异性,以及缺乏直接对蛋白质进行测序的能力,1970年代和1980年代的研究人员回到了免疫学技术。1974年,Elisabeth de Vrind-de Jong (nee de Jong)、Peter Westbroek及其团队使用抗体通过免疫扩散检测了70 Ma头足类化石中表位的明显存活率,Jerry Lowenstein及其同事研究了古代猛犸象、野牛和人类的免疫学相似性,分别对应现代大象、牛和人类。他们能够使用放射免疫分析(radioimmunoassay,RIA)技术正确地推断出猛犸象和塔斯马尼亚狼的系统位置。为了对分类系统学产生更有意义的免疫学结果,一种酶联免疫吸附试验(ELISA)被开发用于化石贝壳,后来用于化石骨骼和牙齿,但结果难以复制,到1990年代和2000年代免疫学方法越来越受到对污染和交叉反应性的影响,以及对哪些蛋白质被免疫检测缺乏了解。
1.2.3 蛋白质测序
Lila Huq使用Edman降解测序从已灭绝的不会飞的鸟类恐鸟(Pachyornis elephantopus)的骨骼中提取骨钙素,首次成功恢复了古老的蛋白质序列。这一成就特别显著,因为这项技术非常不适合古蛋白质。由于一次只能对一个肽段进行测序,因此必须在分析前分离、消化和纯化足量(100 pmol)的蛋白质。此外,如果反应性氨基末端被修饰(例如,通过焦谷氨酸)测序反应将不会启动,并且在非α-氨基酸(例如异天冬氨酸,天冬酰胺脱酰胺和天冬氨酸的主要产物)存在下衍生化反应会停止。此外,由于产量随着每个连续的长达一小时的反应循环而下降,因此该方法速度慢并且仅限于高精度的大约30-50个氨基酸的序列。即使在今天,Edman测序也很昂贵且费力,需要一整天或更长时间才能使用自动化仪器对单个肽段进行测序(表1)。尽管现在正在开发大规模并行测序作为单分子测序的工具。自从最初应用以来,Edman测序很少应用于古代蛋白质,但却用于确认来自42 ka马骨的基质辅助激光解吸-电离飞行时间质谱(matrix-assisted laser desorption/ionization time-of-flight mass,MALDI-TOF MS)。在经历Edman降解的挫败之后,Peggy Ostrom及其团队首次成功地将软电离质谱应用于古代蛋白质,在恢复古代蛋白质序列方面取得了第一个重大突破(图1)。
1.2.4 质谱革命
时至今日,我们依旧没有认识到Peggy Ostrom突破性质谱工作具有的足够重要的意义,因此即使在“有机地球化学之父”Geoff Eglington的支持下也无法在任何最具影响力的期刊上发表。她的里程碑式研究将凝胶和免疫分析与MALDI-TOF肽质量指纹(peptide mass fingerprinting,PMF)和源后衰变 (postsource decay,PSD)测序相结合,最终证明了野牛骨中存在骨钙素及其在更新世晚期的存活率。Mary Schweitzer及其团队在猛犸象骨骼上也应用了这种用于检测古代蛋白质的免疫学和质谱工具的组合,这不仅因为三角化证据的前景而引人注目,同时标志着这两种方法之间的主要过渡点。虽然质谱法随后成为古代蛋白质研究的首选工具,同时免疫学方法的使用也在减弱。然而,鉴于每种方法的优缺点,未来仍有整合的空间,特别是免疫亲和色谱在质谱测序之前靶向和富集(或耗尽)特定蛋白质的潜力。
质谱在考古学中的首次广泛采用是使用MALDI-TOF MS来帮助基于胶原蛋白肽质量指纹对动物骨骼(最初是绵羊和山羊)进行分类鉴别。虽然早期使用完整纯化骨钙素的MALDI-TOF表征化石蛋白质的努力最终证明由于蛋白质降解而失败,但将MALDI-TOF应用于胶原酶消化和后来的胰蛋白酶消化的骨胶原却是一项重大突破。这引发了强大的PMF技术的发展,称为质谱法动物考古学:ZooMS(zooarchaeology by mass spectrometry),以突出该方法的速度及其在动物考古学和质谱法中的根源。该方法的低成本及其对高通量样品处理的适用性使其在考古学、生态学和文化遗产的许多应用中特别强大,并且在过去十年中取得了重大进展。大大增加了ZooMS标记的数量,包括各种陆地和水生哺乳动物,以及鱼类、鸟类和爬行动物(图1)。类似的基于PMF的方法也在开发用于胶原蛋白以外的其他蛋白质,包括蛋壳和软体动物壳中的角蛋白和基质蛋白。
除了源后衰变(PSD),John Asara及其团队首先使用LCQ四极离子阱MS/MS在猛犸骨上实现了使用真正的串联质谱(MS/MS)来更准确地测定肽序列。随后,Christina Nielsen-Marsh及其同事使用MALDI-TOF/TOF对尼安德特人骨钙素进行了表征,Caroline Tokarski及其团队使用nanoLC/nanoESI/Qq-TOF MS/MS对文艺复兴时期绘画中的卵蛋白进行了表征。MS/MS的这些早期应用使用了多种仪器设置、电离技术和检测器,但目前对古代蛋白质的MS/MS分析主要依赖于集成UHPLC、nano-ESI和Orbitrap的LC-MS/MS系统高性能混合质谱仪。速度的提高,对于古代样品的分辨率和质量准确度显著识别,采集光谱数量的增加,提高了将这些光谱与肽匹配的成功率。用于改进离子分离的其他新兴技术,例如离子迁移率,也显示出改进数据采集的巨大希望。然而,与同等的现代样本相比,古代蛋白质组通常包含更少的蛋白质,并且具有更高水平的修饰。因此,该学科虽然仍处于起步阶段,但目前更多地被下游分析所制约,而不是被仪器限制。
MS/MS的主要优势在于其分析复杂蛋白质混合物的能力。使用MS2光谱确定降解的整个蛋白质组中的肽序列及其与基因组学的整合代表了该领域成熟的发展方向,随后应用于系统发育解释、性别确定、食品制备、病理学、艺术史和残留物分析等。图1突出显示了质谱技术发展和古蛋白质研究应用的主要里程碑。
如今,古蛋白质组学是一个充满活力、快节奏且不断发展的领域。无论应用何种分析技术,所有古代蛋白质研究都面临某些挑战,即必须考虑恢复古代蛋白质之前的形成、掺入和降解过程,同时应用方法提取和制备蛋白质以供分析,以及选择适当的分析和解释策略来表征古蛋白质(图2)。在每个阶段,原始蛋白质组逐渐丧失,成岩作用导致化学复杂性增加以及污染物的添加。在仪器、数据库选择和数据处理步骤中做出的选择会对古代蛋白质组的重建和解释产生重大影响。
2.1 合并样品途径
了解蛋白质形成的方式以及如何将其掺入给定样品中是古代蛋白质分析的第一步。对于某些样品,蛋白质的掺入方式很明显,例如皮肤和骨骼中的胶原蛋白、头发和羽毛中的角蛋白、牙釉质中的牙釉蛋白和软体动物壳中的基质蛋白等蛋白质组织中的内源性蛋白质。在这种情况下,蛋白质构成组织本身,并在组织形成时掺入。然而,一些过程是极其复杂的且仍未阐明,例如生物矿化。在生物矿化过程中,其他共结合的内源性蛋白质,如骨骼中的血液和血浆蛋白,也可能会掺入组织中,但与这种蛋白质掺入相关的生物学变异程度对于许多组织还没有得到很好的研究。
在其他情况下,合并方式可能不那么直接。例如,牙结石是一种钙化的微生物生物膜,但除了细菌蛋白外,牙结石蛋白质组还富含人体消化酶(例如唾液α-淀粉酶)和免疫蛋白(例如α-s1-抗胰蛋白酶、髓过氧化物酶,中性粒细胞防御素),分别来自唾液和龈沟液。在牙菌斑矿化的周期性发作期间,这些液体中的蛋白质不断地冲击牙齿,并结合到牙结石中。在这些矿化事件期间,口腔中瞬时存在的其他外源性蛋白质也可能被掺入,包括膳食蛋白质,如牛奶β-乳球蛋白和种子贮藏蛋白质。同样,在蒸发矿化过程和金属物体等附近物品的腐蚀过程中,烹饪容器内的蛋白质可能会意外地保存在水垢中。
在几乎所有情况下,矿化都是蛋白质长期存活的重要因素。除了淹水、干旱或非常寒冷的环境中的特殊情况外,未封装在矿化基质中的蛋白质通常不会长期存在,如应用于陶瓷和石器工具的蛋白质的实验所示。除了掺入,还需要注意的是一些蛋白质组在掺入过程中也会发生变化,无论是皮革鞣制过程中的交联、食物烹饪过程中的热变性,还是形成时的自降解,如搪瓷等。
2.2 腐烂和成岩过程
大多数有机物质和蛋白质在被活的有机体排出或在有机体死亡后会腐烂并被环境回收。降解主要由细菌通过酶消化介导,这种消化发生得相对较快。羊毛织物和羽毛的实验生物降解表明,即使是相对坚固的蛋白质,例如角蛋白,它们疏水并含有许多二硫键,在不利的微生物条件下也不能长时间存活。
预计只有很小比例的完整蛋白质会保留在考古记录中,而那些通常是矿化的、高度丰富或具有不寻常特性的蛋白质。例如,I型胶原蛋白(COL1)是持续时间最长的骨蛋白,占骨蛋白质组的80%以上(占新鲜骨质量的20-30%),矿化程度高,排列整齐成高度稳定的三螺旋。在牙结石中鉴定的膳食蛋白质中,许多蛋白质要么是蛋白酶抑制剂,要么属于种子贮藏超家族,已知这两种蛋白质对蛋白水解和加热具有高度稳定性。同样,牛奶中的β-乳球蛋白可能是最好的证明的古代食物蛋白质,具有小分子大小和对变化的pH水平和酶促降解的稳定性,具有所有已知有助于蛋白质在恶劣条件下存活的特性。在分解的初始阶段之后,幸存的蛋白质会经历较慢的埋藏过程,从而继续成岩作用的改变。最后,几乎所有古老的蛋白质都会经历某种程度的降解或化学损伤。
由于蛋白质在组成、化学性质、大小、形状、功能和掺入(或缺乏)到矿化组织中的多样性,驱动死后蛋白质降解和腐烂的埋藏因素是高度可变的,并且比其他古老的生物分子更难以表征。因此,这种埋藏法的“黑匣子”对古代蛋白质的分析来说是一个持续的挑战,不是因为缺乏研究努力,而是因为问题的巨大复杂性。然而,已知有一些因素在蛋白质降解过程中发挥着一致的作用:(1)当地环境,包括土壤化学、pH值和水的可用性;(2)掺入蛋白质的基质的化学和结构组成;(3)蛋白质单独和作为蛋白质组的组成;(4)当地的热历史,包括时间、温度和湿度。这些因素结合起来形成“成岩形态”,或成岩修饰的蛋白质片段,通过肽键水解和氨基酸降解以及外消旋化形成。
蛋白质片段化,即主链切割成越来越小的原始蛋白质片段的渐进的、不可逆的过程,是最重要的降解形式之一。作为蛋白质中最弱的共价键,肽键易受自发水解的影响,整个蛋白质的水解速率取决于水对肽键的可及性。这是由一级氨基酸序列、蛋白质二级和三级结构以及矿物基质的表面稳定性介导的。在水供应有限的条件下蛋白质的保存通常更好,例如在干旱或冰冻的环境中或者蛋白质被困在局部疏水环境中或生物矿物的晶内部分中。
蛋白质降解的另一种主要形式是氨基酸R基团或肽的C或N末端的化学改变。这种变化是无数的,而且特征不完全,但是通过简单地考虑淀粉储存组织通过所谓的美拉德反应形成的大量低分子量含氮化合物,就可以理解潜在化学反应的多样性。因此,成岩作用会影响受影响氨基酸的化学性质,更重要的是影响质量,这可能会干扰使用质谱法回收和鉴定肽。修饰率高度依赖于一级氨基酸序列、二级和三级蛋白质结构以及蛋白质或肽的表面稳定性。事实上表面介导的修饰可能会促进新的凝聚结构的形成。在提取过程中会进一步引入额外的修饰,有意地化学破坏蛋白质的构象(例如,通过还原和烷基化使半胱氨酸的氨基甲酰甲基化)或无意地产生不希望的反应(例如,在加热时尿素衍生物的蛋白质氨甲酰化)。
对无脊椎动物化石的基础研究以及最近对骨骼、牙釉质、牙结石和蛋壳的研究提供了对古代蛋白质中存在的成岩作用范围的见解,其中最常见的是骨干裂解和天冬酰胺和谷氨酰胺的脱酰胺。其他常见的成岩修饰是赖氨酸的羧甲基化(一种晚期糖基化终产物)、丝氨酸转化为丙氨酸、组氨酸转化为羟基谷氨酸、N-末端焦谷氨酸的形成、精氨酸分解为鸟氨酸以及各种形式的氧化、磷酸化、去磷酸化、羟基化和脱羟基化。然而,这些仅代表质谱研究中可观察到的损伤形式。其他干扰蛋白质提取和电离的化学修饰形式鲜为人知,它们可能会掩盖大量持久但基本上无法获得的蛋白质。很可能随着时间的推移观察到的许多变化也发生在厨房中,因此,将蛋白质组学应用于食品科学等不断扩大的领域同样引人注目。
2.3 复原的方法
为了被检测和分析古蛋白,必须首先从它们粘附或嵌入的基质中提取蛋白。有许多蛋白质提取方法可供使用,它们的成功率取决于实验研究中蛋白质的来源和化学性质。与现代蛋白质相比,古蛋白质的提取进一步受到蛋白质成岩作用和古蛋白质频繁掺入矿物基质的挑战。在这个阶段,蛋白质损失是不可避免的,因为无法从基质中完全“分离”蛋白质,这有助于它们成功整合到考古记录中,以及由于提取和消化方法的性能变化而导致的不同回收率。在这个阶段可能会引入污染,之前观察到的实验室污染物包括来自手套的乳胶蛋白、来自商业细胞裂解缓冲液的卵蛋白、常见的实验室试剂(如血清白蛋白)、人体汗液中的蛋白质和来自人体皮肤和羊毛的各种角蛋白。常见实验室污染物的公共库有助于识别污染物,例如外来蛋白的公共储存库(cRAP;https://www.thegpm.org/crap/),但也应考虑其他潜在的本地实验室污染源。了解潜在的污染源并遵守最佳实验室实践对于减轻实验室污染至关重要。
2.3.1 提取方法
古蛋白质提取的协议开发是一个活跃的领域,有多种广泛使用的方法。在选择提取方法时,应考虑样品类型、大小和保存条件,以及蛋白质组的复杂性、靶标蛋白和分析所需的蛋白量;还应考虑样品的沉积后历史,以及在选择的提取方案中引入的潜在化学修饰。此外,由于蛋白质组学分析通常需要比其他方法更少的样品材料,例如古DNA分析、稳定同位素分析和放射性碳测年,因此通常可以对这些协议的剩余材料或副产品进行蛋白质提取。结合这些协议是可取的,因为它减少了对不可替代材料的采样需求。
对于矿化样品,例如牙釉质、骨骼、牙结石和贝壳,通常需要使用弱酸或螯合剂(例如乙二胺四乙酸(EDTA))进行脱矿质步骤。随后通常使用各种可能的选项进行蛋白质溶解,包括加热、机械破坏、离液剂(例如,尿素或盐酸胍)、去污剂(例如,十二烷基硫酸钠、SDS)、缓冲液和盐。如果蛋白质是复杂的或已知含有半胱氨酸,通常会进行还原和烷基化步骤以不可逆地破坏二硫键。此时,需要经常更换缓冲液以使悬浮或溶解的蛋白质与下游分析兼容,并且为此提供了不同的策略,包括基于使用聚丙烯酰胺凝胶、过滤辅助样品制备(FASP)、凝胶辅助的协议样品制备(GASP)、单锅固相样品制备(SP3),或者在胶原假晶型的情况下,简单地从脱钙缓冲液中物理去除不溶性蛋白质。然后通常将蛋白质酶消化成肽进行肽纯化,通常使用C18树脂。
对于非矿化样品,例如艺术家材料(粘合剂、胶水)、木乃伊组织和羊皮纸,可以简化流程。可以避免去矿化步骤,如果在与质谱法兼容的缓冲液(例如碳酸氢铵或盐酸胍)中可以溶解蛋白质,则可以避免缓冲液交换,从而减轻蛋白质损失。近期已开发出生物活性薄膜,允许直接从样品材料(如艺术品)中“板上实验室”提取蛋白质,这进一步简化了表面可用蛋白质的提取。
在专注于少量高丰度目标蛋白质的研究中,例如骨骼和羊皮纸中的胶原蛋白,可以进行额外的简化,即使是矿化样品也是如此。可以应用侵入性较小的技术对松散结合的蛋白质进行采样,甚至可以对留在储存袋和容器中的微量蛋白质进行采样。然而,此类技术更容易受到环境污染的影响,并且由于它们针对的是未结合且主要是表面蛋白质,因此回收的蛋白质可能更容易降解。
在许多情况下,也可以减轻干扰蛋白质提取和分析的预处理或化学暴露。例如,合成粘合剂有时用于巩固和稳定易碎材料,可以在提取蛋白质之前用丙酮去除。同样,在萃取过程的早期阶段,可以使用氢氧化钠(NaOH)清洗剂从矿化和非矿化样品中去除干扰质谱分析的非蛋白质化学共萃取剂,例如土壤腐殖酸。
蛋白质污染可能是一个更具挑战性的问题,对于AAR研究和蛋壳PMF来说尤其麻烦。然而,对于矿化组织,可以修改提取方法以仅关注矿物质结合和包裹的蛋白质。强氧化剂,如次氯酸钠(NaOCl),可用于破坏未包裹在矿物质中的蛋白质,仅留下晶体内蛋白质。虽然并非在所有情况下都需要,但这种积极的去污方法可以显著提高回收的内源性蛋白质的比例,即使它降低了总蛋白质回收率。
2.3.2 消化和免消化方法
迄今为止,所有古蛋白质的质谱研究都遵循“自下而上”的蛋白质组学方法,这意味着分析的目标是酶消化的肽而不是完整的蛋白质。目前大多数蛋白质质谱仪最适合分析大小范围为6-30个氨基酸的肽,选择的酶基于在此范围内最大限度地消化肽。单独用胰蛋白酶(将C端切割为精氨酸和赖氨酸残基)或与Lys-C(减少赖氨酸残基缺失的切割)组合是通用蛋白质质谱分析中最常用的酶。还可以使用替代酶,诸如胶原酶、弹性蛋白酶、胃蛋白酶、糜蛋白酶、Glu-C、Lys-N和脯氨酸内切酶等酶已在古代研究中用于提高特定蛋白质或靶标的蛋白质区域的覆盖率。然而,以低复杂性重复结构域为特征的蛋白质,如软体动物壳中的蛋白,仅通过酶促法难以充分消化,因此可能需要额外的化学切割以产生适合质谱分析的大小的肽。
当蛋白质已经分解成适合分析的片段大小时,可以使用免消化法。这主要发生在高成岩骨架断裂或蛋白质在体内自消化的情况下。对3.8 Ma鸵鸟蛋壳的研究首次成功地将免消化方法应用于回收高度降解的struthiocalcin-1(SCA-1)和struthiocalcin-2(SCA-2)蛋白。该方法已在近期应用于牙釉质,包括来自现代牙周病患者的牙釉质。牙釉质由超过98%的羟基磷灰石矿物组成,其成熟的关键步骤是酶促分解参与其形成的蛋白质,例如牙釉蛋白。因此,其蛋白质组在生命过程中已经处于碎片化和降解状态,蛋白质片段的大小范围适合质谱分析。釉质蛋白质组也很小,仅包含少数主要蛋白质,因此当切割位置可变或未知时,分析和解释比其他蛋白质组更可行。因此,无需消化的方法可以应用于牙釉质蛋白,并已用于从牙齿中获得跨越长时间范围的高质量蛋白质序列。对蛋壳和牙釉质的研究让我们第一次看到了通过实验室方法进行了最低限度修饰的古蛋白质。
真正的“自上而下”蛋白质组学,即完整蛋白质和天然蛋白质的质谱数据的测量和解释,尚未在古代样本中实现。然而,过去十年中技术和生物信息学的不断进步正在提高“自上而下”方法的可行性。
2.4 质谱检测
一旦消化的肽或蛋白质片段被分离和纯化,就可以通过质谱分析。如今,古蛋白质组学的两个主力是MALDI-TOF的肽质量指纹识别和LC-MS/MS的鸟枪蛋白质组学。在成本、时间、敏感性、规模和范围方面,每一个都为古蛋白质的研究带来了不同的优势和劣势(表1)。
2.4.1 MALDI-TOF和肽质量指纹图谱
肽质量指纹谱(Peptide mass fingerprinting,PMF)是一种通过酶消化后产生的肽质量来识别蛋白质的技术。PMF于1990年代首次开发,在单个蛋白质上效果最好,峰值分配的模糊性最小化,但它也可以应用于具有可靠组成或具有一种或多种主要蛋白质的蛋白质组,例如骨骼中的胶原蛋白或羊毛中的角蛋白和羽毛。 1980年代后期,软电离方法基质辅助激光解吸/电离(MALDI)的发展使PMF成为可能。MALDI代表了蛋白质化学领域的一项重大突破,使大的、非挥发性的分子(如小蛋白质和肽)能够在没有碎片的情况下被离子化,用于下游质谱分析。结合飞行时间(TOF)分析仪的MALDI-TOF质谱系统是一种坚固、简单且灵敏的仪器,具有大质量范围,非常适合PMF。
为了测量PMF的蛋白质消化,酸化肽与基质一起被点样到MALDI板上,基质通常是α-氰基-4-羟基肉桂酸(CHCA)或2,5-二羟基苯甲酸(DHB),与肽共结晶。然后用激光激发基质,使肽蒸发并以+ 1电荷电离。然后,电磁铁将离子引导到飞行时间管中,并由检测器对其进行测量。然后将它们的飞行时间(与它们的动能和质量有关)转换为质荷比(m/z)与强度的光谱,观察到的峰可以使用数据库分析蛋白质和污染物序列。图3a显示了来自考古动物骨骼的胶原蛋白PMF示例。来自COL1的α1和α2链的信息峰(标记)被突出显示。基于简约的原则,这九个标记可共同用于确定对绵羊(Ovis)的分配。光谱中可见的其他(未注释的)峰包括基质峰、非标记胶原肽和来自角蛋白污染物的肽、非胶原蛋白和自消化胰蛋白酶。
因为PMF涉及匹配由胰蛋白酶肽产生的峰模式,而不是序列产生的,所以它需要访问具有良好分类表示的数据库,并且基于简约而不是唯一的肽匹配进行识别。由于蛋白质的功能限制,COL1的序列变异低,纯化选择高,突变饱和是一些进化枝的挑战。因此,COL1仅携带微弱的系统发育信号,但如果足够多的标记肽被充分保留,分类学分配通常可以分配到鸟类的科水平、哺乳动物的科或亚科水平以及鸟类和鱼类的属或种。
尽管有其局限性,PMF方法与其他方法相比具有几个重要的优势。PMF需要很少的样品材料,并且与许多微创方法兼容,这些方法将在下面进行描述。它不需要专门的设施,使用的是目前在许多研究机构和大学核心设施中广泛使用的仪器。这种方法快速且便宜,使它可以大规模执行并具有高吞吐量。这种功能组合使其成为一种高度灵活的方法,可以成功地支持针对特定问题的小型预算受限项目以及对数千个样本的大规模探索性研究。
2.4.2 LC-MS/MS和Shotgun蛋白质组学
串联质谱法(MS/MS或MSn)在古蛋白质组学的背景下应用,是一种在执行解离过程时至少进行两次质量分析以表征蛋白质混合物中的肽的方法。第一次质量扫描(MS1)测量电离肽(称为前体离子)的m/z,并通过解离选择一些进行碎裂,并通过确定肽片段的m/z的第二次质量扫描(MS2)进一步测量(碎片离子)。根据裂解方法的不同,会产生不同类型的碎片离子。碰撞诱导解离(CID)是最广泛使用的碎裂方法之一,主要产生b和y碎片离子。这些碎片离子的MS2测量允许在数据库的帮助下(甚至在某些条件下从头开始)推断肽的氨基酸序列,这比单独的完整离子的m/z识别肽更可靠。图3提供了从古代人类牙结石中回收并通过LC-MS/MS分析的两种肽的MS2光谱。在这两种情况下,观察到接近完整的y离子系列以及部分b离子系列,并允许以高可信度确定肽序列。第一个序列与绵羊中的β-乳球蛋白乳蛋白高度特异性匹配(图3b);第二个序列与芝麻的11S球蛋白一致(图3c)。准确测量完整离子和碎片离子的能力使MS/MS成为鉴定古蛋白质的强大技术。
尽管自1960年代后期以来,串联质谱仪已经提供了各种配置,但直到1980年代后期开发出诸如MALDI和电喷雾电离(ESI)等软电离方法,MS/MS才可以应用于蛋白质。MS/MS在古蛋白质组学中的早期应用使用了各种质量分析仪,包括离子阱、四极杆和TOF,但灵敏度和质量准确度相对较低,这限制了可以识别的蛋白质数量。2000年代中期Orbitrap质量分析仪的商业引入和随后的混合系统标志着蛋白质质谱技术的重大改进,并显著改善了低生物量、复杂混合物中蛋白质的检测和鉴定,这是古代样品的特征。从第一个商业模型Thermo LTQ Orbitrap于2007年鉴定出乳齿象骨骼中的三种胶原蛋白,到随后的Thermo LTQ-Orbitrap Velos于2012年鉴定出猛犸象骨骼中超过100个蛋白质组,然后是 Thermo Q-Exactive Hybrid Quadrupole Orbitrap在2014年对包含人类牙结石中数百种蛋白质的元蛋白质组进行表征。目前用于古蛋白质组学的MS/MS系统更加强大,通常由超高效液相色谱(UHPLC)系统与nano-ESI联合组成,该系统与高性能(高分辨率快速占空比)质谱仪接口。更好的色谱分离、样品分级分离和离子淌度的使用可以进一步提高分辨率而替代电离方法,例如比解吸电喷雾电离(DESI)和液体萃取表面分析(LESA)提供了额外的功能,包括环境电离和原位分析;然而,这些方法尚未在古蛋白质组学中得到广泛探索。
串联质谱法非常适合分析来自不同样品类型的古蛋白质。它可以识别复杂混合物中的高丰度和低丰度蛋白质,并且在分析之前不需要可靠的甚至是已知的蛋白质组成。因为它涉及对许多蛋白质的同时分析,它可以用于实现比PMF更高的分类分辨率,这对于解析脊椎动物系统发育尤为重要。此外,它还可用于识别蛋白质变体、PTM和成岩改变。这些特性使其成为发现蛋白质组学应用的理想选择,例如灭绝原始人的系统发育分析、加工外壳的分类学鉴定、艺术品中未知粘合剂的测定以及陶器结皮和牙结石中膳食蛋白质的鉴定。除了鸟枪法之外,MS/MS还可以在一定程度上使用多反应监测(MRM;也称为选择反应监测,SRM和平行反应监测,PRM)来靶向感兴趣的古蛋白质。尽管当前的MS/MS方法在很大程度上依赖于数据相关采集(DDA)进行整体离子选择,这最大限度地提高了肽序列测定的成功率,但限制了该方法的重现性和定量潜力,用于古代蛋白质分析数据无关采集(DIA)方法正在开发中。DIA通过从更多肽段,尤其是低丰度肽段生成数据提供了扩展MS/MS动态范围的潜力,同时还提高了重现性和定量性。最近,一种基于DIA的方法已被集成到一种新的古蛋白质组学工作流程中,该工作流程被称为通过蛋白质组物种调查(species by proteome investigation,SPIN),它可以使用LC-MS/MS快速分配哺乳动物物种。尽管目前其计算复杂且范围有限,但DIA开发的进一步改进、更新的数据库和机器学习的应用可能很快使DIA在古蛋白质研究中变得更加主流。
MS/MS在古蛋白质组学中的主要缺点是其大量的基础设施需求、时间和成本。MS/MS样品应在专门的古代生物分子实验室制备,部分原因是仪器的更高灵敏度和研究的发现性质使区分古蛋白质与污染更加困难。需要高度专业化和昂贵的质谱仪,但这些质谱仪可能无法在当地核心设施广泛使用,并且每个样品的检测时间很长(一小时或更长时间),因而限制了每日通量。目前,每个样品的MS/MS成本通常比PMF高30-50倍,而且SPIN等新的专业应用更快且更实惠。尽管存在很多困难,但LC-MS/MS的强大功能和性能,以及它提供的最重要的序列数据的能力,使其成为回答许多古蛋白质组学问题的非常有价值的,甚至是必不可少的技术。
2.5 数据分析与注释
除了仍在开发中的大量实验工作外,几乎所有与古蛋白质相关的质谱数据分析方法都依赖于使用专门的软件、蛋白质序列或肽标记数据库,以及先验的选择。
2.5.1 MALDI-TOF和ZooMS
用于分类鉴定的PMF数据分析最常手动使用FlexAnalysis(Bruker Daltonics)或mMass软件的光谱可视化。可惜的是,目前没有PMF光谱或标记的集中数据库或公共存储库,因此必须从文献搜索中检索肽标记(已根据经验证明具有分类学信息的峰)。通过将简约原则应用于观察到的标记组合来进行分类识别。根据存在的潜在物种,最近提出了运用基于机器学习、层次聚类、主成分分析(PCA) 和理论光谱匹配等其他工具来帮助识别。在光谱解释过程中,必须考虑混合或复合蛋白质组表示的可能性(例如,胶水),并且还必须考虑潜在的污染。
2.5.2 LC-MS/MS、蛋白质鉴定和从头测序
MS/MS数据分析通常借助软件进行,该软件将完整离子质量和单个MS2光谱与从蛋白质数据库和预选先验计算的一组理论质量进行匹配,从而产生肽匹配分数以及其他指标。这种方法需要输入:(1)数据库,(2)仪器参数,和(3)搜索先验。一些软件还集成了从头测序、机器学习算法或其他替代工作流程,可以减少对数据库的依赖并能够表征新序列。古蛋白质组学最常用的软件是MASCOT、MaxQuant、SEQUST、PEAKS和Byonic。也有一些其他软件,如Scaffold可用于通过蛋白质和肽概率以及错误发现率(FDR)进一步验证和过滤结果,肽识别通常通过使用BLASTp在NCBI nr数据库中搜索来手动验证,以确保特异性。
虽然参照蛋白可以直接测序,但主要蛋白质数据库中可用的绝大多数蛋白质序列数据来自提交给三大主要蛋白质数据库NCBI(GenBank)、EMBL-EBI(EMBL-Bank)和DDJB的遗传编码序列(CDS)。公共核酸数据库共同构成国际核苷酸序列数据库合作组织(INSDC)。基因组衍生的注释蛋白质序列的其他来源包括NCBI RefSeq和Ensembl Genomes,以及用于寄生线虫的WormBase和ParaSite,以及用于病原体载体基因组的VectorBase。UniProtKB是世界上最大的蛋白质信息公共存储库,它汇总来自INSDC的数据并将其发布到两个数据库中:(1)SwissProt,其中包含手动注释和审查的序列;(2)TrEMBL,由所有剩余的未审查的、自动注释的序列组成。特定的数据库也可用于单个物种的蛋白质组(例如,UniProt蛋白质组、NCBI RefSeq),并且可以使用精选的基因组,例如人类口腔微生物组数据库(HOMD)或宏基因组,例如NCBI env_nr等,创建自定义数据库。此外,用于识别常见实验室污染物的专业数据库也被开发出来了,例如不定蛋白的共同储存库(cRAP;https://www.thegpm.org/crap/)和用于评估特定古代样本类型保存情况的数据库,例如牙结石。这些数据库包含不同数量的序列、不同级别的元数据和不同的数据库偏差。诱饵数据库或其他集成的目标诱饵搜索程序在分析期间包括在内,以计算FDR。应注意确保所选数据库适合样本类型。例如,对微生物基质(如牙结石和古粪便)或已被环境细菌降解的组织(如骨骼和木乃伊组织)的研究应在数据库搜索中包括微生物蛋白质组,以确保微生物蛋白质不会更好地匹配用于假定分配给饮食或宿主衍生蛋白质的光谱。同样,病原体(例如,结核分枝杆菌)的调查还应包括来自相关微生物分类群(例如,土壤分枝杆菌)的蛋白质序列,以确保分类特异性。基于发现的蛋白质组学,尤其是在应用于复杂的元蛋白质组时,对数据库选择特别敏感,应避免使用过于严格的数据库以减少误报。
一旦选择了一个或多个数据库,就需要仪器参数和搜索先验。仪器参数对应于用于分析的特定质谱仪,并包括有关肽电离和MS1和MS2质量精度的信息。搜索先验与样品本身有关,包括有关酶消化、同位素组成和肽的预期化学修饰的信息。这包括指定消化酶(例如胰蛋白酶),它应与所使用的实验酶相匹配,以及假定的保真度,及允许遗漏的切割(通常为1-3)。预期的13C原子的数量通常是预先选择的,并且导致质量变化的固定和可变化学修饰也被指定为先验。这些包括在提取过程中引入的任何有意修饰(例如,半胱氨酸的氨基甲酰甲基化)、常见的生物PTM(例如氧化和磷酸化)和成岩修饰(例如脱酰胺和糖基化)。
虽然匹配每个已知蛋白质序列和所有可能的化学修饰的能力对于古代样本来说是理想的,但计算工作量与数据库中的序列数量呈线性关系,在放宽化学修饰和消化参数时则呈指数增长。因此,必须选择限制搜索空间以允许合理的计算工作。例如,通过选择“半胰蛋白酶”等酶选项,可以在搜索中考虑体内和成岩骨架切割,可以增加算法的搜索空间。同样,搜索也可以在“容错”模式下进行,允许氨基酸替换和未指定的化学修饰,但这会增加FDR并减少成功识别的古代蛋白质的数量。对于古代样品,容错搜索通常用于在进一步分析之前评估样品中的化学修饰范围,或用于确定已经充分表征的蛋白质或蛋白质组中的新序列。
在蛋白质序列未知的分类群的系统发育研究中,软件可用于从头测序。这对于确定无法获得基因组数据的灭绝物种中的序列或验证PMF标记特别有价值。多种软件已被用于对古代蛋白质进行从头测序,包括PEAKS、Byonic和MaxNovo。不同软件之间的算法差异会影响识别的准确性。通过从头测序鉴定的胰蛋白酶肽可以使用UniPept等工具推断其分类。
搜索完成后,将根据许多指标评估潜在的鉴定结果,包括肽匹配分数、给定蛋白质的指定肽数量以及肽和蛋白质FDR。应使用额外的序列比对工具、多样化的数据库和关键光谱的手动验证来进一步验证高分鉴定的分类分配的特异性。在解释结果时,特别是在进行基于发现的蛋白质组学研究时,必须考虑潜在的数据库和搜索偏差。必须非常小心地选择参数以获得最佳和准确的结果,并且应该对不太可能的结果进行进一步审查。
2.5.3 分类鉴别
一旦肽被识别为蛋白质,它们的序列就可以用来推断分类和区分相关的分类。然而,一组给定肽序列的分类分辨率可能有很大差异,这取决于蛋白质的进化历史和作用于它的特定进化力量。总体而言,蛋白质序列提供的分类分辨率低于DNA序列,但蛋白质留存时间比DNA长数百万年,它们在生物学上的存量比DNA高得多,甚至在无细胞组织(例如,牙釉质、蛋壳)中也存在。因此,它们是我们最有价值的生物分子序列数据形式,可用于在深度化石中提供成功和可靠的分类学鉴定,以及研究对核酸造成破坏的加工和制造过程(例如皮革鞣制、羊皮纸浸灰)。
总体而言,序列变化通常在蛋白质中比在DNA中更受限制并且发生得更慢。这是因为DNA中的非编码区和遗传密码中的冗余允许其独立于选择压力的突变,而氨基酸变化直接影响蛋白质,并且改变氨基酸的化学性质和内部取代肽的位置会强烈影响蛋白质的结构和功能。此外,根据生物体和环境,合成或获取特定氨基酸以掺入蛋白质可能具有不同的代谢成本。这意味着几乎所有的蛋白质都处于某种程度的选择压力下,具有相似化学性质的氨基酸之间的取代发生率通常高于具有不同化学性质的氨基酸。因此,蛋白质中收敛、平行和反向替换的可能性更高,这可能导致远亲物种共享相同的替换(同质性),这是在高度功能约束下的蛋白质的一个特殊问题。
密切相关的分类群之间的蛋白质序列保守性决定了分类区分的可能水平。分类区分在某些情况下是不可能的,因为对于给定的靶标蛋白,一组分类群之间往往没有序列差异。例如,野生(Ovis ammon, Ovis gmelini)和驯养(Ovis aries)绵羊具有相同的β-乳球蛋白蛋白质序列,因此,源自该蛋白质的分类不能被指定为低于属(Ovis)的分类。即使在确实发生序列差异的情况下,分类学鉴别也可能达不到理论预测,因为并非所有变异位点都属于可能使用质谱法观察到的肽段,要么是因为相应的胰蛋白酶肽太长或太短,要么是因为它们太疏水。例如,驯化的马和驴的COL1a2氨基酸序列在成熟蛋白质的1038个残基中有4个有差异。理论上,基于这四个残基应该可以区分这两个物种,但在实践中,这种蛋白质的胰蛋白酶消化导致所有这四种分类学信息氨基酸落入不太可能被质谱检测到的肽中。因此,使用标准ZooMS技术无法区分马、驴和骡子(马驴杂交种)。相比之下,绵羊和山羊的COL1a2蛋白尽管差异更小(1038个残基中只有2个不同),但通常可以通过ZooMS区分,因为它们的分类学信息残基落在MALDI-TOF质谱法经常观察到的胰蛋白酶肽上。
分类学改变和消化效率也会进一步影响分类特异性。例如,在β-乳球蛋白中,胰蛋白酶肽TPEVD(D/N/K)EALEK是最常回收的含有分类变异位点的肽。然而,区分牛(天冬氨酸D)和绵羊(天冬酰胺N)的残留物在考古样品中是不可靠的,因为牛天冬氨酸(D)无法与埋藏后的脱酰胺天冬酰胺(N)区分开来。因此,带有天冬氨酸残基的肽必须暂时指定为牛/羊。此外,该肽中区分山羊的赖氨酸(K)残基也是胰蛋白酶切割位点(它将肽片段切割太短而无法进行MS检测),因此,只有在该肽中缺少胰蛋白酶切割时,才能对山羊进行分类分配。这种情况必须考虑到考古蛋白质分类学鉴别的策略中,因此,实践中古蛋白质数据的分类分辨率通常低于仅通过蛋白质序列比对预测的结果。
在某些情况下,获得样本的时间段或位置等额外的元数据可以提供更多信息,从而可以推断出更大程度的分类特异性。例如,从野生绵羊物种范围之外的位置(例如在殖民时代的美洲)获得的绵羊β-乳球蛋白序列可以合理地假设来自驯化的绵羊。同样,从欧洲新石器时代遗址获得的全新世时期Bos序列可以合理地分配给驯养牛(Bos taurus)。然而,这种基于背景的推论必须谨慎应用,特别是在可能存在多种物种或以前的物种范围不为人所知的地方和时期。
最后,由于质谱法回收的是肽而不是整个蛋白质,并且这些肽具有不同水平的分类特异性,因而分类分配通常基于简约性,假设肽来自尽可能少的物种。对于内源性组织,例如骨骼,假设蛋白质(例如胶原蛋白)的肽组源自单一生物体。然而,在人造或混合蛋白质组的情况下,所有肽都来自单一生物体的假设并不成立,例如胶原蛋白胶、牙结石或陶器食物结痂。在这些情况下,需要通过检查从许多蛋白质中获得的全部肽序列进行分类鉴定,并考虑生物地理和考古相关的先验信息,以便从可用数据中进行最合理的分类鉴定。
3.古蛋白质组学中的应用程序
尽管在考古学、文化遗产和古生物学领域以多种方式研究古代蛋白质,但大多数应用可以根据样品的性质和组成分为三大类:(1)蛋白质,其中单一蛋白质是分析的主要目标;(2)蛋白质组,研究组织或底物固有的内源性蛋白质组(例如,骨、牙釉质、壳);(3)元蛋白质组,分析不同生物或人造来源的蛋白质和蛋白质组混合物(例如,牙结石、古粪便、陶器外壳、艺术家材料)。本节我们依次描述每个应用程序并强调其用途、优势和挑战。
3.1 蛋白质
大部分古蛋白质研究都致力于检测和分类高丰度蛋白质,这些蛋白质是构成组织的主要结构成分。MALDI-TOF的PMF特别适合这种情况,但是当保存较差或需要更高分辨率的序列数据时,可以应用更强大的串联质谱,例如MALDI-TOF/TOF或LC-MS/MS。最常被分析的古代蛋白质是COL1,它是一种强大的结构蛋白,在理想条件下能够存留超过300万年。其他靶标蛋白包括用于识别羊毛、角、头发、羽毛、龟壳和胡须的角蛋白,以及丝心蛋白(丝绸的主要蛋白质成分)。此外,对牙齿形成很重要的牙釉质蛋白可用于确定某些哺乳动物物种的遗传性别。
虽然矿化组织,如骨骼、牙釉质和贝壳,由于其耐受性而经常成为古蛋白质分析的目标,但一些软组织蛋白质也适用于研究。胶原蛋白、角蛋白和纤维蛋白是由初级和次级动物产品(如皮革、毛皮、皮革、羊毛、毛皮、毡和丝绸)生产纺织品和羊皮纸的主要成分。这些材料在文化上很重要,但在考古记录中过于短暂且代表性不足,尽管通过与铜等抗菌金属接触有利于它们保存。古蛋白质组学方法可以通过改进分类学鉴定和识别痕迹残留物来提高其重要性。
3.1.1 胶原蛋白:骨头、牙本质、鹿茸、象牙、羊皮纸、皮革、肠道和鳞片
COL1的ZooMS分析是最常进行的古蛋白质组学分析类型,它几乎可以对任何胶原组织进行,包括矿化组织,如骨骼、牙本质、鹿角、象牙和角芯,以及非矿化组织,如皮肤、羊皮、皮革、肠道、鳞片和其他软组织。它对于识别失去诊断特征的材料特别有用,例如加工过的骨头和骨头碎片,并且它可用于筛选大量非诊断性碎片以寻找目的物种。有人认为它是一种可靠的筛选方法,用于在放射性碳测年之前评估胶原蛋白的保存情况,尽管ZooMS比放射性碳测年或稳定同位素分析需要更少的胶原蛋白。
使用分类学信息标记峰的数据库进行MALDI-TOF的ZooMS鉴定,但新开发的标记序列必须先被验证是真实的胶原序列,使用MALDI-TOF/TOF或LC进行分类学信息氨基酸替换MS/MS,尽管这在某些情况下不可行。大型哺乳动物,特别是欧洲物种占已发表标记的很大一部分,其他分类群的标记正在不断开发,包括非欧洲大型哺乳动物、啮齿动物、蝙蝠、鲸目动物、有袋动物、鸟类、鱼类、两栖动物和爬行动物。
在过去的十年中,ZooMS广泛用于回答文化遗产、考古、生态和古生物学问题。例如,ZooMS已用于研究加工骨骼、人工制品和文化遗产材料的制造,并更好地表征考古动物群和过去的人与动物关系。同时也用于更好地定义过去的家畜管理策略,记录与人类活动相关的共生物种的引入,并确定野生物种的利用。它为过去生态的重建和对已灭绝的巨型动物的研究做出了贡献。ZooMS还被用作大型更新世洞穴序列中骨碎片的低成本、高通量筛选工具,进而发现了其他无法诊断的原始人遗骸,包括尼安德特人母亲和丹尼索瓦人父亲的后代。最后,由于ZooMS可以使用微创采样技术,这是对羊皮纸手稿、抄本和其他历史文件的多学科分析等新兴领域的一项突破性技术。
3.1.2 角蛋白和角质β-蛋白:羊毛、头发、羽毛、鲸骨和龟壳
α-角蛋白和角质β-蛋白(CBPs,原β-角蛋白)是脊椎动物中继胶原蛋白之后最重要的两类结构蛋白,它们是毛发或皮毛、指甲或爪子、角、蹄、羽毛、喙、龟壳、羽毛管和鲸骨的主要成分。它们在皮肤中与胶原蛋白一起存在。类似胶原蛋白,研究人员已经对数十种单独的角蛋白和CBP蛋白进行了表征。它们也可以通过PMF使用MALDI-TOF进行分类区分。与产生胶原蛋白的细胞不同,产生角蛋白的细胞在产生角蛋白和CBPs后死亡,因此角蛋白组织没有生命并且不会重塑。角质组织不会矿化,即使是最坚硬的CBP组织(例如,龟壳、喙、爪等)也很少含有矿物质,因此比矿化蛋白更容易降解。然而,在有利的保存条件下,因为它们具有疏水性和对许多蛋白酶的抵抗力,角蛋白和CBPs可以保存很长一段时间,尤其是当它们嵌入由附近金属物品(例如,武器、皇冠、别针、扣环)降解产生的矿物基质中时。
用于识别毛皮和纺织品的MALDI-TOF标记肽最初是使用PCA方法开发的,随后使用LC-MS/MS或MALDI-TOF/TOF进行了验证,为某些哺乳动物和鲸骨组提供了属级分辨率。唯一具有提供属级分辨率的可用CBP标记的分类群是海龟。目前正在研究使用免疫学检测来检测金属制品上的羊毛和土壤中的纺织品印记。增加对角蛋白和CBP多样性的了解,例如与驯化、选择性育种相关的羊毛色素沉着和卷曲的差异,以及与人类身体位置、疾病和年龄相关的饮食和角蛋白质地变化,可能会允许更多信息收集的不仅仅是分类学分类。
3.1.3 丝心蛋白:蚕丝
丝绸是由高度重复的β-折叠基序组成的结构蛋白,其中散布着柔性结构域。生蚕丝主要由两种蛋白质组成,丝心蛋白和丝胶,另外几种蛋白酶和功能性蛋白质构成次要成分。在纺织品生产过程中,非丝心蛋白被去除,丝心蛋白成为考古丝绸中的主要蛋白质。虽然现代和历史时期的丝绸都来自中国的单一驯化蚕种(家蚕),但许多其他昆虫也可以生产丝绸,包括其他野生蚕和飞蛾(尤其是野桑蚕、眉纹天蚕蛾、琥珀蚕和樗蚕蛾)和蜘蛛(例如棒络新妇蛛和十字圆蛛),在亚洲、印度、欧洲、北美和澳大利亚的历史和考古学上都有这些丝绸的使用的记载。来自家蚕和柞蚕丝的蚕丝可以通过LC-MS/MS和免疫学分析在蛋白质组学上进行区分。这使丝绸纺织品及其来源物种可以从带有纺织品印记的沉积物中以及与金属制品接触的痕量纺织品中识别出来。来自其他物种的纤维蛋白特征的进一步研究有可能大大提高对丝绸生产和贸易以及蚕驯化的理解。
3.1.4 牙釉质蛋白:人类和其他哺乳动物的性别分类
牙釉质蛋白(Amelogenin,基因AMEL)在新分泌牙釉质的牙釉质形成和矿化中起重要作用。在牙釉质成熟过程中,牙釉蛋白被蛋白酶切割并被困在牙釉质基质中。在单孔动物、有袋动物和非哺乳动物物种中,AMEL是一种常染色体基因,而在真兽类哺乳动物中,它位于性染色体上。在大多数哺乳动物中只有AMELX是有功能的,而AMELY的表达很低。在某些物种中,AMELX和AMELY之间没有序列差异。其他物种已经完全失去了AMELY。然而,对于在AMELX和AMELY之间存在序列差异以及表达AMELY的物种,蛋白质分析可以选择性别优先。这些物种包括人类、牛、野牛、绵羊、山羊、鹿、猪、马和熊。
在将LC-MS/MS广泛应用于考古样品之前,尝试使用MALDI-TOF/TOF来鉴定AMELX和AMELY以进行性别鉴定的尝试很少成功。使用LC-MS/MS的后续努力已证明对古人类和远古原始人的性别确定更有成效。迄今为止,其他物种的性别决定受到限制,但包括已灭绝的犀牛(Stephanorhinus sp.)、长鼻动物(Notiomastodon platensis)和啮齿动物(Myocastor coypus)。尽管有人担心由于某些人群中AMELY缺失变异的出现频率较低,导致该方法会产生不准确的结果,但使用牙釉蛋白进行性别鉴定目前仍然是一种可靠的技术,并且在形态性别确定不可行的情况下,它是一种重要的生物分子工具。尤其是对于不完整的骨骼和幼体,或者当古代DNA分析不成功或不可行时。
3.2 蛋白质组
第一个来自猛犸骨骼的古代蛋白质组于2012年发表。它是一项卓越的成就,由100多种蛋白质组成,标志着该领域从古代蛋白质研究向真正的古蛋白质组学的转变。蛋白质组是存在于给定组织中的一组蛋白,虽然生物体的基因组在整个身体和一生中保持相对恒定,但蛋白质组可能存在很大差异。蛋白质组由蛋白质混合物组成,通常具有高度复杂性和广泛的蛋白质表达动态范围。LC-MS/MS方法对于分析蛋白质组是必要的,但即使对于现代蛋白质组,全面的蛋白质组表征仍然具有高度挑战性,更不用说古蛋白质组了。尽管如此,这个领域仍然取得了重大进展,特别是在表征古代骨骼、牙釉质、蛋壳和软体动物壳的蛋白质组方面,木乃伊组织的探索较少。尽管蛋白质组数据可用于提供分类学分配,但它们也能够解决有关系统发育关系、健康以及衰老和发育等更复杂的问题。下面,我们将描述古代蛋白质组的研究现状并探索它们的应用。
3.2.1 骨骼和牙质
骨骼和牙质具有相似的发育起源和相应的相似但不相同的蛋白质组。虽然它们都以结构蛋白COL1为主,但它们还含有各种各样的数百种其他胶原蛋白和非胶原蛋白(NCP)。许多蛋白质在骨和牙质之间共享,包括间质原纤维胶原蛋白(例如,I、III和V型),以及支持胶原原纤维组织的蛋白(例如,光蛋白聚糖、LUM)和促进生物矿化的蛋白(例如,双糖链蛋白聚糖、BGN;胎球蛋白A,AHSG)。其他蛋白质更具组织特异性,例如在骨膜中不成比例地表达的骨膜素(periostin,POSTN),在骨关节表面表达的软骨粘连蛋白(chondroadherin,CHAD),以及促进牙齿附着到牙周韧带的阿斯普林蛋白(asporin,ASPN)。血浆蛋白和凝血蛋白通常也存在于骨骼和牙质蛋白质组中,包括凝血酶原(F2)、凝血因子IX (F9)和凝血因子X(F10)。迄今为止,已经在人类中研究了古代骨蛋白质组包括猛犸象、恐鸟、牛、马、火鸡、兔子、松鼠和灭绝的犀牛,古代牙质蛋白质组则包括人类和灭绝的犀牛。
由于许多NCP和一些胶原蛋白的突变率高于COL1,因此它们是系统发育重建更好的目标,尤其是在密切相关的物种之间。骨骼和牙质蛋白质组的分析成功地帮助解决了已灭绝的巨型动物的系统发育关系,包括古人类。此外,使用新的高通量LC-MS/MS工作流程(如SPIN)的骨蛋白质组规模分析显示出对非诊断性骨骼进行属和种级分类学分配的巨大希望。
蛋白质组水平分析还可用于检测改变的骨蛋白质组,例如与活动水平、健康和疾病以及年龄变化相关的蛋白质组。众所周知,慢性骨感染,如骨髓炎和骨癌会改变骨蛋白质组,许多研究试图根据蛋白质组学证据来诊断癌症的考古病例,尽管迄今为止的结果大多是定性的和非特异性的。随着包括骨髓在内的多种组织的生物学年龄的增加,骨蛋白质组成分和化学修饰也会发生变化,并且在现代和考古骨骼材料的蛋白质组中观察到与生物学年龄和死后间隔相关的成分变化和修饰。然而,骨骼是人类蛋白质组组织(Human Proteome Organization,HUPO)人类蛋白质组计划(Human Proteome Project)中特征较差的组织之一,在考古骨骼样本中观察到的蛋白质组变化可能是除了生物年龄、生理压力、生活史特征和疾病之外的因素导致的。需要更多的工作来评估化学修饰和蛋白质组组成提高考古样本信号的可靠性。
3.2.2 牙釉质
牙釉质是脊椎动物体内最坚硬的组织。成熟牙釉质主要由羟基磷灰石晶体组成,有机基质的含量非常少,不到其总量的2%。牙釉质的蛋白质组很小,仅由五种丰富的蛋白质组成:牙釉蛋白(AMELX和AMELY)、成釉蛋白(AMBN)、釉成熟蛋白(AMTN)、釉蛋白(ENAM)和成牙质成釉细胞相关蛋白(ODAM)。其中,牙釉蛋白是最丰富和最有特征的,占所有牙釉质蛋白的90%。其他蛋白质,包括角蛋白(例如,KRT75),以及胶原蛋白和血液蛋白,在牙釉质中也可检测到痕量的水平,但后者可能由于牙质的污染。釉质蛋白在体内被基质蛋白酶釉溶素(MMP20)和激肽释放酶相关肽酶4 (KLK4)降解,导致成熟釉质中仅存在酶促切割的蛋白。这些降解的蛋白质集中在牙本质与牙釉质交界处(DEJ)和羟基磷灰石杆鞘的牙釉质簇中。尽管早期尝试直接分析现代和考古牙齿中的牙釉质蛋白通常只检测到牙釉蛋白,但方法学的改进越来越多地允许恢复更丰富的牙釉质蛋白质组。
由于与骨骼相比,牙釉质具有保护性,因此牙釉质蛋白是脊椎动物体内存活时间最长的蛋白质之一。尽管牙釉质蛋白质组很小,并且与其他组织相比系统发育分辨率较低,但古老的牙釉质蛋白已成功用于确定灭绝物种的系统发育关系,并且牙釉质蛋白在DNA或其他蛋白质缺失的情况下尤其珍贵。
3.2.3 禽类蛋壳
与牙釉质一样,壳这种生物矿物基质提供了更好的防水保护能力,其蛋白比骨骼中更容易留存。因此,蛋壳有望在很长一段时间内存活下来,而蛋壳目前拥有成功确定和独立验证的最古老的肽序列的记录:来自东非3.8 Ma的鸵鸟蛋壳。
在有机基质蛋白介导的多阶段过程中,禽类蛋壳在蛋膜周围矿化。尽管已经使用蛋白质组学方法在新鲜蛋壳中鉴定出约500-1000种蛋白,但在考古样品中通常鉴定出的蛋白要少得多。在分析之前,考古蛋壳通常使用漂白剂处理以去除晶间成分,只留下晶内蛋白质进行分析。蛋壳的LC-MS/MS分析已回收了多种蛋壳蛋白,尤其是ovocleidins(禽类蛋壳特异性基质蛋白)、ovocalyxins、卵清蛋白、struthiocalcin、rheacalcin、ansocalcin、卵粘蛋白、卵转铁蛋白、卵抑素和粘蛋白等。
使用MALDI-TOF和LC-MS/MS对蛋壳蛋白质组的进一步表征允许开发大量的标记肽,这些肽可以使用PMF可靠地区分常见的鸟类分类群(最重要的是鸡、鸭和鹅)。PMF是一种快速且廉价的鉴定考蛋壳的方法,但由于蛋壳蛋白质组的复杂性和特征物种的数量有限,并非所有蛋壳都可以使用该方法进行鉴定。当MALDI-TOF分析无法从分类学上识别物种时,可以对具有不同MALDI-TOF光谱的样品进行LC-MS/MS分析,以便于识别。随着越来越多的鸟类基因组被测序并存储在基因组和蛋白质组数据库中,识别的成功率将会增加。
蛋壳蛋白质组是提高考古蛋壳分类分辨率的有力手段,可以更细致地解释考古遗址中人类与鸟类之间的相互作用。例如,由于饮食和年龄影响蛋壳强度和质量,未来对考古蛋壳的研究可能能够提供有关驯养鸟类(如火鸡)以及经过集约化繁殖计划的圈养野生鸟类的早期饲养和饲养实践的见解,比如猩红色的金刚鹦鹉。
3.2.4 软体动物壳
软体动物已经进化出一种生物矿化的外骨骼或外壳,可提供支持、保护和防御,还可以作为钙离子的储备。对于适当的壳形成来说重要的是壳基质蛋白,它们可以在生物矿化壳的晶内基质中持续存在,在那里它们可以免受污染和降解持续很长的时间。壳基质蛋白序列是多种多样的,因此具有提供属甚至种级分类分辨率的潜力。最近开发的协议可以成功地从加工和未加工的壳中提取壳基质蛋白(“壳组”),用于MALDI-TOF和LC-MS/MS分析。尽管目前鉴定工作受到可用参考数据缺乏的限制,但“古生物”分析在揭示人类与贝壳和贝壳加工的长期关系方面具有巨大潜力,这种关系可以追溯到100,000多年前,并将有助于更好地理解和解析氨基酸地质年代学。
3.2.5 木乃伊遗骸
虽然木乃伊相对不常见,但它确实产生在各种人工和自然条件下,为研究古代软组织提供了难得的机会。最常保存和分析的软组织是皮肤。尽管大多数皮肤(以及经过处理的皮肤产品,如皮革和羊皮纸)的蛋白质组学研究只关注胶原蛋白,但皮肤是一种复杂的组织,具有多种蛋白质组,其中还包括大量不太丰富的蛋白质。
使用LC-MS/MS可以访问大部分古老的皮肤蛋白质组,迄今为止对人类皮肤的研究主要集中在人工和自然木乃伊皮肤中的蛋白质组保存特征,重点是记录与先天免疫相关的蛋白质。对动物皮肤的研究已经超出了分类学的范围,通过进一步识别在出生前后几个月差异表达的胎儿蛋白质(例如,RPN2、HBBF、HSP90A)可以识别小牛皮肤并估计动物的死亡年龄。然而,尽管有大量问题可以通过分析古皮肤、皮革和羊皮的蛋白质组来解决,但古皮肤的研究仍然主要集中在胶原蛋白上。现代人类皮肤和头发蛋白质不可避免地无处不在,导致古代皮肤的研究产生了严重挑战,而对古代皮肤蛋白质的解释需要很好地了解它们的挖掘和整理历史,以解释污染问题。此外,目前对古代皮肤的取样还需要博物馆和档案馆不支持的破坏性技术。最近在木乃伊组织上的微创EVA薄膜和羊皮纸上的PVC拓片取得的成功正在改变古代皮肤研究的前景,并且可能会增加可以分析的可用样本的数量。
除了皮肤,其他木乃伊化的软组织和器官也被记录,肌肉和胃组织偶尔会使用蛋白质组学技术进行分析。更令人惊讶的是数百个保存下来的大脑已经被表征,世界各地可能还有数千个大脑被保存下来。在撰写本文时,只有三个大脑进行了蛋白质组学分析,回收的蛋白质数量差异很大。大脑保存的成功可能是由于形成了防止降解的蛋白质聚集体。虽然与其他样本类型相比,软组织仍然相对较少,但可能会开发出健康、年龄和生活史的蛋白质标记物。
3.2.6 植物大残骸
植物大残骸(例如种子、果实、木材)可以在特殊条件下保存很长时间,例如在浸水或烧焦的状态下,或者在极度干旱或寒冷的情况下。尽管现代种子中含有数百至数千种蛋白质,但从古代种子中报道的蛋白质回收率要低得多。例如,在英格兰中世纪约克的浸水葡萄种子中仅鉴定出六种植物蛋白,包括2S白蛋白、7S和11S球蛋白、肽酶A1和一种非特异性脂质转移蛋白,而在意大利拜占庭莱切则没有。总体而言,与其他生物分子类别(如碳水化合物和脂质)相比,古代种子的蛋白质保存率相对较低,但蛋白质回收方法的改进以及近期成功从残留物和污渍中鉴定到植物蛋白质方面表明从植物大残留物中分析古代植物蛋白质组是可行的。
3.3 宏蛋白质组
宏蛋白质组是衍生自一种以上蛋白质组的蛋白质混合物。绝大多数宏蛋白质组研究都集中在混合微生物群落的研究上,例如在宿主相关微生物组和环境微生物组中,但许多相同的方法也适用于制造或制造来源的混合蛋白质组,例如食物外壳和艺术家材料,因此这里也将考虑这些材料。这里还考虑从微生物感染和患病组织中回收的蛋白质。宏蛋白质组研究是古蛋白质组学中最令人兴奋和增长最快的应用领域之一,但它们也对蛋白质识别和鉴定提出了独特的挑战。
3.3.1 微生物组
微生物组是形成稳定复杂群落的多种微生物联合体。它们可能与宿主相关,例如口腔和肠道微生物组,也可能与环境有关,例如土壤微生物组,并且它们可以在给定地点或不同条件下在空间上发生变化。例如,在口腔内,牙龈上的微生物群与舌头上的微生物群不同,而舌头上的微生物群又与牙菌斑内的微生物群不同,甚至在牙菌斑中,牙龈上和龈下牙菌斑之间也存在差异。同样,土壤微生物群在不同的环境条件下也有很大差异,例如沙漠、森林和农田。尽管或可能因为这种巨大的多样性和变异能力,现代和古代微生物组的研究非常有价值。
古代微生物组的第一个宏蛋白质组是人类牙结石,这是一种在生命中自然形成的钙化牙菌斑。研究人员鉴定了许多微生物蛋白,包括牙周病原体特有的毒力因子,例如来自连翘属植物的TfsA和TfsB,使用宏基因组技术独立证实这些蛋白。然而,尽管针对所有UniProt搜索了宏蛋白质组学数据,但很明显,由于数据库中口腔细菌的代表性不足,口腔微生物蛋白质未被充分识别。基于HOMD中基因组翻译的自定义数据库的创建产生了改进的微生物的结果,并且通过翻译来自相同样本的宏基因组数据创建的另一个自定义数据库产生了更多的微生物鉴定结果,但后一种方法未能更好地理解宏蛋白质组,因为大多数翻译的序列缺乏注释或被归类为“假设”蛋白质。随后对牙结石的研究证实,它保存了极其丰富多样的微生物宏蛋白质组,但不发达的数据库(蛋白质组和基因组)限制了目前可以进行的鉴定和注释的数量。
除了微生物蛋白质外,牙结石还保留了丰富的唾液和龈沟液混合蛋白质组,包括参与宿主对牙菌斑和牙周病引起的组织破坏的免疫反应的蛋白质。现代和古代牙结石中鉴定的许多宿主蛋白由嗜中性粒细胞表达,嗜中性粒细胞是参与牙周先天免疫的主要细胞类型。牙结石中的非免疫相关宿主蛋白包括α-淀粉酶,这是一种在唾液中表达的淀粉消化酶。
除了微生物和宿主蛋白质外,牙结石还含有不同的膳食蛋白质。在古代牙结石中发现的第一个膳食蛋白质是β-乳球蛋白,这是一种对牛奶具有高度特异性的蛋白质。随后在欧洲、非洲和亚洲的考古牙结石中发现了乳蛋白,这有助于了解乳制品在史前时期是如何产生和传播的。植物蛋白也在牙结石中被鉴定出来,随着方法和仪器的改进,鉴定出的植物蛋白的数量和多样性稳步增长。第一项从牙结石中回收植物蛋白的研究调查了英国从铁器时代到中世纪时期的样本,并仅在最晚的样本中鉴定了燕麦、豌豆和十字花科蔬菜中的膳食蛋白质。青铜时代和铁器时代黎凡特的后续研究不仅鉴定了小麦和芝麻等主食蛋白,还鉴定了可能通过长途贸易引入的香料、油籽和水果蛋白。迄今为止已在考古牙结石中发现的其他膳食蛋白质包括鸡蛋卵清蛋白和反刍动物血红蛋白。
尽管大多数古代微生物组研究都集中在牙结石上,但现在也在探索古粪便。例如,最近对阿拉斯加犬古粪便的一项研究鉴定了范围广泛的宿主蛋白,包括与胃肠消化相关的蛋白酶、肽酶和脂肪酶,以及来自鲑科鱼类的膳食蛋白质,这些蛋白质来自食用鱼的肌肉、内脏、和鸡蛋。很少有细菌蛋白质被鉴定出来,因为这些蛋白质在分析之前被有意消解。细胞化学染色表明蛋白质存在于整个古粪便中,并且先前使用免疫测定法对古粪便进行的研究表明,通过蛋白质组学技术也可以接触到胃肠道寄生虫。未来对古粪便的分析可能会深入了解古代肠道微生物组的结构和功能,并揭示更丰富有关健康和饮食的信息。
3.3.2 残留物、食物结痂和残渣
陶瓷烹饪容器可以长期保存膳食脂质和小代谢物(例如,黍素、酒石酸),从而可以跟踪史前食品加工,例如鱼类加工、小米的传播、乳制品、植物油的储存和葡萄酒生产。然而,目前从容器中回收膳食蛋白质的努力只取得了有限的成功。似乎蛋白质通常不会保留在陶器中或无法从陶器中提取。
与陶瓷织物本身相比,食物结痂为分子分析提供了更有希望的目标,钙化的食物结痂似乎特别适合蛋白质组学分析。最近一项蛋白质组学研究对Çatalhöyük安纳托利亚新石器时代遗址烹饪容器内表面堆积的具有8000年历史的钙化沉积物(水垢)进行了研究,发现了种类繁多的食物蛋白质,包括乳清蛋白(如β乳球蛋白、α乳清蛋白)、凝乳蛋白(例如α、β和κ酪蛋白)和脂肪球相关蛋白(嗜丁酸亚科1成员A1),以及肉类/血液蛋白(血红蛋白)和多种植物蛋白(例如,来自谷物和豆类的大麦醇溶蛋白、豆类、丝氨酸蛋白酶抑制剂Z4)。膳食蛋白质集中在血管内部的钙化结痂中,对来自同一血管的非钙化陶瓷织物的分析产生的蛋白质相对较少。这项研究表明,古代烹饪容器被使用和重复用于烹饪各种植物和动物食物,很少有容器专门使用。尽管脂质分析,尤其是基于C16:0和C18:0脂肪酸同位素分析的脂质分析,可能会因此类烹饪而混淆,但蛋白质组学非常适合分类和区分这些食物混合物。
除了食物结痂外,食物偶尔会在特殊的环境条件下相对完整地存活下来,例如在中国西部的塔克拉玛干沙漠中,与青铜时代小河地平线有关的木乃伊上发现了整片类似开菲尔奶酪,草篮内发现了干牛奶。此外,随后的铁器时代,苏北溪墓地还保存着由大麦和小米制成的酸面包。对这些保存完好的食物进行的LC-MS/MS分析产生的蛋白质不仅是食物本身不可或缺的一部分,而且还提供了对乳酸菌和酵母发酵这些食物的见解,为史前烹饪技术提供了前所未有的一幕。蛋白质组学直接分析的古代食物的其他例子包括对保存异常的尸体的肠道含量研究,例如蒂罗尔冰人奥茨(Tyrolean Iceman Ötzi),这是可追溯到铜石时代的阿尔卑斯冰川木乃伊,以及托伦德人(Tollund Man),这是保存完好的丹麦早期铁器时代的沼泽尸体。
3.3.3 感染和病变组织
古DNA研究促进了古微生物学和病原体基因组学的重大进展,并产生了十多种传染性病原体的分子鉴定和表征,包括鼠疫耶尔森菌、结核分枝杆菌、麻风分枝杆菌、幽门螺杆菌、梅毒螺旋体、肠沙门氏菌、疟原虫恶性疟原虫、乙型肝炎病毒(HBV)和天花病毒。相比之下,古代病原体的古蛋白质组学研究尚处于起步阶段,但为研究疾病的病理生理学和临床表现提供了潜力。
迄今为止,大多数基于蛋白质组学的研究都集中在在骨骼中产生可见病变的传染病,特别是结核病。然而,最初对PMF鉴定结核分枝杆菌蛋白的热度后来被LC-MS/MS研究缓和,结果显示其缺乏峰特异性,并且难以将结核分枝杆菌肽与其他土壤分枝杆菌的肽区分开来。其他研究试图通过应用免疫测定方法来实现更高的特异性,但缺乏对环境分枝杆菌的控制。近期,结合应用于牙结石的古基因组学和古蛋白质组学技术获得了有望治疗麻风杆菌感染的结果。在这项针对患有麻风骨学指征的中年成年女性的研究中使用古DNA技术重建了6.6倍覆盖的麻风分枝杆菌基因组,LC-MS/MS分析恢复了四种分枝杆菌蛋白的证据。尽管没有一种分枝杆菌肽是麻风杆菌特有的,但综合骨学、基因组和蛋白质组学数据可以提供令人信服的麻风感染情况。除此以外,该研究还强调了使用蛋白质组学方法研究传染病的困难。正如古代DNA领域只有在向全基因组测序过渡时才克服其在古病理学中的挑战一样,古蛋白质组学领域也需要实现更大的病原体蛋白质组覆盖率,才能充分发挥其潜力。
除了病原体蛋白之外,最近人们还对表征木乃伊和骨骼残骸中的先天免疫蛋白作为炎症和疾病的代表产生了兴趣。虽然成功率很高,但需要做更多的工作来了解现代和古代背景下健康组织中免疫蛋白的自然水平,然后才能充分解释这些发现。
3.3.4 文化遗产材料和艺术品
质谱法和其他方法应用在推断艺术品和其他文化遗产物品的蛋白质成分已经过全面验证。MALDI-TOF和LC-MS/MS均可用于分析艺术品和文化遗产材料,下面简要介绍它们的用途。
在古代和历史时期,蛋白质材料(例如牛奶、鸡蛋、血液和皮肤或骨骼中的明胶)被广泛用作艺术品中颜料的粘合剂和砂浆等建筑材料的粘合剂。了解这些材料的组成可以深入了解过去的工艺,并提供有助于选择策展的信息。对绘画的蛋白质组学分析可以鉴定许多广泛使用的结合蛋白,包括牛奶中的酪蛋白和β乳球蛋白,明胶中的胶原蛋白、卵黄蛋白、载脂蛋白和蛋黄中的低密度脂蛋白受体,以及蛋清中的卵清蛋白、卵转铁蛋白和溶菌酶。虽然一些研究使用单一来源的粘合剂,但许多粘合剂由混合来源组成,例如来自至少两种不同物种的牛奶或牛奶、鸡蛋和明胶的各种组合。在生产粘合剂过程中无意引入的蛋白质,例如基于胶原蛋白中的肌肉或血液蛋白,可能能够提供对明胶生产或将其他动物产品添加到粘合剂中的证据。除了油漆,粘合剂蛋白质也被添加到建筑材料中,例如砂浆。血液和牛奶经常被作为砂浆添加剂,并且已使用多种技术在古代砂浆中广泛检测到。
历史上有许多粘合剂配方的记录,蛋白质组学可以阐明不同配方的使用,因为它们与颜料颜色、画布或雕像的类型、粘合剂的特性和可用性以及文化和个人选择相关。目前,这在一定程度上受到检测偏差和分析样本数量有限的限制。由于单独使用胰蛋白酶不能很好地检测酪蛋白和一些鸡蛋蛋白,因此使用胰蛋白酶和胰凝乳蛋白酶进行的多酶消化可以提高对这些结合材料的检测。在结合蛋白的比例或保存非常低的情况下,MRM等靶向技术可以帮助改进结合肽的检测,事实证明,这对于之前怀疑存在但未检测到鸡蛋蛋白的情况下识别鸡蛋蛋白特别有用。最近开发的无需专业培训即可进行的低成本、破坏性最小的采样技术有望使艺术品的蛋白质组学研究更加可行,并且使用MALDI-TOF进一步开发PMF将有助于更大规模的数据收集。
蛋白质组学技术除了分析油漆和砂浆粘合剂外,还分析了许多其他历史和考古文化遗产项目。在历史和考古样本中发现了由哺乳动物和鱼类明胶制成的胶原蛋白胶。许多其他不同的物品也已分析,包括化妆棒、金属涂层的肠线、头骨和文物上的有机涂层、产带、照片和博物馆藏品。对这些项目的蛋白质组学分析有助于更好地理解用于创造物质文化的知识、过程和选择。
蛋白质组学也被证明有助于了解过去的保护实践和指导未来努力的方向。例如,最近对历史上保存的小牛皮的一项研究揭示了一种小牛交联的兔胶原蛋白肽,表明甲醛和兔胶已被用于保存该作品。此外,作为保护实践的一部分,混合甚至贴错标签的胶水的识别刚刚开始探索。蛋白质组学技术还可以帮助识别生活在文化遗产物体(例如羊皮纸)表面的真菌和细菌,并且将来有可能使用这些信息来识别处于危险中的遗产并加强保护方法。
4.当前的挑战
古蛋白质组学正在彻底改变我们研究过去的方式,并为进化、系统发育、人类经济、美食、艺术和其他形式的物质文化提供前所未有的见解。然而,目前蛋白质回收和测量的低效率、仪器的限制以及数据库和计算能力不足阻碍了我们完全访问古代蛋白质组的能力。综合起来,这些问题可能导致无法识别样品中存在的关键蛋白质,产生检测偏差,或限制定量分析考古和历史蛋白质组的能力。本节我们讨论了在古代肽和蛋白质的检测、鉴定和鉴定方面仍有待克服的主要挑战。
4.1 蛋白质检测
为了检测蛋白质,它们必须被纳入考古记录,随着时间的推移而留存,在提取过程中变性、溶解和消化,在质谱仪中电离,并落入仪器的动态检测范围内。这些是质谱的硬性限制,任何未被检测到的肽都是不可恢复的。生物和成岩变异可会导致蛋白质和肽以受蛋白质氨基酸序列、疏水性、蛋白质结构、化学修饰、与矿物基质相互作用和选择影响的方式不均等地掺入、降解、提取、消化和离子化的提取方法。仪器设计和性能也限制了结果的检测和再现性。其中一些因素是可以预料的,而另一些则不能。
与蛋白质大小和序列相关的偏差是可预测的。例如,一些蛋白(例如,COL1)非常大,因此会产生许多肽,这使得它们比较小的蛋白质更有可能被检测到,即使两种蛋白的数量相等(图4A)。其他蛋白质,如角蛋白,有大量半胱氨酸二硫键,在提取过程中很难完全断裂,导致检测不足(图4A)。消化后,可以预测某些肽的回收率较低,因为它们太小或太大,无法通过给定仪器进行有效的电离和测量(图4A)。此外,成岩作用的变化也可以改变蛋白酶切割位点,从而改变可检测性。例如,带正电荷的Arg和Lys侧链容易发生脱氨基和糖基化,导致错过切割并降低旧样品中胰蛋白酶的效率。体内自消化(例如,釉质蛋白)和成岩骨架切割也会改变预期的肽谱。
能够持续检测到的来自给定蛋白质的肽称为蛋白质肽。然而,尽管付出了巨大的努力,但预测蛋白质肽的尝试只取得了有限的成功。无法充分纠正整个蛋白质组的检测偏差是蛋白质定量的主要挑战,对于古代样品和基于发现的应用来说更具挑战性。
鸟枪法蛋白质组学中最令人烦恼的问题之一是其有限的可重复性,特别是对于低丰度蛋白质,这些蛋白质通常是古代蛋白质研究中感兴趣的主要蛋白质。有两个因素共同导致了这个问题。首先,基因表达以及蛋白质丰度通常在给定组织内变化超过6个数量级,在生物流体中甚至高达12个数量级。这与DNA截然不同,DNA大多数基因以单拷贝形式存在,甚至多拷贝基因的丰度差异也很少超过1个数量级。因此,蛋白质组的动态范围是巨大的。其次,目前的串联质谱仪功能不足以选择性地裂解和分析从给定样品中产生的所有前体离子,因此传统的鸟枪法蛋白质组学只能获得一小部分复杂的肽混合物。对于给定的质荷比(m/z)窗口,当前仪器要么选择最丰富的离子进行碎裂和MS2 (DDA),要么选择所有离子,产生混合MS2 (DIA)。古代蛋白质的解决方案也令人不满意的。DDA导致离子选择的重现性差和低丰度肽的选择不足,而DIA产生的MS2难以解卷积,并且对于低丰度肽而言信噪比仍然很低。MRM或PRM等靶向方法只能部分解决问题并且浪费样品,因为它们只测量预先选择的肽段,这对于基于发现的研究或目标蛋白的成岩修饰未知时可能难以提前知道。更好的色谱、离子淌度、更快、更强大的仪器和计算改进可能很快会缓解其中的一些问题,但目前古代蛋白质研究尚未达到古基因组学所享有的高度可重复性。
4.2 蛋白质鉴定
蛋白质鉴定,尤其是来自未知成分的复杂混合物的鉴定,仍然是一个持续的挑战。基于序列的鉴定仍然是古蛋白质组学的黄金标准,但这种鉴定受到数据库选择和预期修改的强烈影响,意味着只能鉴定出目标肽。鉴于这些限制,一些分析策略包括容错或从头测序方法,以增加已识别MS2光谱的数量,使其超出数据库的数量。然而,随着通过添加序列或允许的修改来增加样本搜索空间,计算需求可能很快超过当前的可行性。幸运的是,与检测限制不同,鉴定限制是可控的,因为以后可以使用更新的软件、算法、数据库、计算基础设施和化学修饰参数重新分析数据以改进鉴定结果。
数据库目前是古代蛋白质鉴定的主要限制因素。尽管人类和一些模式生物的蛋白质组现在已经得到很好的整理和注释,但许多具有考古意义的分类群的蛋白质组从软体动物到微生物组仍然没有充分表征或缺乏特征。大多数数据库都存在包含偏差,与其他物种相比,模式生物和经济上重要的分类群的代表性大大增加。例如,驯化的牛(Bos taurus)具有已发表的基因组和注释良好的蛋白质组,在UniProtKB中有140,740个条目,在NCBI GenBank中有9,936,498个条目。相比之下,只有有限的基因序列数据可用于爪哇牛(Bos javanicus),这是一种来自东南亚的相关牛种,在NCBI GenBank和UniProtKB中的蛋白质序列少于400个。即使在一个物种的完整基因组可用的情况下,在将基因组数据提交到数据库(如NCBI GenBank)与其注释的蛋白质组在链接平台(如UniProtKB)上可用之间可能存在显著延迟。例如,在撰写本文时,UniProtKB仅包含97个已审查和2,985个未审查的驯化水牛(Bubalus bubalis)蛋白质,但其整个基因组可通过NCBI GenBank获得,包括64,378个注释蛋白质。此外,虽然UniProtKB聚合了来自主要基因数据库的数据,但它并没有包含所有带注释的基因组数据,并且一些精选的蛋白质数据库仍然是独立的,例如HOMD、WormBase、ParaSite和VectorBase。因此,即使在UniProtKB等大型蛋白质数据库中,蛋白质表示在主要分类组之间也存在很大差异,尤其是在考虑每个组已知物种的数量时(图4B),在研究设计期间并且必须仔细考虑数据库选择和数据库偏差。
古蛋白质组学研究中一些常见的数据伪影是依赖于数据库的,可以通过考虑特定数据库和搜索算法的已知偏差来避免。例如,在相关分类群的蛋白质序列覆盖量存在显著不平衡的情况下,数据库搜索可能会错误地将蛋白质识别为源自错误的物种,因为与覆盖较好的物种匹配的保守肽数量较多,这可能具有更完整的序列以及更多的异构体。这在对驯化牛科动物的研究中很常见,这些牛科动物经常成为使用蛋白质组学方法进行分类鉴别的目标。牛在UniProtKB中的蛋白质输入量大约是绵羊和山羊的1.5倍,而在NCBI GenBank中的差异甚至更大,牛的蛋白质输入量是绵羊的20倍,是山羊的40倍。对这些和其他研究较少的牛科动物的蛋白质组学分析通常会返回一些牛的蛋白质分类学分配,后者是数据库中牛蛋白质更广泛表示的产物。虽然这些数据库中的一些牛磺酸蛋白条目是多余的,但其他一些包含重要的等位基因序列变体,并且从转录组数据生成的序列还包括衍生自选择性剪接的同种型,这些同种型与蛋白质组学研究高度相关。当试图使用蛋白质组学来区分密切相关的物种时,不仅蛋白质数据库中每个物种的覆盖率很重要,存在的蛋白质条目数量之间的差异也很重要。
当数据库包含具有不同完整性程度的蛋白质的条目时,会出现另一个常见的伪影,并且仅包含成熟蛋白质序列的条目优先(有时是错误地)识别出也包含在成熟蛋白质过程中去除的信号肽和其他区域的条目。哺乳动物胶原蛋白的研究中已经观察到搜索算法向已灭绝的物种返回虚假的高分分配(例如巨大的南美有蹄类动物箭齿兽Toxodon)。箭齿兽在UniProtKB中的化石COL1A1蛋白条目仅由蛋白质的螺旋区域(UniProtKB C0HJP7,约1000个氨基酸)组成,而现存分类群的COL1A1条目还包括侧翼信号肽、前肽和端肽区域,长约500个氨基酸。信号和前肽在成熟蛋白质形成过程中被去除,因此从未从考古样品中回收到,端肽则很少被回收。由于胶原蛋白在哺乳动物中高度保守,许多回收的肽将在所有有蹄类动物之间共享,但与现存的分类群相比,这些保守的肽对箭齿兽 COL1A1的蛋白质覆盖率更高,使箭齿兽成为更高级别的匹配。通过手动检查序列比对和验证匹配的分类特异性,可以轻松识别和纠正此类伪影。因此,序列和分类验证是探索性古蛋白质组学研究中数据分析的重要步骤。
除了数据库完整性问题之外,数据库还包含具有不同质量级别、注释和相关元数据的条目。在UniProtKB中,绝大多数序列未经审查(TrEMBL),这意味着它们是通过自动注释过程生成的,而人工审查注释的蛋白质(SwissProt)占开花植物、哺乳动物、鸟类和鱼类当前可用蛋白质数据的不到0.5%(图4B)。虽然TrEMBL中的自动注释序列在很大程度上是准确的,但它们通常需要进一步审查来源条目并与其他物种中的相同基因进行比较。有时,搜索翻译的核苷酸数据库(tblastn)可能会有所帮助,以评估已鉴定出相似序列的物种范围。许多未经审查的条目也缺乏足够的宏数据用于下游分析,并且可能被简单地注释为假设或未表征的蛋白质。
总的来说,这些问题对于古饮食研究尤其严重,在这些研究中,古代群体食用了各种各样的食物,这些食物可能有也可能没有足够的数据库表示。例如,考虑图4C中所示的假设的古代中美洲饮食的组成部分,其中包括在墨西哥中部和玛雅低地消费的常见食物。还包括人类蛋白质组以进行比较。在撰写本文时,UniProtKB中玉米(Z. mays,171947个)的总蛋白质条目数量大大超过了其他主粮,例如苋菜(A. cruentus,138个),白尾鹿的数据(O. virginianus, 37513个)使赤短角鹿 (M. americana, 59个)相形见绌。火鸡(M. gallopavo, 17051)的蛋白质条目大大超过番鸭(C. moschata, 146个),普通豆类(P. vulgaris, 32845个)的蛋白质条目与其他芋类 (L. esculenta, 9个)相比显著更多。其他食品,如普通蔬菜(C. pepo,667个;D. ambrosioides,124个)、鱼类(A. felis,37个;M. urophthalmus,65个)和食用蜗牛(L. esculenta,9个;P. flagellata, 4个; P. indiorum, 1个)含有很少的蛋白质,它们在古代饮食的蛋白质组学研究中很罕见。使用替代数据库,例如NCBI RefSeq或GenBank,可以显著改善某些食物(例如C. pepo,43466个)的蛋白质表示,但其他食物不能(例如,D. ambrosioides,250个;A. felis,61个;和P.indiorum,1个)。因此,虽然更改或合并数据库可以改进对一些经过充分研究的基因分类群的识别,但在获得更多基因数据之前,几乎无法提高许多其他古代中美洲食物的可见度。因此,古代饮食的古蛋白质组学特征在很大程度上是机会主义的。因此,虽然可以将膳食蛋白质的鉴定视为其存在的积极证据,但未能鉴定给定食物不能视为其不存在的证据。
除了使用现有的蛋白质数据库之外,从UniProtKB不会自动注释的遗传和转录组数据库(蛋白质组学)中挖掘序列以创建自定义数据库可以增加识别率,就像对感兴趣的蛋白质或肽进行从头测序一样。然而,如果感兴趣的蛋白质未知或分类群本身未被充分研究,则这些选项可能既耗时又低通量,这限制了它们在基于发现的应用中的可行性。要克服这个问题,需要在注释的基因组序列数据中取得巨大的进步,并且需要大规模的国际合作来显著增加真核生物多样性的编目和表征,例如地球生物基因组计划、脊椎动物基因组计划、和达尔文生命之树项目为在未来的古饮食研究中改进饮食蛋白质的检测提供了巨大的希望。
然而,就目前而言,即使是基于非常明确的蛋白质(如COL1)的分类学鉴定也面临挑战。例如,目前没有针对COL1 PMF标记的精选数据库,这对呈指数增长的ZooMS社区构成了巨大障碍。除了UniProtKB等蛋白质组学数据库的分类偏差,尤其是鱼类和鸟类的代表性不足之外,COL1基因经常从遗传数据中错误地翻译或包含不正确的注释。在缺乏足够数据库的情况下,多变量分析和其他统计工具已成功地对COL1和角蛋白肽组进行聚类,以对骨骼和头发等样本类型进行分类鉴定。此外,在COL1中,原纤维形成所需的分子中的电荷配对导致高度保守的胰蛋白酶切割位点,这意味着理论上可以通过计算每个精氨酸和赖氨酸末端肽的所有潜在变体,生成10222个胶原序列的庞大数据库,因此尽管不切实际,但可能可以从MS2光谱中以高保真度从头识别COL1肽。
随着古蛋白质组学领域的发展,更一致的搜索设置报告和已识别光谱的百分比将有助于突出识别问题的严重程度,并允许对不同类型样本的不同搜索策略的成功进行宏分析。随着基因组、转录组和蛋白质组的指数增长,修饰特征的增加以及新PMF标记的开发,对先前样本的重新分析可能会导致检测到的蛋白质数量或分类分辨率的增加。然而,这需要发布原始数据以促进再分析,正如已用于古代LC-MS/MS数据并由ProteomeXchange联盟通过PRIDE等存储库促进的工作。尽管在开放访问通用存储库Zenodo (https://zenodo.org/search?q=zooms)上发现了越来越多的数据集,它是在欧洲OpenAIRE计划下开发的,由CERN运行的数据库。但由于不存在MALDI-TOF数据的全球存储库,因此PMF原始数据目前不太常见。
4.3 蛋白质鉴定
特别影响古蛋白质组学的一项挑战是难以将真正古老的肽、蛋白质和蛋白质组与环境和现代污染区分开来。
4.3.1 污染源
潜在的污染源是无数的,但对于现代蛋白质组学来说,它们大多是实验室衍生的,很容易消除。污染对古蛋白质组学提出了更具挑战性的问题,其中靶标蛋白质被降解,丰度低且通常未知。实验室的污染源可以通过提取和仪器空白的分析以及最佳实践的应用来识别和控制,因而得到了很好的表征。较难控制的是随埋藏时间或沉积环境引入的环境污染物。通过收集和分析来自其他相关遗骸或附近沉积物或土壤的对照样本是唯一可用的方案,可以在一定程度上解释环境污染。在实验设计中纳入对照对于以下方面的古蛋白质组学研究尤为重要:1.开放系统,例如从肋骨中发现的乳蛋白中识别出该肋骨来自哺乳母狗;2.沉积物或土壤,例如从土壤中的纺织印记中识别丝绸;3.传染性病原体,尤其是具有近亲环境的分类群,例如结核分枝杆菌。
在挖掘、处理、储存和保护过程中引入的污染物更加多变且往往不可预测。在分析处理和策展历史没有很好记录的博物馆藏品时,这是一个特殊的问题。当收藏品用于教学或展示时,处理过程中可能会发生污染,污染物也可能通过当地储存条件无意引入,可能包括来自细菌、真菌、啮齿动物或害虫的蛋白质,以及用于控制它们的处理方法。物体保护也是污染的主要来源。尽管今天的博物馆和文物保护者可以选择合成材料、粘合剂和防腐剂,但过去几乎只使用天然产品。天然材料仍会继续使用,因为它们比合成材料具有一定的优势。与古蛋白质组学研究最相关的是基于胶原蛋白的胶水、用于修复丝绸的丝心蛋白,以及基于鸡蛋和牛奶的釉料和处理材料,例如应用蛋清和植酸作为阻燃剂。虽然保护工作对古代DNA、稳定同位素和放射性碳分析的影响已被广泛研究,但它们对古蛋白质组学的影响却没有得到系统的研究。最佳实践包括避免进行处理或广泛处理的样品。
4.3.2 认证方法
鉴定古代蛋白质有两种主要方法。第一是涉及识别古代蛋白质的损伤模式特征。第二是检查蛋白质的更广泛背景,包括其相关的宏蛋白质组和其他确凿的证据线。
在古老的生物分子中,DNA会经历规律且可预测的降解形式,从而产生特征类型的古老DNA损伤,其中最重要的是DNA片段化和胞嘧啶脱氨。它们通过众所周知原因产生一致的结果,因而可以用来鉴定古代DNA,甚至区分严重污染样本中的古代和现代DNA序列。蛋白质也会经历降解过程,并且已经提出了在有足够数量的已识别MS2可用于统计分析的情况下验证古代蛋白质或蛋白质组的方法。然而,蛋白质的生化和结构复杂性使得古代蛋白质的损伤相关鉴定比古代DNA复杂得多。
对于非常古老的样品,预计水解会导致蛋白质片段化,从而导致结果倾向于较短的酶肽,并增加非胰蛋白酶切割位点的数量。也有人提出成岩氨基酸修饰作为真实性的标志,但由于蛋白质的生物学复杂性,除年龄外的其他因素会强烈影响产生或预防修饰。天冬酰胺和谷氨酰胺的脱酰胺已被提议作为PMF和LC-MS/MS数据中的鉴定标志物。然而,与aDNA中的脱氨基作用不同,脱酰胺作用也发生在体内,并且受到局部沉积化学和提取方法选择的强烈影响。因此,它作为可靠的年龄相关指标的使用受到质疑。
在MALDI-TOF应用中,COL1脱酰胺已被用作相对年龄标记,并被提议作为识别侵入样本的标准。然而,这在实践中需要非常大的数据集,即使有大量样本(>2,000)的数据,按相对年龄等级分类样本的准确度也低于50%。对于LC-MS/MS研究,脱酰胺作用大多在宏蛋白质组水平进行半定量分析,以表明脱酰胺作用是数据集中的顶级修饰。一些研究试图使用脱酰胺模式来验证特定蛋白质,但这需要相对较大的数据集来执行统计分析,这并不是绝对可行的,即使在有足够可用数据的情况下,结果也不容易解释。然而,古代起源的蛋白质应该表现出成岩作用的证据。如果报告包含意外化学行为的证据,例如在长时间的考古或地质时期内没有任何蛋白质降解,或者如果检测到在同一设施中常用的意外蛋白质,则应谨慎行事。未来对特定氨基酸位点蛋白质成岩作用的理解和建模的改进有朝一日可能使蛋白质损伤更可靠、更定量地用作时间指标。然而,就目前而言,它最有效地用作时代的定性指标,并与其他身份验证方法结合使用。
背景分析侧重于整个宏蛋白质组的组成,以及其他确凿的证据,是目前最可靠的古代蛋白质鉴定方法。蛋白质的一个重要特征是它们的表达是组织特异性的,因此古代宏蛋白质组本身的组成可用于帮助其鉴定。不同的组织和基质,例如骨骼、牙结石、艺术家材料和陶器食物结痂各自具有不同且独特的蛋白质成分,这在古代样本中得到了经验反映(图5)。图5一目了然。骨骼主要由参与纤维组织和矿化的胶原蛋白和蛋白质以及凝血因子和血浆蛋白组成。牙结石富含胶原蛋白和与先天免疫系统相关的蛋白质(尤其是中性粒细胞),还含有唾液淀粉酶和部分的膳食蛋白质。油漆等艺术家材料往往以如鸡蛋等单一蛋白质来源为主。陶器食品残留是高度多样化的,但含有较高水平的与食物相关的动物和植物蛋白质,在这种情况下,食物独立于已知陶器食用的食物。对于天然含有微生物成分的样品类型,例如微生物组,细菌蛋白质和分类组成也可以作为鉴定辅助,对于在生活或使用过程中不含微生物成分的样品类型,微生物蛋白质的相对比例假定的内源性蛋白质也可以作为相对保存指标。
随着更多现代和古代宏蛋白质组的特征及其数据的公开,可以定义保存完好的宏蛋白质组的特征和组成并将其用作古蛋白质组学鉴定的基准。这些数据与独立的确凿证据相结合,例如古基因组学数据、古民族植物学证据或动物考古学发现,可用于帮助确定发现的合理性,特别是那些非同寻常或意料之外的发现。
5.未来方向:研究黑暗蛋白质组
尽管技术取得了显著进步,但大部分古老的蛋白质组仍然是“黑暗的”,正如已识别的MS2光谱的百分比始终较低。然而,这种黑暗也代表了一个机会,因为这意味着只要能够开发出正确的工具来获取它们,仍然有古老的蛋白质和蛋白质组有待发现。根据目前的知识,暗蛋白质组可分为三种类型:(1)蛋白质的“结构暗”区域,本质上是无序的,从未分解,或(在自下而上蛋白质组学的情况下)缺乏合适的切割位点;(2) “被忽视”的肽,即被修饰到其光谱无法通过常规MS2分析识别的肽;(3) “无法识别”的蛋白质片段已经交联或缩合成以前没有研究过的新复合结构。下面我们将讨论可能有助于理解和获取暗蛋白质组的新技术,并考虑在古蛋白质组学中新兴的基于非质谱的测序方法的潜力。
5.1 质谱的新兴技术
在古代蛋白质数据集中发现的许多不匹配的查询可能是离子选择、碎片或检测不佳的结果。研究人员正在开发一系列新的仪器,包括更快的数据采集、更高的灵敏度和更高的离子转移效率。然而,质谱仪现在已经到了需要改进色谱以便这些仪器改进能够实际提供更好的数据的地步,但由于未知的共萃取化合物或其他因素,古蛋白质组学样品的色谱通常较差。或者,被增强色谱甚至被增强的气相分离和分馏所取代,正如目前的直接注入式霰弹枪蛋白质组分析(Direct Infusion Shotgun Proteome Analysis,DISPA)。未来的研究发展需要专注于古蛋白质组学样品的特定优化,目的是改善前体分离、减小峰宽并产生更好的MS2光谱。这将最终改善肽段鉴定,甚至使从头测序能够解决一些被忽视的肽段。这可以与数据库、蛋白质表征、结构测定(例如AlphaFold)和消化的改进相结合,以帮助恢复结构暗序列。
尽管色谱改进和数据库扩展表明可以得到更多更好的结果,但识别被忽视的蛋白质和新的嵌合结构将更加困难,并且需要更好地了解促进保存但抑制恢复和挑战鉴定的成岩过程。除了侧链修饰、骨架水解和环化外,肽还可以与考古环境中的其他分子进行缩合,包括其他蛋白质、脂质、碳水化合物、核酸、代谢物和无机化合物。其中一些反应类型由于它们存在于体内(例如糖蛋白和某些类型的蛋白质和蛋白质核苷酸交联),已经成为方法学改进的目标。然而,许多可能是新的降解产物或涉及的未表征的相互作用肽骨架的水解和重组形成真正的嵌合蛋白。
解决这个问题的一种方法是使用实验时间序列数据来尝试重新创建成岩过程。时间序列的优势在于,即使无法直接识别化合物,它们的兴衰也凸显了它们在复杂成岩过程中的地位。庆幸的是分析这些的技术是常规的,而不是新兴的。拉曼光谱可以深入了解化学特征,氨基酸分析可以检测组成部分。FT-ICR MS可以确定质量的原子组成。类似的方法被用于了解土壤有机质的腐殖化和类黑素(蛋白质和碳水化合物的缩合产物)的形成。对这些成岩产物的更深入的结构洞察可能会揭示出多种产物,每种产物都以极低的浓度存在,就像碳氢化合物“驼峰”(原油中发现的成岩成分的未解析复杂混合物)或腐殖质提取物中发现的无数化合物一样。
另一种方法是可视化肽、蛋白质和矿物表面的不同组合之间的相互作用,这些组合在长时间保护序列中发挥作用,但也可能抑制恢复。原子力显微镜和高分辨率2D电子显微镜和3D断层扫描成像已经开始揭示骨中胶原蛋白和矿物质之间的密切联系,以及它们的生存机制。继续研究骨骼以及产生矿物质表面的其他生物矿物质和降解产物将有助于更好地了解蛋白质的留存,更重要的是,这种蛋白质矿物质相互作用所特有的修饰。在搜索策略中建立对这些修改的更好理解将有望发现更多的肽,而基于模式的辨别分析(例如机器学习)将有助于识别随着时间的推移形成的新产品组。
空间亚细胞蛋白质组学仍处于起步阶段,但可能会在未来十年取得相当大的进展。它结合了超分辨率显微镜和自上而下的蛋白质组学分析,以实现原位质谱成像(MSI)。空间分辨率将增强我们对分层和其他结构组织蛋白质的理解,例如艺术品的横截面或生物诱导或介导的矿物形成的增量沉淀。最著名和最高分辨率的方法是MALDI MSI,它已经提供了详细的组织分子图像,但在许多情况下,它受到表面基质沉积需求的限制。虽然它们的分辨率不如MALDI MSI,但正在探索不需要基质沉积并且可能更适合古蛋白质组样本大小的仪器,例如原位DESI、纳米DESI和LESA MSI。尽管当前的超分辨率显微镜方法依赖于对古代样品具有挑战性的基于荧光的方法,但这是一个不断发展的研究领域,新方法正在被提出和开发以推动成像的极限(例如,Akoya Bioscience的CODEX、Resolve的分子制图与蔡司显微镜相结合)。即使这种成像方法不适合古代样本,它们也可用于研究实验样本以更好地表征暗蛋白质组中“被忽视”和“无法识别”的部分。
5.2 超越质谱
在过去的二十年里,质谱法一直是蛋白质组学和蛋白质研究的主力。然而,质谱也有局限性,因为“它不是真正的测序,而是对蛋白质进行分类,通常需要大约十亿个蛋白质拷贝才能做到这一点”。目前正在出现各种其他基于非质谱的技术,这些技术有望提供更高的灵敏度和更大的规模,例如通过纳米孔进行的大规模并行测序、荧光测序和基于图像的Edman。目前,由于古代样品中存在预期和意想不到的修饰,以及成岩作用引起的自发荧光,这些技术对于古蛋白质组学并不完全适用。但随着这些技术的不断优化,它们可能会在古蛋白质组学的范围内广泛应用。此外,对基于MS的空间和单细胞蛋白质组学的日益关注意味着这些技术远非在未来十年内将成为传统质谱替代品的唯一选择。
6.结论
从发现新的古代人类化石到对新石器时代和青铜时代美食的详细表征,古蛋白质组学的质谱革命促成了过去二十年来前所未有的发现。古蛋白质对于揭示过去转瞬即逝的事件方面特别有价值,例如艺术品和博物馆物品的保养和修复、书籍的建造方法,甚至是劳动问题和难产。虽然过去二十年的大部分古蛋白质研究本质上都是探索性和机遇性的,但产生的数据和获得的知识将允许在未来几十年探索更大规模和更有针对性的问题。随着这种扩展,古蛋白质组学有望提供过去历史的见地,为从生态保护到人类健康和福祉等问题提供信息。令人兴奋的新仪器和能力有望将我们的检测极限推得更远,但只有更好地了解蛋白质如何降解和持续存在,才能获得在大多数考古样本中占主导地位的暗蛋白质组。过去20年的特点是通过质谱技术的进步检测和鉴定古代蛋白质、蛋白质组和宏蛋白质组的能力取得了前所未有的进步。随着我们开始运用这种分析能力来回答关于过去的长期存在的问题并为旧问题创新解决方案,接下来的20年肯定会出现更多惊喜。
https://pubmed.ncbi.nlm.nih.gov/35839101/
----------微科盟更多推荐----------
科研(IF:24.466) |Acc Chem Res:邻近标记的分子空间组学
科研(IF:17.021) | SubCellBarCode:基于质谱分析的高效空间蛋白质组学集成工作流程
如果需要原文pdf,请扫描文末二维码领取
请关注下方公众号
了解更多蛋白质组知识
蛋白质组仅用于学术成果分享与交流,不涉及商业利益。
也严禁他人将本公众号的内容用于商业运营。