专家共识 | 宏基因组测序病原微生物检测生物信息学分析规范化管理
摘要
宏基因组测序(mNGS)在新发突发传染病以及常规检验阴性的感染性疾病诊断中发挥了重要作用。近期,国内相继发表了多个共识阐述了临床应用及实验室规范,但生物信息分析程序及方法也是mNGS重要环节,而目前学界尚未有一致的认识。为提高临床对mNGS结果的理解,首都医科大学附属北京同仁医院检验科鲁辛辛教授、解放军总医院第一医学中心临床检验科王成彬教授作为通讯作者,根据国内外的发展现状,结合国内测序实验室常规做法,发表了专家共识,从数据库构建、下机数据比对、结果注释、平台及人员素质等方面提出了规范化要求。
一
常用的生物信息学名词
1、序列及读长
序列:文库在高通量测序设备上进行测序,得到的碱基序列称为序列。
读长:序列的读长是影响分析准确度的重要因素,最大读长取决于所选的测序平台。
序列数:通常在检测报告中显示的序列数为该物种属或种特异序列条数。
2、原始数据
原始数据:一次测序产生的没有经过任何过滤的全部测序结果称为原始数据。高通量测序下机的原始数据经信号转换后得到含常规碱基(A、T、C、G等)及对应碱基测序质量信息的数据,通常包括接头序列、标签序列、测序数据,以fastq格式存储。
3、可用数据
可用数据:可用数据是原始数据经过处理得到的直接用来分析的数据。原始序列数据经质量过滤,去除接头序列、标签序列后,得到的可用于比对的序列称为可用数据,包含人源及微生物序列。
4、物种相对丰度和绝对丰度
相对丰度:指注释到该物种的序列数占样本中所有微生物总序列数的百分比。
绝对丰度:指注释到该物种的序列数占总数据量的百分比。
5、基因/基因组覆盖度和平均测序深度
基因/基因组覆盖度:指测序获得的序列与某物种的参考基因/基因组进行比对,序列覆盖的区域占基因/基因组总区域的比例。
平均测序深度:将能与基因/基因组比对上的序列碱基数累加并除以基因/基因组被覆盖区域的总长,即为平均测序深度。
6、碱基质量值(quality,Q)20及Q30
碱基质量值:在高通量测序中,每测一个碱基都会给出相应的质量值,体现测序过程中碱基识别的可信度和错误率,通常以 ASCII码表示,其计算方式为Q =-10lgP(P为碱基识别中的错误概率)。碱基 Q 值越大其识别错误的可能性越小,可信度就越高。
Q20:表示碱基识别错误的概率为1%。
Q30:表示碱基识别错误的概率为 0.1%。用于mNGS分析的序列其Q30碱基比例一般不低于80%。
7、序列比对
序列比对:将两条或者两条以上的 DNA 序列进行匹配,确定最优相似性的过程称为比对。一般分配对序列比对和多序列比对,是mNGS分析和物种鉴定的基础。
8、每百万序列数及每千万序列数
每百万序列数(reads per million,RPM):每百万测得序列中比对到目标物种基因组的序列条数。
每千万序列数(reads per ten million,RPTM):每千万条序列中比对到目标物种基因组的序列条数。
二
mNGS生物信息分析的基本技术方案
国内目前尚无经国家药品监督管理局批准的用于 mNGS 生物信息学分析的标准数据库。数据库主要分两类,一类为检测系统配套,相对稳定,实时更新。另一类为自建,国内大多数测序公司为此类,实验室需从公开数据库中挑选、整理、分类,通过程序软件将收集到的基因组序列整理成本实验室微生物及人源序列比对数据库。
(一)
公共数据库介绍
1、微生物参考基因组数据库:包括临床级微生物数据库、全球微生物数据中心、基因组分类学数据库、综合微生物基因组数据库和特定物种基因组数据库。
2、人源参考基因组数据库:包括 Human GRCh37/hg19 和 Human GRCh38/hg38 基因组数据库和其他人源比对基因库。
Human GRCh37/hg19 和 Human GRCh38/hg38 基因组数据库:是目前常用的人类基因数据库。可补充中国人标准基因组序列提高比对效率,如“炎黄一号”。
3、物种综合数据库:包括国际核酸序列共享联盟数据库(INSDC)和中国国家生物信息中心。
(二)
比对数据库构建
建议1
1、微生物鉴定数据库:实验室应广泛收集公共数据库中的参考基因组,挖掘公开发表的物种信息,并按照样本类型构建病原谱。
2、特殊微生物数据库:可增加区域流行的病原体,可吸纳 CARD、Resfinder、Virfinder以及毒力因子数据库(Virulence Factor Database,VFDB)等数据,提高致病性及耐药性分析,但上述耐药和毒力数据库目前还不是很完善,结果准确性和临床诊断符合率需进一步验证。
3、人源数据库:实验室应根据最新版国际人类参考基因组,构建全面特异的人源基因序列数据库。
4、背景数据库:mNGS 流程中存在试剂工程背景菌序列、环境微生物及实验室残留微生物,可造成测序污染,导致假阳性结果产生,因此,实验室需要构建背景数据库用于过滤污染序列。
5、数据库的存储:数据库的存储、维护、修改、升级等工作应做好权限设定及管理,保证数据库的安全性、有效性和准确性。
(三)
mNGS生物信息学分析程序
建议2
1、生物信息分析基本程序:
下机数据经转换后以 fastq 文件形式存储于硬盘,并仅对指定的生物信息人员开放访问权限。原始测序数据经低质量序列过滤后,以宿主及其他背景数据库为参考基因组运行比对分析命令(SNAP、BWA、Bowtie、Kraken)以去除人源及人工载体核酸序列,将非人源高质量序列再与微生物数据库比对,得到物种注释结果,生成检测报告。下图给出了生物信息分析的基本流程。
2、生物信息分析流程的关键环节
①标签识别和序列拆分
高通量测序文库常批量混合上机,在测序后需通过识别序列上的标签(barcode)区分不同样本。为避免某些序列被错误归属导致假阳性,建议混合测序时使用双标签标记。
②接头及低质量序列过滤
下机数据经拆分后即得到每个样本的测序数据,需要进行数据质量过滤,包括过滤测序接头、低质量序列、低复杂度序列、重复序列等,将获得的高质量读长序列作为微生物鉴定的输入数据。
低质量序列指未达到以下指标:Q30碱基数量占比>80%、接头污染比例不超过 1%、有效序列长度不小于 50 bp、数据的有效比对率应大于 70% 的基本特征。
③数据量、测序深度及灵敏度
组织比体液存在更多人源核酸,相应微生物占比也较少,实验室可通过增加测序深度提高微生物数据量,但随着测序深度增加,测序的成本及数据存储空间需求也相应增加。实验室可根据标本类型确定测序深度。
测序灵敏度目前没有统一标准,多数专家认为应与PCR一致。可将微生物或其核酸组成的自定义混合物作为控制对照建立mNGS检测限,也可购买商业化产品。
④人源序列去除
质控后的测序数据需与人源参考基因数据库进行比对过滤人源核酸序列,一般认为去除宿主核酸前人源核酸比例正常范围是85%~99%。
⑤微生物序列注释包括分析系统、微生物物种序列确认和报告。
分析系统:分析流程可自由搭建,但需要严格控制版本,不得随意更改。也可选公开数据分析系统,如PMseq Datician、PIseqpipeline、IDSeq MARSTM、SURPI、One Codex 及 IDSeq等,免去自主搭建的繁琐过程。
微生物物种序列确认:将过滤后序列输入微生物数据库,建立细菌、真菌、病毒及寄生虫参考序列的数据索引。
报告:通过实验室自建的信息系统,获得存储于服务器中物种注释信息,打开可视化窗口分析可能的病原微生物。建议将检测到的微生物序列数归一化为 RPM 或 RPTM。在 mNGS 报告中应含总序列数、微生物序列数、物种信息、测序覆盖度、测序深度及相对丰度,并附加可能的宿主定植菌、环境菌及检测污染菌等信息。无论序列数多少,已知人类传染或感染性病原微生物信息需优先列出,致病性不明确的微生物由高到低逐一列表。无菌部位检出一种高序列数微生物应予以充分重视,病原微生物确认需结合临床综合判断。
(四)
生物信息分析流程的模拟训练
建议3
1、虚拟参考品:
在无 mNGS 参考品时,实验室需自建或由第三方提供的虚拟参考品对生物信息分析结果的准确性进行评估。一般虚拟参考品选自公共数据库,指在人源序列中掺入微生物基因序列,通过计算机模拟实现序列分析,得到微生物注释结果。
2、真实样本构建的参考品:
实验室也可以使用已知临床样本的下机序列作为参考品。
阳性标本准备:DNA测序选 GeneXpert 判读为结核分枝杆菌复合群(MTBC)非常低级别的肺泡灌洗液(BALF)。RNA测序选PCR Ct 值35~38的流感病毒上呼吸道标本。
阴性标本准备:PCR已知病原微生物检测阴性的BALF。本共识建议参考品人源细胞含量应≥10^5/ml(细胞计数盘计数)。
按实验室常规操作对下机数据进行生物信息学分析。
判断标准:针对 GeneXpert 非常低级别 MTB DNA 测序,检出 MTB 序列即为合格;同样低拷贝RNA 病毒(Ct 值 35~38)检出流感病毒序列即为合格。阴性应与PCR结果一致,即PCR阴性mNGS不应检出,当然不排除检测到其他病原微生物。
三
生物信息学分析平台基本要求
建议4
目前主要有华大基因 、Illumina 和 Thermo Fisher等商业化二代测序平台。
(一)
计算机与服务器
宏基因组生物信息分析由于数据量巨大,计算复杂度高,需配备足够硬件资源,其中包括中央处理器(CPU)、内存及磁盘存储等,保证了单次mNGS下机数据在30min至1h内完成批量样本并行分析。实验室应有独立的高性能服务器用于 mNGS,不可与其他计算需求共用。
(二)
软件
1、操作系统:
建议服务器安装Linux操作系统, 如 Canonical® Ubuntu® LTS或 CentOS。考虑到数据安全,推荐本地服务器部署,离线更新。
2、软件构成:
根据病原微生物检测流程将不同功能的软件进行汇聚和整合,常用的分析软件如下。
样本测序数据预处理软件:只有经碱基识别、标签识别、序列拆分后的数据才可用于生物信息学分析。
质量控制软件:将获取的原始数据进行接头、低质量序列过滤,实现从原始数据到高质量的可用数据(含人源序列)的转换。
序列比对软件:去除宿主及其他背景序列后获取的数据需采用高效可靠的比对分析软件。
物种注释软件:注释的目的是完成物种序列的鉴定。自主搭建流程可以采用CLAR、Kraken、MetaPhlan 等软件进行物种分类,一般精确到种的水平。软件参数设置也需要满足“生物信息分析流程的关键环节”部分提及的分类筛选指标。
报告生成软件:报告生成系统的结果展示及项目选择依据实验室和临床需求进行适配调整。
3、软件使用:
每种软件的使用应配有详细的标准操作规程,推荐有可视化操作界面的软件系统。自建流程若无法实现可视化操作界面,建议在操作指南中写明每一步所需输入的命令、输入数据、输出结果、质量控制及纠错方法,尽可能减少手动步骤的次数。
4、服务器安装环境:
为保障服务器安全稳定运行,服务器放置需配备不间断电源,保持适宜温湿度(温度 10~28 ℃,湿度 30%~70%);最大可接受的温湿度范围:温度5~28 ℃,湿度30%~80%。
(三)
生物信息分析人员
掌握二代测序数据生物信息分析工具,如BLAST、BWA、Bowtie、fastqc和Samtools等。掌握微生物基因组数据收集、处理等方法,并能实时跟踪更新。了解微生物分类原则、病原微生物的致病性及感染性疾病相关知识。掌握结果报告的具体要求,能发现因测序质量导致的序列读取错误。
四
小结
利用 mNGS 技术进行微生物鉴定仍在不断探索和改进中。本共识系统梳理 mNGS 生物信息分析中的关键环节,对常见问题提出了解决方案,但仍需强调结果解读应建立在临床拟诊及测序质量有保证的前提下,由微生物专家与临床医生共同完成。该技术的广泛应用折射出我国临床微生物基础薄弱、开展项目受限、病原学指导能力不足的现状。如何推动感染性疾病规范化诊疗、推动以疾病诊断为基础的检测试剂注册、推动以疾病分类建设微生物检验技术平台是今后应解决的首要问题。
参考文献:中华医学会检验医学分会. 宏基因组测序病原微生物检测生物信息学分析规范化管理专家共 识[J]. 中华检验医学杂志, 2021, 44(9): 799-807. DOI: 10.3760/cma.j.cn114452-20210322-00178.
-END-
声明:①本公众号原创发表的文章,任何个人、媒体、网站如需转载,须在文首位置注明转自“CACLP体外诊断资讯”。②媒体合作:021-52258212
↙点击“阅读原文” CACLP 2021 精彩回播