BGISEQ PE150高质量数据开放下载!
方法千万条,数据第一条!今天,科技君要发布一个重磅好消息——
基于BGISEQ PE150的高质量原始数据开放下载了,仅需4步,便可获得以下数据的FASTQ文件:
人全基因组重测序PCR-free PE150;
人全基因组重测序PCR-free PE100;
人全基因组重测序PCR PE150;
人全基因组重测序PCR PE100。
话不多说,直接上数据!
1
下载方法
表1 数据对应ID
第1步:登录https://db.cngb.org/cnsa/进入国家基因库核酸序列归档系统,主页显示如下:
图1 国家基因组核酸序列归档系统
第2步:在主页右上角搜索框里输入“Project Accession ID/Sample Accession ID/Experiment Accession ID”中的任一个都可以搜索到对应的数据链接。如输入“CNX0043488”,结果如下图所示:
图2 搜索实验ID展示结果
第3步:点击搜索ID名称,如图3红框内容,获得对应数据下载链接:
图3 数据下载链接网页
第4步:点击FTP对应文件夹内容,即可下载FASTQ文件。
图4 FASTQ文件存储位置
2
标准品数据展示
上传的数据样本选用了“瓶中基因组(Genome in a Bottle)”的人类样本NA12878(目前被世界上认为研究最透彻的二倍体人类基因组),并发布了高置信变异集,可作为一个重要工具来了解测序仪和检测结果的表现。
Duplicate rate低,避免clean data浪费
相同的比对率下, N平台需要比BGISEQ平台多测10-15G的clean data,才能达到相同的有效测序深度30X。
图5 BGISEQ平台与N平台比对率及DUP比率比较
Clean bases:过滤掉接头,低质量和含N的reads后剩下的碱基数量;
Mapping rate:碱基比对率,比对到参考基因组的碱基数目除以clean data的碱基数目,如果测序样本存在污染或者与参考基因组差异较大,比对率偏低会影响后续的信息分析;
Duplicate reads:重复的 reads 所占比例,为了保证后续变异分析的准确性,会去掉duplicate reads后进行下游信息分析,相同数据量重复率越低,后续可用的数据量越多;
Average sequencing depth:有效平均深度(不计算duplication),比对到参考基因组的碱基数目除以基因组的大小;目前行业对外承诺的30X(90G)、40X(120G)等深度只是测序量的简单换算,并不是指有效深度。
高覆盖度
在30X的有效深度下,全基因组区域中90%以上碱基覆盖深度不低于20X,高覆盖度意味着更高的变异检测精准度和敏感度。
图6 30X有效深度的覆盖度
Coverage at least 1X(4X、10X、20X):覆盖率,指测序深度达到1X、4X、10X、20X以上的全基因组占比。
高精准度和敏感度的变异结果
高灵敏度(Sensitivity)和高精准度(Precision)意味着BGISEQ平台检测发现变异的能力更强,并且结果中为真的突变的概率也高。
图7 PCR/PCR-free不同平台SNP精准度和敏感度比较
PCR-free建库可避免PCR扩增带来的偏向性,出色覆盖高GC/AT区域,可有效减少InDel错误,InDel精准度和敏感度具有明显优势。
图8 PCR/PCR-free不同平台InDel精准度和敏感度比较
Sensitivity:灵敏度,又叫真阳性率(TPR),计算公式:灵敏度=真阳性/(真阳性+假阴性)。是指实际为阳性的样本中,判断为阳性的比例。例如,真正突变中,被判断为有突变的比例,它反映筛检发现变异的能力,灵敏度越高,假阴性越低。
Precision:精准度,也叫阳性预测值(PPV),计算公式:精准度=真阳性/(真阳性+假阳性),指筛检试验检出的全部阳性变异中,真正“变异”的例数(真阳性)所占的比例,反映筛检变异结果阳性中为真的突变的可能性,精准度越高,假阳性越低。
3
商业样本数据展示
临床级别的华大实验室保证每一样本测序结果的准确性,此外,对于样本检测、文库构建、上机测序、数据下机及信息分析每一环节均有严格的质量控制流程,保证每一文库每一样本的高效、快速、准确地执行。
图9 严格的质控为项目保驾护航
样本类型适用广泛
BGISEQ WGS数据来源样本种类多样,其中包含福尔马林固定石蜡包埋(Formalin Fixed and Paraffin Embedde,FFPE)样品、单细胞样品、血液样品、基因组DNA样品、唾液样品、常规冷冻保存的新鲜组织样品等,不同样本类型均有较高的交付成功率,基于BGISEQ交付的样本中,常规基因组建库测序成功率高达99%,对于降解样品如FFPE等,建库测序成功率也高达90%以上。
图10 BGISEQ WGS不同类型样品交付成功率
测序数据质量优
对2.5万+个文库 BGISEQ 人WGS数据质量值进行统计分析发现,下机clean data Q20平均值高达97.40%,clean data Q30平均值高达89.67%。
图11 碱基质量分布
对随机挑选的1000例BGISEQ平台和1000例H平台的水稻、玉米、牛、拟南芥、鱼等动植物样本测序质量值进行统计,结果显示BGISEQ平台在非人重测序上的测序质量表现也同样优秀。
图12 动植物重测序BGISEQ平台与H平台测序质量比较
比对率高
对该2.5万+个文库数据的mapping rate进行统计分析,平均mapping rate为98.55%。
图13 比对率分布
DUP低,有效数据多
对2.5万+个文库 BGISEQ WGS数据duplicate rate进行统计分析,duplicate rate平均值低至2.54%。
图14 Duplicate rate分布
*上述分析结果由华大信息分析流程所得,本结果不代表交付指标,最终解释权归深圳华大基因股份有限公司所有。
BGISEQ PE150、True PCR-free、快速交付,这样的BGISEQ 人和动植物WGS,让每个碱基都优秀,让每个碱基都加速!
关于BGISEQ平台技术优势
BGISEQ截至目前共推出人重、WES、动植物重测序等9大产品,共完成测序样本量高达17万+。BGISEQ人全基因组重测序(WGS)共完成测序样本量突破4万+,产出数据量高达4P+。
图15 BGISEQ平台产品推出时间节点
BGISEQ核心测序技术DNB(DNA nanoball),是将基因组DNA首先经过片段化处理,再加上接头序列,并环化形成单链环状DNA,随后使用PCR-free的滚环扩增技术(Rolling circle amplification, RCA),可将单链环状DNA扩增2-3个数量级,所产生的扩增产物称为DNA纳米球(DNA nanoball, DNB),最终纳米球经过DNB装载技术固定在阵列化的硅芯片上。
BGISEQ独有的DNB核心测序技术优势:
1. RCA不同于PCR指数扩增,滚环扩增技术的扩增错误不会像桥式PCR一样累积呈指数型放大,错误零累积,有效提高测序准确度。
2. RCA每个扩增循环都以原始的单链环状DNA文库为模板,保持DNA纳米球技术的高index保真度,有效避免了Index hopping错误。
3. 基于DNB技术的PCR-free测序不会在测序前信号放大阶段累积复制错误,因此,BGISEQ PCR-free WGS实现了从文库构建到测序过程中始终保持原始模板DNA的“原貌”,获得真正的PCR-free数据。
4. DNB是在溶液里面提前扩增完成的,在loading过程中没有聚合酶、引物和dNTP等PCR条件,所以该技术的duplicate rate会更低。
图16 BGISEQ独有的DNB核心测序技术优势
*标准品NA12878数据表现
** Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with
Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
撰稿:郑小乐、小萍
编辑:市场部
猜你喜欢:
惊!胚胎发育精细过程竟是这样 | Nature一日两文,最大规模单细胞测序,接力绘制哺乳动物原肠胚形成和器官发育轨迹
请继续关注“华大科技BGITech”,
科技君将一如既往为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!
↓↓↓ 点击下载数据