查看原文
其他

一文带你探索单细胞ATAC分析思路

雨润草 百迈客医学 2023-03-27


 

胰岛由至少五种不同的内分泌细胞(α、β、δ、γ和epsilon)组成,每一种细胞都以独特但协调的方式产生一种独特的激素。总的来说,这些细胞群一起工作,以维持胰岛素的生产和葡萄糖稳态。破坏细胞类型、组织及其潜在调控之间复杂的相互作用。
高通量表观基因组分析方法,如ATAC-seq和DNase-seq,已经能够在组织范围内对样本进行染色质可及性分析,提供了鉴定数百万特异性调控元件的机会。然而,这些染色质可及性的混合检测限制了对群体中组织异质性和多种细胞类型如何促进总体疾病病因的准确理解。最近在单细胞转录组和表观基因组分析方法的进展,使得能够检测不偏倚的细胞类型群体和调节元件异质的生物样本。通过绘制单细胞分辨率的染色质调控图谱,最近的单核研究显示了发现复杂细胞群、将调控元件与其靶基因联系起来以及绘制复杂细胞差异诱导过程中的调控动态的潜力。那么单细胞水平研究染色质可及性和普通ATAC-seq有什么差别,分析思路有哪些异同,数据是否有可比性,接下来我们一起看看单细胞ATAC在人胰岛中揭示2型糖尿病调节特征,并以此探讨单细胞ATAC-seq常规研究思路。

 

中文题目:单细胞ATAC和深度学习在人胰岛中揭示2型糖尿病调节特征

英文题目:Single-cell ATAC-Seq in human pancreatic islets and deep learning upscaling of rare cells reveals cell-specific type 2 diabetes regulatory signatures

研究目的和方法



研究目的:找与胰岛基因表达相关的特定变异及其在T2D病理生理学中的作用

材料:一个43岁女尸的胰岛组织

方法:单细胞ATAC-seq, GWAS,peak calling, Cicero


研究思路

单细胞ATAC-seq是否可以代替非单细胞ATAC-seq分析?先来看看单细胞ATAC-seq和非单细胞ATAC-seq 分析比较。

01

单细胞ATAC-seq与Bulk-ATAC-seq比较

1相关性比较

 

单细胞ATAC-seq(sci-ATAC-seq)与非单细胞ATAC-seq(bulk ATAC-seq)斯皮尔曼等级相关性分析表明相关性很强。

2)ATAC信号轨迹比较

 
sci-ATAC-seq与bulk ATAC-seq信号轨迹是一致的。


3)捕获特异性调控区比较

 


sci-ATAC–seq的TSS近端和远端特异性染色质状态的peak在8个bulk-ATAC-seq组织上的分布图表明:sci-ATAC-seq数据捕获了与bulk -ATAC-seq分析相似的胰岛特异性染色质区域。
 所以sci-ATAC–seq对染色质可及性分析可以代替bulk -ATAC-seq对染色质可及性的分析。

02

 Sci-ATAC-seq分析

1、Sci-ATAC-seq细胞分群

 


从TSS远端捕获细胞类型标记基因将1,456个胰岛单核细胞用UMAP 降维聚类得到四个群。
Mixed可能是由于barcode 和组合的index冲突导致的双核现象。所以要看下ATAC的reads分布情况,从C图可见分配给mixed类的细胞核在高测序深度bin中被富集。所以将该类去掉,剩余1,361细胞进行后续分析。

2、 Sci-ATAC-seq细胞分群验证

 

B:细胞类型标记物在每种细胞类型中的信号轨迹(均一化并缩放到0-5),第一列是管家基因。
DE:用2017年发表的细胞类型标记基因对我们聚类的细胞类型进行验证。表头数字是细胞类型标记基因的个数。

03

染色质可及性分析(peak calling)
MACS2 call peak

MACS2确定了Alpha细胞的129,046个peak和β细胞的120,116个。但是,因为delta聚类只有28个细胞,我们推断MACS2不会在如此低深度的数据上执行理想的操作。事实上,我们在delta上使用MACS2只识别了49,293个peak聚合reads。

此时需找别的办法,即引入了深度学习。


深度学习 call peak

 

A:深度学习模型,两个模型:训练,验证,预测。

B:查准率-查全率曲线用于评估模型,可以从图中直接观察,外面的曲线比里面的曲线效果要好。表明U-Net模型可用。

C:位点验证,模型可以预测在28个细胞稀少的数据里面是缺乏的,却出现在600个细胞里面的细胞类型。

D:正交策略验证:每个细胞类型的scRSG在预测peak中的富集程度始终高于来自相同28个细胞数据的MACS2 peak。

最终用alpha训练模型得出的结果和beta训练模型得出的结果的交集作为delta的最终结果。

最终我们获得了高质量的1,456个单细胞ATAC数据,和106,460个染色质peaks。


04

T2D GWAS SNPs富集分析

A : beta细胞的T2D GWAS SNPs富集程度更高,并且是使用joint 模型调整后唯一保持富集的细胞类型。这一结果说明beta特异性细胞的染色质可及性peak驱动与T2D WGAS相关联。
B:依据每个peak含有的细胞类型将peak分成不同的集合。比如第一个是只有beta一种细胞类型的peak集合。
C:我们使用GREGOR工具的互补富集方法来确定T2D GWAS位点是否在每个亚类peak中富集。我们发现T2D GWAS位点在共享peak和β细胞特异性peak中高度富集,在delt细胞比较弱,在alpha细胞特异性peak中无信号,表明alpha和delta细胞在T2D病理生理学的遗传易感性比beta细胞差。与A图一致。
为了更好的了解调控区域,我们用GAT去预测了细胞类型peak区域的TF,且与已知的细胞特异性TFs一致。

05

peak和靶基因联合分析

在理解非编码T2D GWAS变异的潜在生物学机制方面的主要挑战之一是识别它们的目标基因。
之前的研究都是在bulk 胰岛样本上进行,掩盖了染色质loop的特异性特征。
我们用Cicero方法推断物理距离可能接近的染色质peak对儿(原理,利用单细胞染色质可及性,推断物理距离可能接近的染色质peak对儿(即顺式作用,如启动子和增强子))。
C:用三种独立的正交实验鉴定loop,去过滤挑选我们用Cicero方法得到的更可信的peak对儿(score>0.05)。
D:T2D GWAS信号位点和特异性细胞peak的交集(带颜色的bin表示至少有一个snp在99%的置信度落在peak1kb以内区域)。7个peak类型揭示了一幅复杂的疾病机制图,其中某些风险变异可能通过细胞类型特异性途径介导,而其他可能受跨细胞类型的多个目标基因影响。

总结

本文研究列举了C2CD4A/B和ANK1位点的具体例子,在这些位点中,我们能够指定与胰岛基因表达相关的特定变异及其在T2D病理生理学中的作用,这将是未来一个可信的研究目标。未来的一个重要主题将是多元组合分析多个胰岛单细胞ATAC-seq数据集。这需要提高统计能力,以检测染色质特征区域,并最终进行单细胞分辨率的染色质QTL研究,这将有助于进一步关注功能SNP。

 

文献下载:

https://international.biocloud.net/zh/article/detail/32029221

(复制链接到浏览器获取原文,如果没有云平台账号需要先注册)

 

推荐阅读

单细胞转录组5—在神经母细胞瘤中的研究

百迈客:10x单细胞转录组与空间转录组联合分析一睹为快

空间转录组-在生长发育中的应用2

空间转录组-在癌症中的应用1

单细胞转录组应用4——结直肠癌研究

单细胞&空间转录组应用3-动植物研究“遍地开花”

单细胞转录组应用2——食管鳞状细胞癌研究

单细胞转录组应用1——衰老研究



 

文: 雨润草
排版:市场部


干货|百迈客单细胞 & 空间转录组专题系列

百迈客生物基于高通量测序技术、生物信息分析技术和生物云计算技术,为广大科研工作者提供以综合技术服务、生物云分析、三代高通量测序以及试剂、仪器等科研周边业务。

公司拥有Nanopore、PacBio、Illumina、Waters、10XGenomics等主流服务平台,以及基于云架构的生物云计算平台—百迈客云,提供涵盖人重外显子、三维基因组、单细胞与空间转录组、基因组组装、转录调控、微生物、群体遗传、质谱及表观遗传等研究方向的技术服务。目前百迈客云平台拥有200多款基因分析工具,分析结果可直接用于文章发表,更有近百部科研相关视频和8大基因数据库助力科研工作者深度数据挖掘。

自公司成立起先后在《Cell》、《Nature》、《Nature Genetics》、《Nature Communications》、《Plant Cell》等学术刊物发表论文数千篇,拥有国家发明专利技术40余项,软件著作权近200余项。

我们一直秉承”生物科技创新,服务社会,造福人民”的企业使命,致力于打造“生物科技创新中心”的发展愿景,让生物科技更快,更好的提高人类生活质量。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存