查看原文
其他

单细胞看小鼠肝脏发育(上)

生信技能树-jimmy 单细胞天地 2022-06-07

肝脏背景知识

肝脏是一种多倍体器官,由具有一个或两个细胞核的肝细胞组成,每个细胞核含有2,4,8或更多单倍体染色体组。

肝脏 是人体新陈代谢最旺盛的器官,负责着各种生理反应,像一个巨大的“化工厂”。除了代谢功能之外,肝脏还负责肝脏 还负责分泌胆汁、清除身体的毒素、表达血液中主要的载体蛋白以及免疫防御。

肝细胞在功能上是异质性的,以前的研究根据代谢区带(metabolic zonation可以将其分成两个不同的群体:肝脏 门静脉周围的肝细胞和肝静脉周围的肝细胞。

肝脏单细胞文章

Itzkovitz教授团队与免疫学Ido Amit教授课题组合作,分析了1500个肝脏细胞的基因组信息。他们针对20000个基因构建了它们的表达图谱。同时,他们还试图可视化整个肝脏组织,在荧光显微镜下标定所有信使RNA。文章是:

  • Halpern KB, Shenhav R, Matcovitch-Natan O, Toth B et al. Single-cell spatial reconstruction reveals global division of labour in the mammalian liver. Nature2017 Feb 16;542(7641):352-356. PMID: 28166538

2017年的这篇nature文章数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE84498 共测量了肝脏的26个不同部位的 1736 个单细胞的表达数据。表明肝脏细胞至少可分为9种不同的类型,每一种都行使着自己的职责。”

去除了非薄壁组织细胞(non-parenchymal)之后,把肝脏细胞分成3大类:

  • the Kupffer cell genes: Clec4f, Csf1r, C1qc, C1qa and C1qb

  • the endothelial cell genes: Kdr, Egfl7, Igfbp7 and Aqp1

  • the hepatocyte genes: Apoa1, Apob, Pck1, G6pc and Ttr.

使用的是MARS-seq单细胞转录组建库技术:

  • Jaitin, D. A. et al. Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types. Science 343, 776–779 (2014)

数据处理文章描述如下:

  • Mapping of single-cell reads to mouse reference genome (mm9) was done using HISATversion 0.1.6 and reads with multiple mapping positions were excluded.

  • Reads were associated with genes if they were mapped to an exon defined by a reference set obtained from the UCSC genome browser.

  • Exons of different genes that share genomic position on the same strand were considered as a single gene with concatenated gene symbol.

  • Corrected read counts were evaluated based on unique molecular identifiers (UMI)

肝小叶背景知识

肝小叶是组成肝脏结构的基本单位,呈六角轮柱状,由肝细胞、毛细胆管、肝血窦和相当于毛细淋巴管的窦周隙(狄氏间隙)组成。研究人员发现,肝小叶不同层分别执行不同的功能。具体而言可分成:肝小叶的外层负责合成葡萄糖、凝血因子以及其他各种化合物,该区域富含合成反应所需的氧元素;内层负责降解毒素及其他物质;中间层合成并分泌铁调素(hepcidin)。

荧光显微镜下小鼠肝小叶结构的横截面:中间层富含信使RNA分子(白点),这些基因最终表达生成铁调素(Hepcidin)。

重点分析得到了3496个zonated genes

统计检验表明,在全部的7227个肝脏表达基因里面,有3496可以被定义为 zonated genes ,远超预期。它们对应着 肝小叶的外层到内层。

  • 在Apc-KO小鼠表达显著下降的基因有 中心周围的 pericentral 倾向 (810 of our 3,496 zonated genes)大多数集中在肝小叶的第一层

  • 在Apc-KO小鼠表达显著下降的基因有 门静脉周的 periportal 倾向 (193 of our 3,496) 大多数集中在肝小叶的第六层

  • 近三分之二的(2,314 out of 3,496 genes) were not predicted targets of either Wnt, hypoxia, Ras signalling or pituitary hormones

还利用了几个公共数据:

  • GSE3129

  • GSE49707

  • GSE68806

  • GSE84498

首先下载原始数据

在 https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078795 可以找到所有原始测序数据。

脚本如下:

# nohup bash prefetch.sh srr.list &
while read id
do
echo $id
~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch $id
done <$1

下载得到的sra文件需要转换为fastq文件

2.6G Feb 27 11:16 SRR3928573.sra
2.2G Feb 27 11:18 SRR3928574.sra
2.5G Feb 27 11:20 SRR3928575.sra
2.4G Feb 27 11:22 SRR3928576.sra
2.8G Feb 27 11:24 SRR3928577.sra
2.9G Feb 27 11:26 SRR3928578.sra
2.3G Feb 27 11:28 SRR3928579.sra
2.2G Feb 27 11:31 SRR3928580.sra
1.2G Feb 27 11:32 SRR3928581.sra
1.2G Feb 27 11:34 SRR3928582.sra
1.1G Feb 27 11:35 SRR3928583.sra
1.2G Feb 27 11:36 SRR3928584.sra
1.9G Feb 27 11:37 SRR3928585.sra
1.9G Feb 27 11:39 SRR3928586.sra
2.0G Feb 27 11:40 SRR3928587.sra
2.0G Feb 27 11:42 SRR3928588.sra
2.8G Feb 27 11:44 SRR3928589.sra
2.6G Feb 27 11:46 SRR3928590.sra
2.9G Feb 27 11:48 SRR3928591.sra
1.8G Feb 27 11:50 SRR3928592.sra
1.9G Feb 27 11:52 SRR3928593.sra
2.7G Feb 27 11:54 SRR3928594.sra
2.6G Feb 27 11:55 SRR3928595.sra
2.7G Feb 27 11:57 SRR3928596.sra
1.7G Feb 27 11:59 SRR3928597.sra
1.8G Feb 27 12:01 SRR3928598.sra

转换代码如下:

dump='/home/jianmingzeng/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/fastq-dump'
$dump -A  $sample -O $analysis_dir  --gzip --split-3 /home/jianmingzeng/data/public/oscc/sra/$srr.sra

测序数据是有格式的:

@AB911.1 NB501277:61:HTNKHBGXX:1:11101:11520:1071_0_barcode=NA-EE/A-//A//6#-/##/####-AAAC-AACACCN-CNNANNNN length=68
CATCCCCGCCGCGCGTCGCGGCGTGGGAAATGTGGCGTACGGAAGACCCACTCCCCGGCGCCGCTCGT
+AB911.1 NB501277:61:HTNKHBGXX:1:11101:11520:1071_0_barcode=NA-EE/A-//A//6#-/##/####-AAAC-AACACCN-CNNANNNN length=68
A6/AEEAAAEEEAEE/EEEEEEE/EEEE/EEE/EEAEE<AEAAEEEEEEAAEEEE/EAAEEEA6EAAA
@AB911.2 NB501277:61:HTNKHBGXX:1:11101:19199:1073_0_barcode=NA-EEEE-AA/<66#-<##6####-AAAC-CATCACN-GNNANNNN length=68
TTGGGGCATTCACAGAATCTATGGTGGTTTATGGTTGTCCCAACTGACTACAGCCCAGCCCTCTAATA
+AB911.2 NB501277:61:HTNKHBGXX:1:11101:19199:1073_0_barcode=NA-EEEE-AA/<66#-<##6####-AAAC-CATCACN-GNNANNNN length=68
EEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEAEAEE/EEEEAEEAEA/
@AB911.3 NB501277:61:HTNKHBGXX:1:11101:21777:1073_0_barcode=NA-EEEA-AAA////-/##/####-AAAC-CATACCT-CNNCNNNN length=68
ATCCTTTAACGAGGATCCATTGGAGGGCAAGTCTGGTGCCAGCAGCCGCGGTAATTCCAGCTCCAATA
+AB911.3 NB501277:61:HTNKHBGXX:1:11101:21777:1073_0_barcode=NA-EEEA-AAA////-/##/####-AAAC-CATACCT-CNNCNNNN length=68
//EEEEEEEEEEEEEEEEEEEE/E</EAEEAE/EEEEEEE/EA<EEE/EEE/AE/AEE/EEEEEE///

所以每条reads都包含有4bp的pool_barcode, 7bp的cell_barcode 以及 8bp的random molecular tag
(RMT)

但是有两个数据,作者忘记把这些信息包含进去了,就是 AB1032.fastq.gz 和 AB1033.fastq.gz 理论上这两个数据是无法处理的。

AB1032.fastq.gz
@AB1032.1 NB501277:76:HWNK2BGXX:1:11101:24314:1080 length=68
CAGATTCTTATTCTAGAGAATAAGAATCTGGATGTGAACTTTATTGTTCATATCCTTGATCTGAGGGT
+AB1032.1 NB501277:76:HWNK2BGXX:1:11101:24314:1080 length=68
/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEE/AEEEE/EEEEEEEE6EEAEE<AEAEEEEEE
@AB1032.2 NB501277:76:HWNK2BGXX:1:11101:25906:1080 length=68
GTGCCAGCAGCCGCGGGACTGCCAGCTCCAAGAGCGGAGATTCACGGTGCTGCCGGTACCACGCTCGG
+AB1032.2 NB501277:76:HWNK2BGXX:1:11101:25906:1080 length=68
6EEEE/EEEEEEEE<<//6</EE/EEAA/<E/AEEE/E//A//</E//EE6EE/E//A//6/EEAEE/
AB1033.fastq.gz
@AB1033.1 NB501277:76:HWNK2BGXX:1:11101:21812:1081 length=68
GTAAGCAAAAAAAAAAAAAAAAAAAAAAAAAAAGCCCAGGCCCCGCGGGTCGCCGCGGCGCGCGGGGG
+AB1033.1 NB501277:76:HWNK2BGXX:1:11101:21812:1081 length=68
EEE6EA/AEEEEEEEEEE6EEEE/EE/EE/E///////////EE////<////////////////A//
@AB1033.2 NB501277:76:HWNK2BGXX:1:11101:22107:1082 length=68
TTGGGATCTACGGCCTGGACTTCTATGTGGTGCTGGGTAGGCCAGGGTTCAGCATCGCAGACAAGAAG
+AB1033.2 NB501277:76:HWNK2BGXX:1:11101:22107:1082 length=68
EEAAEEEEEEEEEAEEEEEEEEEAEEEEEE/EEEE/EEAEEEEEAEEEEEEEEEEEE<AEEAAE/EA/

大多数真核生物的体细胞是二倍体,即仅含有两组染色体,分别遗传自父本和母本。而一些特定组织如心脏、肝脏等就含有多倍体细胞,特别是肝脏组织含有较高比例的四、八倍体等多倍体细胞。

肝脏是人体的重要解毒器官,同时酒精、肝炎病毒等毒性物质或毒性代谢物容易诱发肝细胞的基因突变,多倍体被认为有利于提供代偿性的正常基因来维持肝脏稳态。多倍体细胞通常会停滞在细胞周期的间期——G1期,这些细胞很少进行细胞分裂增殖,并最终走向细胞衰老死亡。

然而肝脏受损后,多倍体细胞将会受胁迫进行增殖,再生修复受损的肝组织。这些多倍体细胞分裂将导致三、五、七倍体等非整倍体的产生,也就是丢失匹配的染色体或染色片段,从而造成原癌基因的扩增或抑癌基因的丢失,引起基因组不稳定性和肿瘤的发生发展。因此研究机体调控多倍体细胞产生及多倍体细胞进行细胞分裂的调控机理对于理解肝癌的发病机理和肝癌的治疗至关重要。

总共涉及到的NGS数据不到100G,很快就处理得到了表达矩阵。

下一步就是走作者的下游分析流程。

点击可以加入单细胞数据处理学习交流小组

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存