扩增子项目动辄几百上千样品，如何写好实验设计——样品和组命名规则

Original MG 宏基因组 2022-03-28

我们之前分享了《样本命名注意事项——优秀的课题从一个好名字开始》，让大家了解了样品命名的基本规则，方便与分析人员的合作与沟通，结果的展示和可读性。

今天再给大家带来两个命名的实例，助力大家写出规范易读的实验设计，加速科进进展，增加有效沟通。

样品命名经验总结：

只使用字母数字组合；
字母开头；
样品和组名包括基本实验设计便于理解。

光説不练假把式，上实例。

最简单实例——单分组条件下样品名与组名

假如我们研究宿主某一基因对菌群的影响，主要包括野生型(wild type, WT)，采用CRISPR/Cas9获得的基因敲除个体(knock out, KO)、基因过表达因个体(over express, OE)。由于遗传背景稳定、个体生长环境条件可控，每个基因型只测九个粪便的重复，命名示例如下:

SampleID	GroupID
WT1	WT
WT9	WT
KO1	KO
KO9	KO
OE1	OE
OE9	OE

说明：我们的分组类型即基因型，可分为WT/KO/OE；样品名=分组+生物学重复编号；如WT1, WT2 … WT9；表格中为节省空间，只列出了同组重复中的首尾样本。

是不是清楚明了，可读性好。

复杂实验——三种重要分组条件

实际工作中，我们的项目可能会涉及3到5组的重要分组信息，测序样本量可能达几千到几万，那样品名、组名如何编写呢？

下面我们举个3种常用分组条件的示例，学会了绝对可以handle各千样品的课题，即使你负责HMP和EMP这种项目，估计再添两种分组类型也足够了。

常见的分组条件有基因型/病症状态(Genotype)、生态位/取样部位(Site)、批次(Batch)、地理位置、时间/季节、环境条件等。

分组类型按科学问题的重要性排序，比如假定此课题我们最关注基因与菌的调控(Genotype)，其次是样品取样位置(Site)，最后是不同批次的重复性和批次效应(Batch)。

我们对不同基因型、取样位置和批次的命名示例如下：

SampleID	GroupID	Genotype	Site	Batch
WtFcB1S01	WtFcB1	Wt	fecal	1
WtFcB1S30	WtFcB1	Wt	fecal	1
KoFcB1S01	KoFcB1	Ko	fecal	1
KoFcB1S30	KoFcB1	Ko	fecal	1
WtSkB1S01	WtSkB1	Wt	skin	1
WtSkB1S30	WtSkB1	Wt	skin	1
KoSkB1S01	KoSkB1	Ko	skin	1
KoSkB1S30	KoSkB1	Ko	skin	1
WtFcB2S01	WtFcB2	Wt	fecal	2
WtFcB2S30	WtFcB2	Wt	fecal	2
KoFcB2S01	KoFcB2	Ko	fecal	2
KoFcB2S30	KoFcB2	Ko	fecal	2

说明：此表看上会有点难懂，但非常整齐，稍微解析一下就非常清楚了。
样品名“WtFcB1S01”为例，包含四类信息。1. Wt是基因型Wild-type缩写，改为只首字母大写，可以不使用额外的分隔符，只利用小写或数字结尾规则来区分不同分类信息；2. Fc是取样部分fecal的前两个音节首字母，音节缩写法更容易理解；B1代表第一批实验重复，通常来自同一时间、季节；S01代表生物学个体重复，S代表样品Sample，01代表某个生物学个体重复，如动、植物遗传背景和生长条件可控，一般6-15次重复即可，而人类遗传和环境因素差异大，通常需要20-90次重复才容易找到显著的差异菌，本实验设计采用初次30个生物学重复的标配，两位数重复，不足两位补零是为了保持排序稳定，如果你有上百次重复可以使用三位数编号。

复杂实验命令经验：

先按科学问题选定第1，2，3重要的分组类型，并填写相关的分组类型；
按各组的内容按音节法或标题编号组合为2-3个字母的缩写，只允许首字母大写，小写字母和数字结尾，方便在不使用连字符下也能分割各组；
组名GroupID按各组缩写连接；
样品名添加S1..9或S01..99，按重复数量先位数字位数，不足位数补零保持实验设计整齐和排序稳定。

常见问题：

样品/组名以数字开头：在R中统计中，有数字开头的名字作为数据框的行或列名，可能会被自动添加X开头，导致数据筛选时报错，一定要避免；
样品/组名中包括符号：如连字符-与运行符减号为同一字符，组名中使用，会在edgeR差异比较中误会而报错(edgeR中减号用于连接两个比较组)；_在Rmarkdown语法中作为table/figure的legend变量名时也会失效，导致分析结果网页报告中图注显示不正常。其它符号就更不用説了，点、星、问等在计算中有多种意义，只要使用必让各种程序语言寸步难行，大家各有各的理解。

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外150+ PI，1300+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

扩增子项目动辄几百上千样品，如何写好实验设计——样品和组命名规则

样品命名经验总结：

最简单实例——单分组条件下样品名与组名

复杂实验——三种重要分组条件

常见问题：

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

扩增子项目动辄几百上千样品，如何写好实验设计——样品和组命名规则

样品命名经验总结：

最简单实例——单分组条件下样品名与组名

复杂实验——三种重要分组条件

常见问题：

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡