涨姿势|人类学杂记——Y染色体在全世界的谱系
导语:本文是人类学杂记系列科普之一。目前能测的人类最详细的谱系也就是通过Y染色体硏究的父系谱系(只有男人能做),以及通过线粒体DNA硏究的母系谱系(男女都能做)。同时,父系也是和语言谱系联系最紧密的,随着姓氏传递,同时在中国经常有家谱和史书的记录,是本系列科普的重点内容。
关键词:人类学 科普 遗传 y染色体 父系 snp
A*:Y染色体最古老的分支,只分布在非洲。
B-M60:只分布在非洲,如俾格米人。
C-M130:较早期到达东亚的人群,高频于阿尔泰语系的蒙古、满、哈萨克斯坦等族及澳大利亚土著等,汉人中通常5 – 10%
D-M174:较早期到达东亚的人群,在西藏、日本等地将近一半,在汉族和南方少数民族也
有较低比例分布
D1-M15:藏族及周边民族较高频、汉族及南方部分少数民族有较低比例分布
D2-M55:仅分布于日本,占日本40%以上,绳文人的主要成分
D3-P99:青藏高原东部(康区)、白马人及纳西族等高频
E:非洲高频,南欧及中东有一定分布,中国极少
F*-M89(G至T的祖群):中国零星分布,个别少数民族高频
G:土耳其、高加索、哈萨克斯坦斯坦西部高频,中国零星分布
H:印度次大陆,中国极少
I:主要分布在欧洲,北欧和巴尔干高频,中国极少
J:阿拉伯、犹太人等高频,中国零星分布,回族中有一定比例
K*-M9(L至T的祖群):中国零星分布,个别少数民族高频
L:西亚至南亚低频分布
M:新几内亚土著和美拉尼西亚
N-M231:较晚期到达东亚的人群。阿尔泰语系、芬兰人等中高频分布,在中国广泛分布,汉人中通常10%以下,部分少数民族中较高频
N1c-Tat:乌拉尔语系的标志性单倍群,中国少量分布
O-M175:较晚期到达东亚的人群,广泛高频分布于东亚,占汉族75%以上
O1a-M119:中国东南沿海、壮侗族群、台湾原住民分布较集中,东南亚岛屿也有广泛分布
O2-M268: 汉族中5%以上
O2a1-M95:华南、南方少数民族、中南半岛及印度Munda人群分布较多
O2b-M176:最主要集中于朝鲜半岛、朝鲜族和日本弥生人,越南和汉族也有少量分布
O3-M122:中国最常见的单倍群,遍及整个东亚和东南亚,占汉族50 – 60%左右
O3a1c-002611:汉族常见类型,占汉族15%以上
O3a2b-M7:苗瑶族群特征类型,通常占汉族5%以下
O3a2c1-M134:汉族30%左右,广泛分布于东亚、东南亚
O3a2c1a-M117:汉族和藏缅语族的特征类型,汉族15%以上
P*-M45(Q和R的祖群):很少见
Q-M242:印第安人的绝大部分,北亚一些群体高频,汉族2%左右
R-M207:印欧语系的主要群体,高频分布于欧洲至中亚、南亚,汉族2%左右,中国部分少数民族较高
S:新几内亚土著和美拉尼西亚
T:印度、中东、地中海、东非等地较低频分布
注意上面的A-T的字母,不全是并列的。A已经发现不是单系群(monophyly,即不是说一个祖先的所有后代构成的集合),而是旁系群(paraphyly,即是同一个祖先的后代,但去除了其中一些支系以后构成的集合。)
这里着重说一下单系群和旁系群的定义:“哺乳动物”和“鸟类”都是单系群,而传统意义的“爬行动物”不是,爬行动物加上哺乳类和鸟类一起才是单系群。而所谓“爬行动物”就是旁系群。另外还有一种定义,就是复系群(polyphyly)。复系群指由不止一支共同祖先的后代构成的集合。或者说这个集合的个体的最近共同祖先不属于这个集合。例如“温血动物”(包括鸟类和哺乳类两支)就是复系群,因为恒温的能力是分别演化来的,而鸟类和哺乳类的最近共同祖先(即在树上分叉的点)并非温血动物。一般来说,在一棵演化树上,最好的分类标准是单系群。旁系群在不得已时可以用,而复系群应当尽量避免。
好了,A*是旁系群(见《人类学杂记——4. 我们是北京猿人的后代么?》里面的Y染色体树),F*、K*、P*也是旁系群,而其他的字母的支系目前来看都是单系群。A*-T都是Y染色体亚当的后代;F*-T都是一个有M89突变的人的后代,属于F;K*-T都是一个有M9突变的人的后代,属于K;而P*-R都有M45的突变,属于P。对于旁系群,用一个星号表示。例如属于F,但不属于G、H、IJK的支系,写成F*。具体定义就是F*-M89(xM201,M69,M523)。其中M201、M69、M523分别是G、H、IJK三支的定义位点,x表示去除。请注意,当旁系群里面去除的支系不同时,虽然也都能用星号代替,但其表示的定义并不相同。
对于Y染色体的支系命名,规矩是,头一个字母大写。后面的是每一层由阿拉伯数字和小写英文字母交替,通常先发现的支系编号小,后发现的大。支系应该由SNP来定义,需要注意的是,因为Y染色体的谱系在不断细化中,某个用SNP定义好的分支的层数会不断加深,则其支系名称也会不断改变。举个例子,M134定义的支系,在2002年叫O3e;后来2005年左右发现了M324 (O3a)在M122 (O3)下游,M134+改叫O3a5;到了2008年的树上发现了上游的P201 (O3a3),M134+改叫了O3a3c;到了2011年,因为又在上游订正了P164的位置(O3a2c),M134+就改叫O3a2c1了。因此在读不同年代的数据的时候,需要注意支系名称对应的到底是哪个版本的树。比如O3a4,在2005的树里面指M7+,而在2008的树里指的就是002611+了。因为不同研究的精度不同,旁系群的星号也会有不同含义,比如O3*-M122(xM324)和O3*-M122(xM134)显然就是不同的,前者在汉族只有2%左右的比例,而后者超过了1/4。
关于分布,应该说明,不是一个类型在哪个群体里比例越高,就越可能是祖先群体。因为有始祖效应发生,即本来一个很复杂的群体,其中少数一些人迁到了远处,形成了新的人群,就会有少数几个始祖的后代占了这个新人群的很高比例。比如N单倍群在芬兰人、雅库特人等群体里面都占了很高比例,但N应该是来源于中国的,而当前汉族的N不到10%,且中国任何一个民族的N也到不了那么高的比例。所以说,看见N就说是乌拉尔人,看见C就说是蒙古人,看见Q就说是印地安人的说法是不对的,不能把爸爸和儿子搞反了(更严格地说,应该是在留在原地的和迁出去的兄弟,而哪儿是爸爸住的地方,不一定容易考察清楚)。
……
如有兴趣查Y的谱系,可以去ISOGG(国际遗传谱系协会)http://www.isogg.org/tree/index.html ,这个网站定期更新,位点列得很全,而且能查到支系命名的历史变化。
资料来源:polyhedron的新浪博客
编辑:刘海猛,张悦