涨姿势|人类学杂记——Y染色体在全世界的谱系

2016-11-20 全国地研联

导语：本文是人类学杂记系列科普之一。目前能测的人类最详细的谱系也就是通过Y染色体硏究的父系谱系（只有男人能做），以及通过线粒体DNA硏究的母系谱系（男女都能做）。同时，父系也是和语言谱系联系最紧密的，随着姓氏传递，同时在中国经常有家谱和史书的记录，是本系列科普的重点内容。

关键词：人类学科普遗传 y染色体父系 snp

目前谱系的大致情况

A*：Y染色体最古老的分支，只分布在非洲。
B-M60：只分布在非洲，如俾格米人。
C-M130：较早期到达东亚的人群，高频于阿尔泰语系的蒙古、满、哈萨克斯坦等族及澳大利亚土著等，汉人中通常5 – 10%
D-M174：较早期到达东亚的人群，在西藏、日本等地将近一半，在汉族和南方少数民族也
有较低比例分布
    D1-M15：藏族及周边民族较高频、汉族及南方部分少数民族有较低比例分布
    D2-M55：仅分布于日本，占日本40%以上，绳文人的主要成分
    D3-P99：青藏高原东部（康区）、白马人及纳西族等高频
E：非洲高频，南欧及中东有一定分布，中国极少
F*-M89（G至T的祖群）：中国零星分布，个别少数民族高频
G：土耳其、高加索、哈萨克斯坦斯坦西部高频，中国零星分布
H：印度次大陆，中国极少
I：主要分布在欧洲，北欧和巴尔干高频，中国极少
J：阿拉伯、犹太人等高频，中国零星分布，回族中有一定比例
K*-M9（L至T的祖群）：中国零星分布，个别少数民族高频
L：西亚至南亚低频分布
M：新几内亚土著和美拉尼西亚
N-M231：较晚期到达东亚的人群。阿尔泰语系、芬兰人等中高频分布，在中国广泛分布，汉人中通常10%以下，部分少数民族中较高频
    N1c-Tat：乌拉尔语系的标志性单倍群，中国少量分布
O-M175：较晚期到达东亚的人群，广泛高频分布于东亚，占汉族75%以上
    O1a-M119：中国东南沿海、壮侗族群、台湾原住民分布较集中，东南亚岛屿也有广泛分布
    O2-M268：汉族中5%以上
        O2a1-M95：华南、南方少数民族、中南半岛及印度Munda人群分布较多
        O2b-M176：最主要集中于朝鲜半岛、朝鲜族和日本弥生人，越南和汉族也有少量分布
    O3-M122：中国最常见的单倍群，遍及整个东亚和东南亚，占汉族50 – 60%左右
        O3a1c-002611：汉族常见类型，占汉族15%以上
    O3a2b-M7：苗瑶族群特征类型，通常占汉族5%以下
    O3a2c1-M134：汉族30%左右，广泛分布于东亚、东南亚
        O3a2c1a-M117：汉族和藏缅语族的特征类型，汉族15%以上
P*-M45（Q和R的祖群）：很少见
Q-M242：印第安人的绝大部分，北亚一些群体高频，汉族2%左右
R-M207：印欧语系的主要群体，高频分布于欧洲至中亚、南亚，汉族2%左右，中国部分少数民族较高
S：新几内亚土著和美拉尼西亚
T：印度、中东、地中海、东非等地较低频分布

单系群vs旁系群

注意上面的A-T的字母，不全是并列的。A已经发现不是单系群（monophyly，即不是说一个祖先的所有后代构成的集合），而是旁系群（paraphyly，即是同一个祖先的后代，但去除了其中一些支系以后构成的集合。）

这里着重说一下单系群和旁系群的定义：“哺乳动物”和“鸟类”都是单系群，而传统意义的“爬行动物”不是，爬行动物加上哺乳类和鸟类一起才是单系群。而所谓“爬行动物”就是旁系群。另外还有一种定义，就是复系群（polyphyly）。复系群指由不止一支共同祖先的后代构成的集合。或者说这个集合的个体的最近共同祖先不属于这个集合。例如“温血动物”（包括鸟类和哺乳类两支）就是复系群，因为恒温的能力是分别演化来的，而鸟类和哺乳类的最近共同祖先（即在树上分叉的点）并非温血动物。一般来说，在一棵演化树上，最好的分类标准是单系群。旁系群在不得已时可以用，而复系群应当尽量避免。

好了，A*是旁系群（见《人类学杂记——4. 我们是北京猿人的后代么？》里面的Y染色体树），F*、K*、P*也是旁系群，而其他的字母的支系目前来看都是单系群。A*-T都是Y染色体亚当的后代；F*-T都是一个有M89突变的人的后代，属于F；K*-T都是一个有M9突变的人的后代，属于K；而P*-R都有M45的突变，属于P。对于旁系群，用一个星号表示。例如属于F，但不属于G、H、IJK的支系，写成F*。具体定义就是F*-M89(xM201,M69,M523)。其中M201、M69、M523分别是G、H、IJK三支的定义位点，x表示去除。请注意，当旁系群里面去除的支系不同时，虽然也都能用星号代替，但其表示的定义并不相同。

对于Y染色体的支系命名，规矩是，头一个字母大写。后面的是每一层由阿拉伯数字和小写英文字母交替，通常先发现的支系编号小，后发现的大。支系应该由SNP来定义，需要注意的是，因为Y染色体的谱系在不断细化中，某个用SNP定义好的分支的层数会不断加深，则其支系名称也会不断改变。举个例子，M134定义的支系，在2002年叫O3e；后来2005年左右发现了M324 (O3a)在M122 (O3)下游，M134+改叫O3a5；到了2008年的树上发现了上游的P201 (O3a3)，M134+改叫了O3a3c；到了2011年，因为又在上游订正了P164的位置(O3a2c)，M134+就改叫O3a2c1了。因此在读不同年代的数据的时候，需要注意支系名称对应的到底是哪个版本的树。比如O3a4，在2005的树里面指M7+，而在2008的树里指的就是002611+了。因为不同研究的精度不同，旁系群的星号也会有不同含义，比如O3*-M122(xM324)和O3*-M122(xM134)显然就是不同的，前者在汉族只有2%左右的比例，而后者超过了1/4。

关于分布，应该说明，不是一个类型在哪个群体里比例越高，就越可能是祖先群体。因为有始祖效应发生，即本来一个很复杂的群体，其中少数一些人迁到了远处，形成了新的人群，就会有少数几个始祖的后代占了这个新人群的很高比例。比如N单倍群在芬兰人、雅库特人等群体里面都占了很高比例，但N应该是来源于中国的，而当前汉族的N不到10%，且中国任何一个民族的N也到不了那么高的比例。所以说，看见N就说是乌拉尔人，看见C就说是蒙古人，看见Q就说是印地安人的说法是不对的，不能把爸爸和儿子搞反了（更严格地说，应该是在留在原地的和迁出去的兄弟，而哪儿是爸爸住的地方，不一定容易考察清楚）。

……

如有兴趣查Y的谱系，可以去ISOGG（国际遗传谱系协会）http://www.isogg.org/tree/index.html ，这个网站定期更新，位点列得很全，而且能查到支系命名的历史变化。

资料来源：polyhedron的新浪博客

编辑：刘海猛，张悦

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！