分析了中国高校2万名教授的名字,来看看哪个姓的人最聪明
写在前面
这批数据是二胖最开始学习爬虫的时候抓取的,那时候为了练习爬虫和分析不同网站的特点,二胖把国内几乎所有的985、211高校和部分一本学校的官网给抓了一遍。用一个月的时间大约抓了100多个学校的网站,最后筛选出来2万名教授和副教授的信息。二胖最近在电脑中发现了这批数据,索性就来分析分析吧。
Do not let your data sleep in the database!
预警!本文涉及到各个姓的聪明度,纯属娱乐,请勿当真!
首先解释下,教授的名字怎么就和“聪明度”扯上了关系?
其实这是一种强加的关系,二胖认为,其实一个人聪明与否和姓什么没啥联系。这里强加相关性,主要是因为在知识文化水平维度,教授是处于塔尖的那群人,所以就把他们作为聪明的人的代表吧。
1.控制变量
如果直接用各个教授名字中姓氏出现的比例来做变量,那就太不科学了!
因为本来每个姓的人数就不一致。
怎么做才能做到相对公平呢?
我们首先统计一下中国各个姓氏的比例并记作M(x);
然后再统计教授们名字中各个姓氏出现的比例记作Y(x);
最后用Y(x)除以M(x)就是各个姓的聪明指数啦!
用公式表示就是:
F(x) = Y(x)/M(x) 【其中x为姓】
来看看我国第六次人口普查中各个姓氏在中国人中所占的比例:
由图可知,第六次人口普查的时候中国人中姓王的最多,李、张次之。
厉害啊,王姓人口都快接近一亿了,你能回忆起你上学的时候班上有几个姓王的同学吗?
反正二胖大学的四个室友中就有两个姓王。
那么问题来了,上表中有你的姓吗?
有的话,留言区戳一下咯,让我们看看大家的姓是不是符合统计规律。
2.收集的高校教授信息来源
来看看这2万名教授都来自哪些学校。
由于二胖抓取了100多个高校的网站,无法将数据信息展示全面,这里就只展示人数最多的前20个学校吧。
由上图可知,教授人数Top20的高校主要是985、211大学。
3.重复次数最多的名字
下面是这2万名教授中重复次数最多的名字.
由下图所示,图表中一共有两列:左边是姓名、右边是人数。
可以看到,这20个最常见的名字都是由两个字构成的。
这是因为两个字的名字更容易重复。
从上图中还可以看出,姓王的名字占了9个。
排前三的名字中都出现了“勇”,这到底是偶然还是说叫“勇”的人都很聪明?
上表中有你的导师吗?
4.教授们都姓啥?
下图统计了教授人数最多的20个姓,“王”姓还是占了榜首,毕竟基数大。
不过如前文所说,绝对数量并不具有参考意义,我们要看的是比例,那么到底哪个姓最“聪明”呢?
请继续往下看。
5.教授名中出现次数最多的字
看了下图,二胖觉得先从上面随便找个姓,再从下图中随便找一到两个字都能凑出个生活常见的名字。
不信?
那我们试试吧:
前三个字:王晓明、王晓华、张华、张明、张华明。
当然,其他字也是可以随便组合的,比如李建军、李建国、高志平等等,输入法都能自动弹出这些名字,可想而知,这些名字是有多常见!
这里有你的名字吗?
上面统计了教授名字中最常用的20个字,下面分姓讨论一下各个姓的教授最常使用的名字。还是和前面一样,这里只列举了最常出现的20个姓,以及和每个姓最常伴随出现的五个名。
看看你导师或室友的名字在不在上面?😆
6.“聪明度”
最刺激的来了------聪明度。
这里只统计了最常见的20个姓,按照文章开头的公式:
F(x) = Y(x)/M(x) 【其中x为姓】
计算出了各个姓的“聪明度”,也就是下图中最右一列的指数。
由上图可以看到,在最常见的20个姓中,姓郭的同学是最聪明的耶!
姓郭的同学你们在哪里?
细心的同学应该也发现了,“郑”这个姓没有数据,为什么呢?
因为在人口普查的数据中,“郑”姓并不是最常见的20个姓之一,所以这里就没有统计,也许姓“郑”的同学才是最聪明的,这里就留个悬念吧!
2018/07/10
写在最后
正如二胖在前文提到的,为了收集这些数据,二胖爬了100多个网站,大约花了快一个月时间,在这期间也遇到了各种问题,都是慢慢去攻克的。
为什么说这个呢?二胖只是想告诉初学的同学,学习的过程一定不能急,一定要多加练习,只看书不写代码是学不会编程的。
理论->实践->再理论->再实践-----
近期热文
长按小黄人关注这个有趣的公众号