查看原文
其他

分析了中国高校2万名教授的名字,来看看哪个姓的人最聪明

二胖并不胖 大数据前沿 2019-02-24

写在前面

这批数据是二胖最开始学习爬虫的时候抓取的,那时候为了练习爬虫和分析不同网站的特点,二胖把国内几乎所有的985、211高校和部分一本学校的官网给抓了一遍。用一个月的时间大约抓了100多个学校的网站,最后筛选出来2万名教授和副教授的信息。二胖最近在电脑中发现了这批数据,索性就来分析分析吧。


Do not let your data sleep in the database!


预警!本文涉及到各个姓的聪明度,纯属娱乐,请勿当真!


首先解释下,教授的名字怎么就和“聪明度”扯上了关系?

其实这是一种强加的关系,二胖认为,其实一个人聪明与否和姓什么没啥联系。这里强加相关性,主要是因为在知识文化水平维度,教授是处于塔尖的那群人,所以就把他们作为聪明的人的代表吧。


1.控制变量

如果直接用各个教授名字中姓氏出现的比例来做变量,那就太不科学了!

因为本来每个姓的人数就不一致。

怎么做才能做到相对公平呢?


我们首先统计一下中国各个姓氏的比例并记作M(x);

然后再统计教授们名字中各个姓氏出现的比例记作Y(x);

最后用Y(x)除以M(x)就是各个姓的聪明指数啦!

用公式表示就是:

F(x) = Y(x)/M(x)  【其中x为姓】


来看看我国第六次人口普查中各个姓氏在中国人中所占的比例:

由图可知,第六次人口普查的时候中国人中姓王的最多,李、张次之。

厉害啊,王姓人口都快接近一亿了,你能回忆起你上学的时候班上有几个姓王的同学吗?

反正二胖大学的四个室友中就有两个姓王。


那么问题来了,上表中有你的姓吗?

有的话,留言区戳一下咯,让我们看看大家的姓是不是符合统计规律。


2.收集的高校教授信息来源

来看看这2万名教授都来自哪些学校。

由于二胖抓取了100多个高校的网站,无法将数据信息展示全面,这里就只展示人数最多的前20个学校吧。

由上图可知,教授人数Top20的高校主要是985、211大学。


3.重复次数最多的名字

下面是这2万名教授中重复次数最多的名字.

由下图所示,图表中一共有两列:左边是姓名、右边是人数。

可以看到,这20个最常见的名字都是由两个字构成的。

这是因为两个字的名字更容易重复。


从上图中还可以看出,姓王的名字占了9个。

排前三的名字中都出现了“勇”,这到底是偶然还是说叫“勇”的人都很聪明?

上表中有你的导师吗?


4.教授们都姓啥?

下图统计了教授人数最多的20个姓,“王”姓还是占了榜首,毕竟基数大。

不过如前文所说,绝对数量并不具有参考意义,我们要看的是比例,那么到底哪个姓最“聪明”呢?

请继续往下看。


5.教授名中出现次数最多的字

看了下图,二胖觉得先从上面随便找个姓,再从下图中随便找一到两个字都能凑出个生活常见的名字。

不信?

那我们试试吧:

前三个字:王晓明、王晓华、张华、张明、张华明。

当然,其他字也是可以随便组合的,比如李建军、李建国、高志平等等,输入法都能自动弹出这些名字,可想而知,这些名字是有多常见!


这里有你的名字吗?

上面统计了教授名字中最常用的20个字,下面分姓讨论一下各个姓的教授最常使用的名字。还是和前面一样,这里只列举了最常出现的20个姓,以及和每个姓最常伴随出现的五个名。

看看你导师或室友的名字在不在上面?😆


6.“聪明度”

最刺激的来了------聪明度。

这里只统计了最常见的20个姓,按照文章开头的公式:

F(x) = Y(x)/M(x)   【其中x为姓】

计算出了各个姓的“聪明度”,也就是下图中最右一列的指数。

由上图可以看到,在最常见的20个姓中,姓郭的同学是最聪明的耶!

姓郭的同学你们在哪里?

细心的同学应该也发现了,“郑”这个姓没有数据,为什么呢?

因为在人口普查的数据中,“郑”姓并不是最常见的20个姓之一,所以这里就没有统计,也许姓“郑”的同学才是最聪明的,这里就留个悬念吧!


2018/07/10

写在最后

正如二胖在前文提到的,为了收集这些数据,二胖爬了100多个网站,大约花了快一个月时间,在这期间也遇到了各种问题,都是慢慢去攻克的。


为什么说这个呢?二胖只是想告诉初学的同学,学习的过程一定不能急,一定要多加练习,只看书不写代码是学不会编程的。


理论->实践->再理论->再实践-----


近期热文

这可能是我见过最好的编程指南

和刻苦学习相比,选择一本好书更重要

从《深入理解计算机系统》谈一谈编程入门

分享一下我自学python过程中看过的那些书和那些课


长按小黄人关注这个有趣的公众号

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存