一个求证了三次才确定概念的数据分析案例!
大家好,我是小一
今天的文章又是一波三折,差点没产出来
事情是这样的:这次遇到的数据集里面,有一个概念,虽然它不影响整体的分析结果,但是抱着谨慎的态度,前前后后一共还是求证了三次,最终才得以确认,具体是啥后面文中会提到。
先来说一下数据集:来源于全球手机基站开放数据库,网址是:https://alpercinar.com/open-cell-id/
数据涉及的字段有 14 个,表示基站的位置特征和测量者的上报信息等。
目的也比较开放:例如分析全球手机基站的空间分布特征、例如本文中的某个城市基站分布等。你可以随意发挥
ok,开始正文...
数据准备
全部数据集表示全球手机基站数据,大概有 3GB 左右,数据稍大,高于16GB 内存的电脑可以尝试一次性读入,否则建议分块
提供一段分段读取的参考代码:
# 分块读取,每次读取20W行
df_iterator = pd.read_csv(filepath, chunksize=200000)
df_data = pd.DataFrame()
for chunk in df_iterator:
# 在此可以对每一个块的数据进行处理,减少计算量
# 代码已忽略
df_data = df_data.append(chunk)
df_data
获取到数据大概如下:
一共 43285363 条数据,14 个特征,分别表示基站的位置特征和测量者的上报信息等
字段特征代表的意思如下:
因为本文的思路主要是针对 中国的基站数据进行分析,所以需要从中进行筛选。
而字段 MCC 表示的是移动国家号码,由3位数字组成,唯一地识别移动用户所属的国家。例如:中国是 460。
常见的像中国移动就是 46000、46002,中国联通是 46001,中国电信是 46003 等等,还有很多没有列举出来,贴一张图大家自己看:
筛选出中国的基站数据:
# 筛选出中国的基站数据
df_data_China = df_data[df_data['mcc'] == 460]
一共 877417 条数据,也是我们今天要分析的原始数据
开始分析
数据字段比较有限,因为不了解测量者上报数据的原理,所以有用的信息只有 lat、lon和 radio,对应的是基站的经纬度和网络制式
对于网络制式,在数据中有这么几个值:
其中 2G 基站的数量最多,其次是 4G,而 5G 基站数量为0,CDMA是18个
有一个很重要的题外话,5G 在我国已经商用了,这个数据存在很大的缺失
所以对于后面的分析结果大家抱有谨慎的心态去看
让我求证了三次的也正是在这个 CDMA 上,不敢兴趣的可以跳过下面这一小段,主要目的是为了说明:在数据分析中,对于数据字段的理解一定要准确
首先,是 CDMA 作为我国电信在2G上的使用标准,区别于 2G 和 3G,可以作为 2.5G 其次,发现在国际上,对于全球网络制式来说,CDMA 更多的是表示区别于2G的一个3G标准,是可以作为3G UMTS 的一个子集,所以归为 3G 最后,在求证同事之后,他给我看了两张图,最终确定 CDMA 归为 2G
有一本名为《WCDMA关键技术(第二版)》的书,算是业界比较知名的一本书,书上是这样写的:
所以,还是按照书上的,将 CDMA 归为 2G 时代。
因为 CDMA 的样本数确实很少,在本次项目中当做异常值处理也行,不会影响啥。
全国基站分布
首先先来看全国的 2G、3G、4G 基站的分布
可以看到 2G 网络的覆盖面积较广,基本上有 3、4G 网络覆盖的地方就有 2G 基站,另外在左上角的新疆地区,2G和3G插花出现,以弥补网络覆盖不足。
特别是发展到了现在已经是 5G 时代,2G 更多的是用来承载语音业务(个别城市除外),对应的用户语音的最大需求就是:覆盖
当你把这张图横着看的时候,可以发现各个区域不同网络的覆盖程度:
可以看到 2G 网络的在中部地区覆盖比较多,长三角地区的 4G 覆盖更占优势,珠三角地区的 3G 覆盖更好些。
海南是个例外,2G 网络覆盖大大高于3G、4G
此处应该有一段合理的怀疑,需要进一步验证数据源头是否准确、及时
对应的全国的 234G 基站覆盖情况可以分别看一下具体地理分布:
2G:
覆盖较广,属于最早期的网络,目前有部分城市已经开始弃用2G,开始用3G承载语音业务
3G:
有几个中心区域值得关注,珠三角、长三角、京津地区
4G:
4G目前算是主流,毕竟5G只是在部分城市覆盖比较好
中国的5G建设在全球都是处于领先地位,数据显示中国没有5G基站
具体城市分析
上面是中国整体的一个基站地理分析,接下来单独看一下深圳的分布情况,想必应该会有不一样的感官
先来看深圳的 2、3、4G分布情况:
黄色的 2G 基站仍旧占据多数,在各大道路(高速、高铁)等都有覆盖,红色的 3G 基站数量略少,黑色的 4G 基站在景区(右下角西涌海岸最明显)等位置都做了覆盖增强,将原来 2G 没覆盖到的地方做了一些增补
最明显的感受就是:在有些区域,可能你打电话不太行,但是上网却是没啥问题的。
图中有少许点是打在海里面,可能是经纬度需要转换,也有可能是数据源有问题
将2G、3G基站的分布做一个对比分析:
基本上是有 3G 的地方就有 2G,部分区域用 3G 进行覆盖增强
将 3G、4G基站的分布做一个对比分析:
深圳的 4G 覆盖其实整体还行,从图中可以看出,相比 3G 基站的分布已经密集了很多,特别是在道路上已经加强了很多
如果你是在深圳开往其他省的高铁或者大巴上,可能出了深圳之后,上网会突然变差,刷视频、玩游戏什么的可能都会变卡
另外,对于景区,4G 也新增了很多基站,只要你不是去城中村、高楼那种密集区域,想必在深圳的网络体验都还行
最后,看一下 2G、4G的基站分布情况:
整体来说,还是 2G 会多很多
这个就更让我怀疑数据了,在现在的深圳不太会是这个结果。
盲猜数据不是最新的,最起码不是近一年的
总结
部分数据有问题,在前面都已经说过,所以本文的结论大家稍微带点怀疑的眼光去看
对于中国的整体基站分布,特别是对于某个城市的的分析,还需要结合这个城市的具体情况,例如:新疆地域辽阔、深圳高楼密集城中村较多等,对于具体的网络建设有很大的影响
唯一可以肯定的是:时代的脚步一直在前进,2G时代也终究会被3G取代,4G、5G 甚至到后面的 6G 等,网络的更新终究会随着时代的前进而滚滚向前
就像现在已经很少有人用 2G 上网,打电话也有很多用户使用 VoLTE了。
往期文章
我是小一,坚持向暮光所走的人,终将成为耀眼的存在!
期待你的 三连!我们下节见