查看原文
其他

您没想到的,公民身份证号能直接用于数据分析?

冯海文 数据工匠俱乐部 2021-10-15

引言

身份证号是中国人都有、中国人才有的东西,真正的中国特色!公民身份证号终生不变!记录身份证号是实名化的基本要求,存款、买房、购车、乘飞机、坐高铁、买电话、住店、入学、入会等登记身份证号的地方越来越多,有条件基于身份证号进行分析的企业也是越来越多。

身份证号蕴含很多信息

中国的软件开发人员、数据分析人员都有必要深入研究并充分利用身份证号,为改进业务系统和业务提供帮助。

先看一看身份证的样证,其中的身份证号有编码规律,尽管有15位和18位的区别,但蕴含了很多有用的信息。

身份证号可以为分析助力

身份证号中蕴含可以提取的信息包括籍贯、年龄、性别、出生日期、星座等信息。

2.1籍贯(拥有人的出生地)

第一、二位表示省(自治区、直辖市、特别行政区),例如:11-北京、12-天津、31-上海、32-江苏等。

第三、四位表示市(地级市、自治州、地区、盟及直辖市所属区和县的汇总码)。其中,01-20,51-70表示地级市;21-50表示地区(自治州、盟)。

第五、六位表示县(区、县级市、旗)。01-18表示地级市、自治州、地区、盟辖县级市;21-80表示县(旗);81-99表示省直辖县级行政单位。

2.2年龄

按生日计算准确的年龄,生日前后求得的年龄不同,因此预先通过身份证号抽取计算的年龄可能不准确。

2.3性别

18位身份证号中的第17位数字表示性别,奇数为男、偶数为女。

2.4出生日期

1)18位身份证号中的第7位开始8位数字为出生年月日,如19781027表示1978年10月27日出生。

2)未来n至m天是否过生日。

3)距离下次过生日的天数(生日提醒倒计时)。

2.5星座

出生的月份和日期决定了星座,如下对照表所示。

从身份证号提取信息的用途

1)用于数据过滤,如只提取狮子座的人员。

2)用于观察视角,如从籍贯的角度分析数据,看看来自地震灾区的人员有无异常行为,是否需要投入更多关爱。

身份证号利用现状与不足

当下不论大数据平台亦或商业智能系统,凡是有身份证号数据的,都还是处理和利用了一些,但大都是在ETL的过程中从身份证号数据中提取、计算出性别、年龄字段。另外,在以下几个方面存在不足:

4.1信息浪费

像星座、籍贯对于向上销售、交叉销售、客户维挽帮助非常大,弃之不用着实可惜!

4.2数据不准确

身份证号属于客户资料,数据仓库理论上归为缓慢变化数据范畴,通常一个月更新一次,因此年龄、性别每月只有一次计算机会。性别问题不大,但年龄就不准确了。准确的年龄增长不是发生在元旦或月初那天,尽管也有人是在那天真正增加年龄,准确的年龄增长是发生在过生日的那天,不论是谁!因此,每天都有人过生日的,前一天计算出来的年龄都不一定对,何况一个月才计算一次呢。

4.3丧生衍生数据的计算机会

比如在客户过生日的前1天送蛋糕、鲜花会极大地感动客户,增加客户的忠诚度。但如果不利用身份证中的出生日期,你就拿不准哪天才是客户生日的前1天,这个营销、维挽的手段就不能用。

存在不足的根本原因还是在预置,而预置又没法考虑的未来的需要,如此就把数据的价值、潜力大打折扣了。

细细想来让大数据平台、商业智能系统直接用身份证号来做过滤限制,来做维度进行分析确实勉为其难。因为身份证号是个不定长的字符串,有特定的编码逻辑,又蕴含多项数据,也算是非结构化数据,先解析再利用合情合理、无可厚非。

身份证号类数据的直接利用

身份证号是大数据平台、商业智能系统先解析再利用的确无可厚非,但导致数据不准确、系统不灵活也是不争的事实。如今非结构化数据越来越多,比如在运营商的数据中除了身份证号外,还有手机号、住址、日期等。

或许你从没考虑过利用手机号做数据过滤限制和分析维度,即使你不认为1390的机主非富即贵,但你也绝对否认不了1390和153以及0105开头电话号码的巨大价值差异!进一步对于号码尾号AAAA、AABB、ABAB、ABCD的价值指示呢?另一个事实就是北京机动车尾号逢3、8限行时交通畅通,而逢4、9限行时就比较拥堵。电话号码、汽车牌号都是很好的过滤限制及分析视角数据。

单位地址、家庭住址、送货地址是一个不定长的字符串,也是非结构化数据。其中包含省、区、县、乡等多级别地域指示,而且很容易和GIS结合起来,也可以用做分级进行数据过滤、分析的好数据。

估计你不太认同日期是非结构化数据,理由是系统存储的是自1970年1月1日零时到特定时间点的秒数,一个整型数,结构化的。是的,但是这个结构化数据必须得当做非结构化数据来对待和处理,因为任何页面呈现的日期都不是一个整数,而是诸如年月日时分秒的形式,分析时也常有年季月周日的粒度差别。恰恰是非结构化了的日期启发了我们像身份证号、手机号、地址以及未能在这里一一尽述的非结构化数据的处理方法,不需要再找借口回避,可以让系统不经过预处理,让原始、新鲜的非结构化数据直接应用于数据的过滤和分析。

举例我们研发即席查询工具产品Hermes Analyzer对于身份证号的直接应用:

5.1标题直接利用身份证证号进行数据的过滤限制

进行过滤限制时,可以同时设定出生地、出生月份、星座、性别及年龄区间等多个过滤条件。

5.2标直接利用身份证号进行分析

身份证号维度具有出生地、出生月、星座、性别及年龄共5个观察视角,其中的一个是缺省分析视角,还可以动态切换分析视角为出生地、出生月、星座、年龄。

身份证号分析角度动态调整时,显示数据量堆积图启发当前数据的构成情况。

直接应用于数据过滤和分析只举身份证号这一个例子,其他如地址、电话号码、日期、多级维度也是类似,这里不一一赘述。

结束语

只有想不到,没有做不到!本文已探讨了身份证号码如何不经预先解析而直接运用到过滤限制及分析上,让我们一起努力让所有的大数据平台、商业智能系统支持非结构化数据直接利用!

作者简介

冯海文,具有20年的数据仓库、BI系统规划、建设经验。设计并主持研发分布式的分析型内存数据库产品和即席查询分析工具。擅长高吞吐率和低延时的高性能计算应用设计及开发。曾经设计、搭建中国移动第一个数据仓库系统,为北京、上海、浙江、山东、四川、辽宁、吉林等16家移动公司的经营分析系统设计数据存储模型、搭建数据仓库,实现ETL,查证解决并保证数据质量,开发可视化的分析应用,建成数据仓库系统。丰富数据模型设计及评估经验。



联系我们

扫描二维码关注我们


微信:DaasCai

邮箱:ccjiu@163.com

QQ:3365722008

热门文章


单位及居民11种常见证件的编码规则集锦(建议收藏)


主数据标准化项目阶段划分、实施难点及应对措施经验分享


大礼包:数据从业者须知的5份数据管理领域指导性文档(内附下载链接)


单位类(法人及组织机构)主数据建设思路及案例分享


数说 • 大数据项目建设误区

我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。

我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。

我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。

了解更多精彩内容


长按,识别二维码,关注我们吧!

数据工匠俱乐部

微信号:zgsjgjjlb

专注数据治理,推动大数据发展。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存