假设滴滴们的数据真的泄露出去了,能推断出什么信息?
滴滴最近过得不怎么样。
先是《网络安全审查法》第一个开刀的对象,接着又是App被下架。
“为了上市卖数据”的传闻也是不绝于耳。
再然后,美国律所对滴滴发起集体诉讼,不过这也是常规操作,前面的一连串事件导致的连锁反应而已。
同时,满帮集团、BOSS直聘也被列为《网络安全审查法》实施的对象。
在调查结果出来之前,我们不妄自揣测,到底卖没卖数据,调查结束后自会知晓。
假设,上述企业的数据被拿到了,我们能基于这些数据推断出什么信息呢?
我们先来看看网上炒得沸沸扬扬的测绘数据以及道路信息。
为了安全起见,国内的GPS对外采用的是火星坐标系(GCJ-02坐标),而世界通用的是WGS-84坐标,所以,以前我们在Google Map上看国内地图都会发现偏移的现象:
不过,这是很久以前了,Google Map现在已经纠偏:
其实不难,既然两个坐标系都是公开的,那么必然存在算法在两种坐标系之间进行转换,比如这个开源项目:
https://github.com/googollee/eviltransform
根据项目描述,输出的WGS-84坐标精度可达0.5米。
也就是说,不用滴滴的数据,也能通过公开的卫星地图等信息,利用算法进行纠偏。
照这么说,滴滴的数据一点影响也没有?那监管查他干嘛?
别急,我们继续往下看。
一方面,坐标的转换可能会有误差,滴滴的GPS可以用来校准,当然,这个误差其实很小;
(看到这里,有人会问,那么那些外国间谍跑到国内来非法测绘干嘛呢?有卫星图不就OK了。
首先,当然是做地面的GPS校准,另外,最关键的,是他们通过其他情报和观察进出车辆等,确定了这个设施的用途。)
另一方面,最主要的,拿到了地图,其实并不知道地图上的建筑物是干什么用的。
比如,这个建筑物,我以前上班天天路过,地图没有名称,门口没有任何标识,但是一般人不让进,从卫星图看内部还挺气派的。
通常,涉及国家安全的建筑物,通常不会在地图上标识出具体的名称,比如有些核工业研究所,在地下,有些军事用途的设施,在山区。
拿到960万平方公里的地图,完全无从排查“关键”建筑物。
那么,拿到滴滴的数据,能怎么识别它呢?
这是第一届开放数据创新应用大赛(SODA)的部分数据,来自出租车的定位数据,还包含定位的具体时间,基于这些数据,当时做了个简单的可视化:
有了人的行程数据,特别是再加上时序,在特定时间点的行程数据,我们就可以推导出非常多的信息。
比如,一个人经常往返于国防科技大学和某个建筑物,并且把那个建筑物的地址,备注为“基地”
比如,一个人经常往返于某发射基地和某建筑物,并且把那个建筑物的地址,备注为“工厂”;
滴滴研究院监测国家部委出行规律那个大家也都看了:
诸如此类,大家可以举出无穷的例子,利用已知推导出疑似的未知,这会暴露很多涉及国家安全的基础设施,还会暴露很多涉及国家安全的人物。
这,才是滴滴数据最大的“用途”。
我们只能寄希望于,涉密人士,通常自有车辆,或者有专门车辆接送,没用过滴滴。至少,从现在开始,不能用滴滴了。
当然,最好是滴滴没有泄密,但是,我们承担不起这个万一。
再来看看另外几家:
据满帮集团数据,截至2020年底,其平台认证司机超过1000万,认证货主超过500万,一头连着约3000万名的货运司机,一头连着数百亿吨位的商品货物。
交通运输部数据显示,疫情前的2019年,全行业有1088万辆货车,完成营业性货运量344亿吨,占全社会货运总量的74%,每辆货车每日平均行驶190公里,每吨货物的运输距离平均为177公里,公路货运成为中国物流最重要的支撑。
如果说,滴滴掌握了全国的客运数据,那满帮就掌握了全国的货运数据,而且包含大量的跨省道路数据;
如果说,滴滴掌握了全国城区的道路数据,那满帮就掌握了全国县域和高速网络的道路数据。
虽然量级有差别,但是通过上面的思路,一样可以成为推理关键设施的数据源。
8580万求职者,1300万企业,其中630万是认证过的。
通过这些数据,我们可以知道,中国的高科技企业,需要什么技能?涉及网络安全的技能有哪些?是不是当前最新的?哪些技能获得的薪水更高?中国的求职者,普遍掌握了什么技能?不同细分行业的平均薪水是多少?
互联网巨头们第一次意识到,网络安全、国家安全,真的可能让自己关门,安全合规是最前面那个1,后面再多0没有1都是摆设。
数据安全法已经过审,《深圳经济特区数据条例》也已落地,《上海数据安全条例》也在拟定之中,合规成本越来越高,因为我们的企业产生的数据价值越来越高了。
为了让资方顺利套现,选择美股上市,就得付出相应的代价,付出额外的合规成本,独角兽们再算算账,美股IPO还划算吗?
港股和大A欢迎你们。