一个数据玩家的自我修养
其他
一图理解我国数据安全监管框架
点击上方蓝字关注数据玩家个人信息、个人数据、个人隐私、个人行为数据,到底有啥区别?企业数据、平台数据、公共数据到底是什么关系?数据分级分类具体要做什么?民法典、个人信息保护法、数据安全法、网络安全法,甚至国家安全法,分别监管哪类数据?相信大家也经常听到以上名词,但是总感觉难以清晰的梳理其边界和关系。本文思路来源于之前流传的某份会议纪要中某专家的看法,增加了一些我自己的理解,希望能够帮助大家梳理清楚这些概念。先看个人信息和数据。个人信息和个人数据基本上是等价的概念,此处不再赘述,以下均用个人信息指代。而个人隐私和个人行为数据显然又是包含在个人信息中的。其中,个人隐私,在民法典和个人信息保护法中的表述又不尽相同,分别叫私密信息和敏感个人信息,两者并不能完全等同。
2021年8月2日
其他
假设滴滴们的数据真的泄露出去了,能推断出什么信息?
滴滴最近过得不怎么样。先是《网络安全审查法》第一个开刀的对象,接着又是App被下架。“为了上市卖数据”的传闻也是不绝于耳。再然后,美国律所对滴滴发起集体诉讼,不过这也是常规操作,前面的一连串事件导致的连锁反应而已。同时,满帮集团、BOSS直聘也被列为《网络安全审查法》实施的对象。在调查结果出来之前,我们不妄自揣测,到底卖没卖数据,调查结束后自会知晓。假设,上述企业的数据被拿到了,我们能基于这些数据推断出什么信息呢?我们先来看看网上炒得沸沸扬扬的测绘数据以及道路信息。为了安全起见,国内的GPS对外采用的是火星坐标系(GCJ-02坐标),而世界通用的是WGS-84坐标,所以,以前我们在Google
2021年7月6日
其他
南山必胜客又赢了,好友关系到底算不算个人隐私?
不点蓝字,我们哪来故事?最近有几个和腾讯有关的事件,我们先来捋一捋:2月2日,抖音向北京知识产权法院正式提交诉状,起诉腾讯垄断,索赔9000万元;同日,腾讯回应:字节跳动恶意构陷,将起诉对方违法侵权;接着,抖音发表声明:用户对珊瑚礁具有绝对权力,不应成为腾讯【私产】最后,是另一起诉讼,是用户起诉腾讯的案件先来看最后这个案子。是的,南山必胜客又双叒叕赢了。据媒体报道,2021年1月22日,深圳市南山区人民法院对一起用户起诉腾讯的侵权纠纷案作出判决,明确微信好友关系不属于个人隐私。
2021年2月5日
其他
为什么诈骗短信看起来都那么蠢?为什么贷款广告看起来都那么俗?
点击上方蓝字关注我们诈骗短信大家一定不陌生,花样很多,但是都有一个共同特点:蠢骗子真的是傻吗,发这种短信谁会信?还冒着违法的风险,大面积的发,能骗到钱?其实反过来想,到底是什么样的利益,能够让骗子们冒着违法的风险,发这种看起来这么蠢的短信呢?机器学习中有一个评价分类器准确度的工具,叫做混淆矩阵,听起来高大上,其实很简单,它有四个指标:1.
2021年1月15日
其他
数据仓库、数据集市、数据湖、数据中台到底有什么区别?都得做吗?
点击上方蓝字关注数据玩家经常看到有人问这个问题,数据玩家也看过很多解释,感觉都不够直观,这里,我尝试用一个大家都理解的例子来说明。什么是数据仓库?大家都去宜家买过东西吧,还记得一楼的大仓库不,你如果看中了某个家具,想要自己去仓库提货,一般都会记下商品上的编码:这个编码对于顾客来说,肯定是没有任何含义的,看到这个编码,不可能知道他是一个什么商品。但是这个编码,对于仓库管理员来说是有含义的,他们可以清楚的知道,是哪一个货架,哪一个位置。当然,顾客到仓库里顺着货架和位置也可以找到商品,但是总归不太直观,挑选的过程还是得在楼上进行。因此数据仓库就相当于宜家的一楼仓库,在这里,数据(家具)按照特定的模型,如FS-LDM等(货架-位置)组织起来,这种模型,对于顾客(业务人员,数据最终用户)是不友好的,但是对于科技人员(仓库管理员,宜家员工)来说相对友好,因为他按照一种更加集约化的规则将数据(家具)管理起来了,存放集中、规整,提取数据(提货)不用跨库(货仓)寻找,查找的效率更加高。那什么是数据集市呢?还是用这个例子,上文提到,数据仓库对业务人员不是很友好,同样,你总不能让顾客直接逛仓库吧?顾客的需求,是按照家具的种类分门别类,按照家庭的不同房间,组合在一起展示的,正如宜家楼上的展厅:图片来自:https://factualfacts.com虽然也被吐槽像迷宫一样,但是总的来说,购物体验肯定比逛仓库来得好多了。所以,数据集市就像宜家楼上的展厅,正如其名字“集市”一样,是一个面向最终用户(顾客)的数据市场,在这里,数据(家具)以一种更加容易被业务人员(顾客)接受的方式组合在一起,这些组合方式可能是多变的,因为业务人员(顾客)的需求是多变的,因此我们需要定期调整集市的计算口径(展厅的陈列方式),经常会创建新的数据集市(装修新的展厅)。数据仓库和集市的概念理解了,其他一些相关问题也就迎刃而解,比如为什么有了数据仓库还要建数据集市?等等。那什么是数据湖呢?数据湖至今仍然没有一个特别标准的概念,各种概念中,比较统一的一点是数据湖存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。数据玩家仍然尝试用上面的例子来解释。大家都知道,宜家的家具是需要自己组装的,所以宜家的顾客们都有一些动手能力,他们突发奇想,所有的家具能不能全部拆散成零部件存放,由顾客们根据实际需要挑选零部件自行拼装?所以,数据湖就是一个存储了所有企业内原始数据(家具零部件)的存储,这就带来一系列问题,加工后数据的存储已经非常复杂,原始数据则依赖更多的管理功能,不然数据又多又杂难以管理,数据湖会退化为数据沼泽。此外,原始数据如果缺少统一的数据标准,就像不同的家具零部件之间的接口不同,那就无法组装在一起了。因此,数据湖必须有完善的数据管理功能,也依赖于统一的数据标准和良好的数据质量管理。那什么又是数据中台呢?数据中台也没有一个特别明确的定义,这里很难套用宜家的例子强行解释了,我们来看下各类数据平台:在我们传统的数据应用中,随着数据对于业务友好度的增加,其时效性也在减弱。而我们的目标,显然是数据又快又好。既然各部门的需求都不一样,为何不让业务自助分析数据呢?于是我们有了右上角的目标状态。但是这个理想状态和我们现在的数据应用中间有巨大的空隙,靠什么来填补?答案就是数据中台。我们可以将其分为狭义的数据中台和广义的数据中台。狭义的数据中台,指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等等,底层则以现有的数仓、大数据平台等为数据源,为企业提供数据资产管理的能力,并持续挖掘数据价值,持续提供数据智能服务。广义的数据中台,则在狭义的数据中台基础之上,包含了顶层数据战略,数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑,是一套持续管理和运营的体系。可以这么说,狭义的数据中台,是专为达成数据中台的使命而打造,一类是让数据更快的处理、整合、加工,比如分布式ETL工具。随着传统数据被大数据平台逐步替代,ETL工具对于大数据平台的适配也需要与时俱进,支持分布式计算、弹性计算,并且减少开发量。另一类是让数据更好的产生业务价值,比如数据标签管理,自助分析平台等。数据标签大家都在用,但是真正深度使用的企业都会感觉:建好容易用好难,如果没有一套标签管理系统,标签是否重复加工,标签的使用率、准确性等都无从掌控,业务部门想要针对近期营销活动新建一个标签,还得走开发流程,时效性也难以保证。数据标签管理系统就是为了解决数据标签的使用问题而建立。自助分析平台则是方便业务人员自助进行数据分析、加工、探索的平台,它与数据沙箱结合,直接将去隐私化的生产数据提供业务人员分析,使数据更快的产生价值,支撑关键决策。广义的数据中台,则是辅助狭义数据中台达成使命的机制,虽然看起来都很“虚”,但是却是数据中台成功落地的必要保障。那所有这些都必须做吗?这个问题要看具体的企业情况,总的来说,一个大原则是以满足业务发展为第一优先,不要为了做基础设施而做基础设施,一定要以能解决业务诉求为最终目的。《人月神话》里早就宣告了银弹不存在,自然,数据仓库、数据集市、数据湖、数据中台都不是银弹,千万不能以为做了他们就水到渠成,数字化转型就自动完成了。简言之,用了一系列时髦的新技术不见得就是数字化领军企业,不用也不见得就是古典互联网时代的落后作坊。关键是认清自身的数字化现状,拟定数字化目标,制定数字化路径,优选场景,实现价值。新技术、各类数据基础设施只是这条道路上,一套套切实可行的行动方案,是把过去银行的种种数字化的尝试,重新以体系化、结构化的方法论梳理,并且赋予当下最新的技术架构予以实施。
2020年8月19日
其他
花呗上征信了,会影响个人信用吗?房贷车贷会不会批不下来?
点击上方蓝字关注数据玩家本文源于在知乎的一篇回答,主要面向非金融从业者,各位金融行业大咖轻拍。先回答几个大家最关心的问题:怎么判断我的花呗是不是上了征信?看花呗->我的->相关合同及产品说明,如果有这一条:那就是上了征信,没有就是没上,《个人授信相关合同》并不是上征信的授权协议。上征信会不会影响信用?这里隐含两个概念,要分开看待:征信记录逾期记录所有与金融机构产生借贷关系的,都会产生征信记录,但是有征信记录并不一定是坏事,除了房贷车贷这种强抵押贷款,信用记录可以帮助银行更好的评估你的还款能力和意愿。当然,凡事有个度,如果在很多平台借款,导致征信出现很多借贷记录,也就是所谓征信“花了”,这会影响银行对你还款能力的评估(哪怕你每个都按时还款),收入-负债可能无法覆盖你的房贷每月还款额,这样的话首付比例就必须增加。大致来看,银行对于一个客户的风险判断(随意分了几类,仅供参考):白户:完全无法判断信用,依靠辅助材料可以办理线下或强抵押的贷款;短户(信用记录较短、较少):强于白户,可以给小额短期信用贷,可以办理线下或强抵押贷款;正常户(少量信用卡,少量小额贷,无逾期):次优客户,可以给小额长期信用贷,可以办理线下或强抵押贷款;优质户(3-5张信用卡,有白金卡,额度高,月均账单金额不高,少量小额贷,额度高,均已结清,1-3次逾期,不超过30天,均已还清):优质客户,信用卡额度反映了其收入情况,逾期仍还清,说明还款意愿强,且创造了罚息的利润,属于对银行来说价值最高的客户,Capital
2020年7月31日
其他
央视315晚会曝光的这个SDK,到底在偷偷干什么?
点击上方蓝字关注数据玩家315晚会推迟了这么久,终于在7月16日播出,话不多说,直接进入正题。先说下移动端SDK采集数据的行业生态。这个行业最初的玩家,是TalkingData,现在规模也是他们最大,最开始他们的想法也很简单,就是把SDK嵌入在客户的App里,通过帮助分析App的用户行为,启动时间,设备类型,帮助客户优化App的运营。打个最简单的比方,客户总是在晚上20:00-21:00打开某个App,那么这款App应该把最核心的内容在这个时间段做推送。你说这个数据,App自己不是很清楚吗,为什么要第三方公司来做个App告诉他?知道,当然知道,只不过这个数据隐藏在App的日志里,需要去清洗、挖掘出来,那时候还没有多少公司有这个能力,而且数据拿出来了,还要做加工、分析,最终形成仪表盘,指导产品运营,这一整套的东西TD都可以提供,就这么做大了,进入了非常多的App内部。覆盖了很多App以后他们发现,他们收集的数据非常非常多,可以看出整个移动互联网的发展趋势了,于是开始做数据变现。怎么变现呢?第一步,先加密存储,所有的数据采集以后都是加密的,给你看仪表盘,但是不给看源数据,如果要看源数据,另外收费。第二步,由于他们知道很多App的安装情况,使用情况,同一个手机上可能有多款App有他们的SDK,按照同一套设备指纹算法,他们就知道装了A
2020年7月17日
其他
短信验证码又被劫持,我们的账户到底还安不安全?
点击上方蓝字关注数据玩家最近又出了一起短信嗅探的案件,详情可见:《什么都没干,钱就被转走了!《焦点访谈》曝光“短信嗅探技术”》其实18年就出现了类似的案件,上文也有提及。整个作案过程,简单来说分为三阶段:阶段一:短信嗅探。通过简易组装的设备,干扰附近的手机信号,使其信号降级为2G,在此模式下,可以通过短信嗅探将手机短信劫持,但是要求手机不能移动。听起来很吓人,但是光拿到你的验证码并没有什么用,还需要其他信息才能完成套利。阶段二:信息盗取。要想获利,一般需要手机号,姓名,身份证,银行卡号等四要素信息。获取这些信息又有几种方式,理想状况是通过已有社工库寻找附近手机号的已泄露的信息,也就是说,附近抓到的手机号,以前已经在历次数据泄露事件中被泄露过了,可能包含姓名,手机号,邮箱,密码等,再通过邮箱和密码获取更多的信息,这个过程也可以叫做社工。当然,一般情况下,不会这么理想,只能通过短信验证码,不断地尝试获取其他信息,如忘记密码/重置密码,忘记卡号等等。上面讲了这么多社工,其实都是指“社会工程学”这个词本来是美国顶尖白帽提出来的,指的是通过欺骗手段套取被害人主动提供敏感信息。发展到今天,通常意义上的电信诈骗和各类欺诈都可以归为此类。阶段三:套现获利。这年头,没人直接转账了,转了账就有目标账户,不管转几次,在银行系统内都可以追踪,而且总要取现,根据取现ATM地址顺藤摸瓜就会找到黑产的地址,然后人赃并获。现在通过虚拟商品变现的模式是主流,各种羊毛平台上买家卖家自由交易,各种黄牛负责收集和分发,这些虚拟物品来无影去无踪,可能最后充到千里之外的N个手机号或者视频会员上,难以追查。先重置一下支付密码,购买各类虚拟商品套现,如手机充值、游戏点卡、各类视频会员,统一渠道半夜购买这类商品,肯定会被风控,因此黑产会从多渠道下单。有人说,我卡里没钱啊,怎么购物,你借记卡没钱,信用卡总可以吧,支付密码都改了,想买什么买什么。来源:深圳市反电信网络诈骗中心公众号信用卡高频小额交易会触发银行风控,不着急,还有花呗呢,花呗用完了还有借呗呢,借呗也用完了,还有微粒贷。持牌机构的借完了,还可以去借各种小贷,通过姓名身份证,用黑产工具可以获取到身份证照片,这些小贷通常贷前风控很弱,用PS的照片或者直接把身份证照片抠出来就能过人脸,还别说有的平台不用人脸。FaceApp大家都玩了吗,换脸技术已经炉火纯青网络借贷的便利,给了黑产更大的利润空间,那么我们如何防范呢?如何防范?先来说说金融机构们应该如何防范。有的银行借记卡做了一些安全功能,比如【夜间锁】、【异地锁】,在夜间或者异地是没法动账的,建议各家银行抄作业,特别建议各家银行的信用卡抄作业。另外,整个安全体系需要动态立体的防护,任何一个安全工具都有可能被攻破的情况,因此,在一个完整的交易链路中,不允许一个客户只经过单一要素安全工具就能动账,比如从登录到查询到转账,全部只要几个手机验证码就搞定了。当然,可以根据手机客户端的特征来判断,一个常规登录的低风险设备和用户,并不需要用高安全级别的工具,只有当用户账户特征发生变化的时候,才需要启用高安全级别的工具,并且都要求双因素认证。动态安全策略体系示例再来看看做为个人用户应该怎么防范,前面提到,嗅探是技术上关键的一阶段,但是成功率最低的是社工这一阶段,就是要能够获取你的四要素信息,飞行模式睡觉可以帮你杜绝第一步,但是总有忘记的时候,而且开了飞行模式,真有急事可能还是会影响正常生活。我们看看怎么防住第二步,各类限额注意控制,各类的验证手段能选的不要单选短信验证码,选短信验证码+另一个验证手段的双因素验证手段,各类支付工具里不要绑过多的卡,一张主力信用卡,1-2张借记卡即可。另外就是注意个人信息的保护了,这些在之前的隐私系列里有比较详细的论述,感兴趣的朋友可以看历史文章。总的来说,不必太慌张,但是一定要重视。相关阅读让更多人注意防范新型欺诈
2020年6月24日
其他
《个人信息安全规范》新旧版逐条比对、解读 | 附PDF(草案)版
当产品或服务提供多项需收集个人信息的业务功能时,个人信息控制者不应违背个人信息主体的自主意愿,强迫个人信息主体接受产品或服务所提供的业务功能及相应的个人信息收集请求。对个人信息控制者的要求包括:
2020年3月8日
其他
黑客通过这个方法绕过人脸识别,银行二三类户开户到底有多少风险?
这一点厦门银行应该还是做了,裁判文书显示,黑客于2019年1月5日至1月15日期间开了76个账户,应该是监控到了才报的警,因此日常的监控也很重要,有些漏洞是没法提前想到的,只能通过监控来查漏补缺。
2020年3月6日
其他
原创 | 房奴们好纠结,到底选LPR还是固定利率,八月底前要决定,你选好了吗?
点击上方蓝字关注数据玩家着急的同学直接看最后一节结论部分。相关概念我就不再普及了,介绍下现在主流的三种思路:1.
2020年3月1日
其他
原创 | 新技术加速隐私暴露,如何应对?(四)《个人金融信息保护技术规范》影响几何?
哪怕自身数据来源合法合规,只要给套路贷提供服务,就难逃干系。有钱就是大爷的时代结束了,刀口舔血的日子也不复存在,稳健合规是今后的第一顺位,没有这个“1”,后面再多的“0”也白搭。
2020年2月21日
其他
原创 | 疫情与数据,采集不准确,分析无意义
我们从南方周末的文章中也可以看出,除湖北外的省份,由于医疗资源相对宽裕,对于疑似的患者,也是要求隔离收治的。湖北省内由于医疗资源,特别是床位的瓶颈,在早期难以收治疑似病患,导致疫情持续扩散。
2020年2月8日
其他
原创 | 疫情与数据,为什么都2020年了,找乘客还要通过发帖?
谣言造成的危害很大,会让恐慌情绪蔓延,让本来不需要去医院的人涌向发热门诊,造成医疗资源紧张,交叉感染,进而增加一线医疗人员压力,使得真正需要救助的人得不到救助等等一系列连锁反应。
2020年1月26日
其他
新技术加速隐私暴露,如何应对?(三)
是的,有些平台为了快速冲量,短信验证码都不验,甚至平台的市场部或者运营部关键岗位和黑产勾结,让黑产用买来的四要素帮平台冲量,黑产赚取营销费用,市场运营完成KPI,投资人看到高增长,皆大欢喜。
2019年11月5日
其他
新技术加速隐私暴露,如何应对?(二)
网络爬虫技术并不是一个新技术,最初是搜索引擎用来抓取散落在因特网上的海量网站,解析后为用户提供搜索服务的一种技术,本质上是模拟浏览器浏览网页的行为,用程序获取网页上展示(或隐藏)的数据。Web
2019年10月15日
其他
新技术加速隐私暴露,如何应对?(一)
https://www.fidelissecurity.com/threatgeek/threat-intelligence/open-hadoop-installs-wiped-worldwide
2019年10月9日
其他
用“我和微信的故事”统计微信用户增长情况
这个样式很熟悉吧,对,这是余额宝的收益曲线,7月13日——7月14日收益只上涨了0.03%左右,结果曲线上涨这么多,这就是纵坐标设置不合理。所以看图不能只看曲线,要看看横纵坐标轴再判断。
2016年6月11日
其他
面对百度的医疗类竞价排名和推广链接,一个程序员,能做点什么。
后记,在我编辑好本文准备发送的时候,我发现百度搜索淋巴瘤结果已经变了,大家可以搜索对比下稳重的截图,还好有截图留证。看来这几天百度的程序员们也不好过,一直在擦屁股,不开心的话不如早点跳出来如何?
2016年5月2日