DPI大数据之战,运营商的艰难抉择
点击上方
阅读本文前,请您先点击本文标题下面的蓝色字体“与数据同行”再点击“关注”,这样您就可以分享一个大数据从业者的真实数据生活,独家数据观点!
在移动互联网时代,上网用户和应用的所有行为原始数据都在网络管道中遵循一定的协议以二进制码进行传输,运营商要让这些数据产生真正价值,必须对这些二进制码进行解密,将其还原到本来的业务含义,才能真正理解移动互联网的所有行为,这是运营商移动互联网大数据的经营基础。
运营商解开这个秘密的钥匙,我们把它叫做DPI(Deep Packet Inspection),学名深度包解析,DPI建设是个极其复杂的过程,因为这涉及到运营商、应用商、设备商等的博弈,涉及到行业规则的制定,也涉及到运营商核心能力自我掌控更深次的东西,这里我来谈谈自己的看法,希望能给予业界一些启示。
DPI涉及互联网的一些基础知识,笔者希望深入浅出的先把这个概念说清楚,这是后续理解我观点的基础,不要跳着看哦,很重要。
Part 1
基础知识
网络协议的意义
就象世界各个国家的人说各自的语言,要实现沟通则都需要说同一种语言,协议是互联网的世界语,确立了各类网络和终端之间能够进行互相通信的规则。
TCP/IP是互联网基础协议
TCP/IP则是移动互联网通信的世界语,其自下而上包括了四个层次,每层都有对应的协议,这些协议都定义了特定的通信功能,每层都为上层提供服务。
应用基于协议进行数据通信
客户机和服务器是指通信中所涉及的两个应用进程的主机,客户是服务请求方,服务器是服务提供方,应用数据基于协议要求逐层生成数据包,以请求-响应的模式将数据比特流送入网络,当前我们通过移动互联网的APP的通信原理不会跳出这个框架。
协议数据包中蕴含着丰富的信息
如果能截获网络中的帧比特流,然后对协议进行逐层解析,就可以从IP首部、TCP首部、甚至应用数据中发现各类有价值信息,理论上,所有的用户上网行为都可以通过协议的解析而破解(当然,基本是不可能的,应用商对于敏感的个人沟通信息做了加密,大家不要怕)。
应用层协议复杂多样
通过对目前主流的五大类应用进行深入分析研究,发现当前移动互联网应用实际所采用的应用层协议存在不公开、交叉多、变化大等特点,这里举例子,仅作抛砖引玉:
Part 2
什么是DPI
DPI(Deep Packet Inspection)深度包检测技术是一种基于应用层的流量检测和控制技术, 是当前主流的协议识别技术,当数据流通过基于DPI技术的带宽管理系统时,通过深度分析协议的特征来识别其业务类型和特征。
以下列出了六种主要识别方法:
为了便于了解各种识别方法的原理,以下示例了特征字识别、URL匹配和IP地址匹配三种方法:
特征字识别
以下是经我们研究发现的用于识别协议的特征字,例如HTTP协议中包含了GET、POST、PUT等特征字。
URL匹配
IP地址匹配
Part 3
DPI的价值
业务识别是实现网络智能控制(PCC)的关键技术
要实现网络资源的端到端Qos控制,减少资源占用,当前主要采用PCC技术,而其核心是业务识别及策略控制两大能力,运营商需要通过这个技术为用户提供刚好的上网体验。
当前PCC要求能够基于时间、位置、用户、流量及业务等五个方面进行智能策略控制,其中区分业务的策略控制是最核心的一种手段。
业务识别是理解客户互联网偏好行为的前提
理解用户是运营商在移动互联网时代的核心竞争力,通过协议解析可以了解用户访问内容,从而为个性化的客户服务奠定基础,这是整个移动互联网企业孜孜以求的终极目标,谁理解用户,谁就能提供针对性服务,谁就拥有未来。
Part 4
DPI的挑战
大家可以看到,如果没有了DPI,移动运营商的上网数据就是一堆没有任何意义的BIT,因此,在移动互联网时代,掌控DPI对于运营商来说意义重大,但运营商当前面临前所未有的挑战:
DPI设备投资巨大
DPI设备需要部署在流量出口,这就好比要在海量的数据海洋中去根据既定规则检查每个BIT并识别出特征,这个对于设备的处理能力提出了很高的要求,也许只有运营商才能进行如此大的投入,以前由于运营商业务流量的分析统计、不良信息的监测管控、非法业务的发现整治需要,已经部署了大量的这些设备,但如果真要应用在PCC控制及客户行为的精准分析上,实现商业级的应用,其要求跟以往完全不同,DPI面临各省各自为政、标准规范不一、厂家设备能力参差不齐等系列问题,如果运营商全网完整部署这个能力,在未有收益情况下,投资也将是个天文数字,因此,鸡生蛋还是蛋生鸡总是个问题,运营商该何去何从?
解析能力更为致命
当前网上的APP数量应该以百万千万计了吧,而APP的协议基本都是私有协议,也就是APP的协议格式都是不一样的,DPI要能解析,就必须一个个APP去分析和解析,这是一个天文数字的工作量,谁能做,谁敢做?
有很多DPI设备厂商都跳出来说我能解析,概念吹得很好,但当前做的最好的估计也是以万计,解析准确率谁知道,解析深度就跟更无法提了,比如仅仅解析到应用类型,价值才几何呢? 合作伙伴的捆绑,运营商何时才能解脱?
APP应用开发商,在应用开发设计中夹杂的混杂协议,版本更新速度如火箭发射速度一样快,也让解析难度进一步提高,APP应用协议运营商能约束吗?
下图是我几年前总结的一些问题,大家可以看看:
理解客户是把双刃剑
DPI解析了上网行为,目的是理解客户和企业,为其提供更好的服务,但更好的服务也意味着有可能对其它企业和个人降低服务能力,比如为不同等级的客户提供差异化的网络质量,这是否可能违反网络中立原则呢? 比如韩国运营商与OTT曾经有过博弈,最终不了了之,很久以前电信固网曾经采用DPI技术封堵过BT软件,因为这类软件占用了过多带宽,对于正常用户上网产生了极大影响,虽然也不了了之,但争议总是存在。
因此,说DPI大数据是一场运营商要打的艰难战争,毫不为过。
Part 5
解决之道
在移动互联网时代,DPI是运营商面临的众多关键性的抉择的一个,从个人角度讲,建议运营商一定要推进这个工作,但需要有一定的策略。
独立的组织去研发
DPI是个专业性非常高的工作,应该成立专门的公司去做,当前运营商有很多专业公司,也有很多研究机构,应该将DPI设备和知识库的打造纳入到专业公司去做,现在就连一些互联网公司,也在构建APP的解析知识库,我所知道的一些互联网公司每天搞知识库识别的也有几十号人,基于这些知识库已经产生了较大的经济效益,庞大的运营商,甚至没有一只正规的专业团队,的确是落后了,运营商DPI掌控必须以我为主。
当前运营商也在制定DPI的一些标准,我觉得很好,但运营商体系很庞大,规范从制定到宣贯再到执行也是很长时间,在没有足够的实践前制定规范是有风险的,也许小分队的形式更好。
同时,运营商应该建立自己的DPI运营流程,比如很多运营商由于依赖设备合作伙伴,DPI新增APP规则以月计算,其实黄花菜早凉了,互联网公司自己人搞解析,一个月也可以搞个几百上千款啊,其运营效率是很高的。
采取1+N方式进行业务突破
DPI的投资非常大,运营商全网统一完全部署的确困难,同时研发机构脱离了业务驱动也会举步维艰,可以考虑让一些前沿省份牵头去进行业务的突破,在业务推进中去落实DPI设备的投资,去逐步完善DPI的解析能力,同时建立符合自身的运营流程,一方面保证了投资的价值,另一方面也能快速推进,当前移动互联网一日千里,的确时不我待。
制定移动互联网的协议入网标准
这个建议也许会被移动互联网的应用商喷吧,我还是要提一下,当前其实移动互联网环境非常复杂,大量的非法APP肆孽网络,从维护健康的移动互联网环境讲,是否可考虑制定移动互联网APP的入网标准,移动互联网企业发布应用需要进行网络注册,告知协议的规则,就好比企业运营也要注册一样。运营商基于注册的协议进行准确的识别,为网络监管机构追踪非法行为提供支撑,另一方面也可以基于协议的识别为APP提供差异化的网络服务,让移动互联网更透明,从长远讲,我想对于客户是有利的。
DPI是个非常复杂的课题,进行DPI深层次识别理解客户,是为了更好的为客户提供针对性服务,但也是双刃剑不管怎样,运营商需要面向移动互联网,切实走出实践这一步。
如何访问?请关注"与数据同行" 微信公众号,点击历史文章菜单或者右上的按钮-查看历史消息
浙江移动大数据平台践行之路(上)
浙江移动大数据平台践行之路(下)
重读《大数据时代》:关于大数据的再认识
天龙八步:传统企业大数据运营的一些思考
七剑下天山,谈谈我认识的精准营销
涅槃?高效报表开发人员的五件武器
普及、开放与平台:大数据价值运营之路(上)
普及、开放与平台:大数据价值运营之路(中)
普及、开放与平台:大数据价值运营之路(下)
六把武器?谈谈DT时代的大数据资产管理(上)
六把武器?谈谈DT时代的大数据资产管理(下)
邮箱:fuyp@zj.chinamobile.com