查看原文
其他

用户该如何选择一款适合自己的探针设备?(下)

Panabit Panabit
2024-08-06

在上文中,我们详细的介绍了探针的发展历史以及探针的关键技术,文章最后,我们依旧还有两个问题没有解决,如下所示:

1) 面对越来越多的加密流量,如何保持探针的精准识别能力?

2) 保证精准识别率的同时,如何做到探针在大流量场景下的高性能数据转发?

在本篇中,会先针对以上两个问题进行详细解答,我们依次来看。


如何保持超高的应用识别率?

面对目前越来越多的加密流量,原有的DPI或是DFI技术几经不能满足实际需求,目前摆在各个厂商面前的有两种选择,一种是将数据包解密,来获取内容,从而得到数据包的类型;另一种是通过其它技术进行特征识别,而不是通过算法解密数据包,因为前者对设备性能的损耗是极大的。要做好应用识别除了有独特的识别技术之外,海量的数据样本来源也同样重要,而这一点做的相对较好的还是Panabit。

Panabit从建立之初就主攻七层应用识别技术,正所谓术业有专攻。Panabit能做精准应用识别需要具备两种特质:

1、独特的识别技术

Panabit使用了除了传统DPI、DFI之外的识别技术,来保证应用识别率,如下所示:

1)节点跟踪

  • 共享识别信息

  • 提高识别准确率和性能

2)主动探测

  • 探测源目的端状态

  • 辅助分析节点特性

3)协议多状态机

  • 明文两状态机到多状态机

  • 包长、频率等都可作为条件

  • 加密协议泄漏信息

这里重点介绍下协议多状态机识别的原理,如下:

普通明文的DPI检测可以抽象为包含两个状态的状态机,跳转条件为命中一个较长的连续字符串,当当字符串跨数据包时,则为DFI类算法。加密应用的引入造成提取明文长字符串的DPI执行困难,将一个协议的验证过程设计为多个状态的状态机,状态机的跳转条件包括:短字符串、端口、包长和频率等。综合描述这种多个状态的协议状态机的宏语言,称为PSDL(Protocol Signature Description Language);

PSDL伪编译器将描述协议状态机的宏语言转换为相应的C语言代码,链接其他代码之后加载到PanaOS操作系统对应接口中,形成高速的二进制代码,提高协议识别的性能。所有新的协议数据包和可能的识别错误数据,会首先进入用PSDL描述的全协议状态机库的机器人程序,并自动提取其中的关键信息,建立初步的状态机,最后经由人工干预修正形成符合识别结果的宏语言描述,加入协议识别库中。


2、海量的数据来源

与此同时,保证高识别率的还有另外一个关键因素,就是数据样本的来源。当应用识别做到一定程度时,发现数据样本的来源也将极大限制应用识别的准确度,比如目前来看国外的产品在国内使用时,识别率相较国内厂商的优势就越来越不明显,反之亦是如此。Panabit通过发布免费版软件,自建了一个适合DPI产品特征与自身长期良性发展的生态环境,8年来已累计拥有15000多家企业用户,以及30000多家网吧用户。这两个庞大的用户阵营,既保证了当国内网络中出现任何新生应用协议或某些应用协议的特征发生改变时,始终能第一时间获得其应用样本,同时也保证了Panabit所发布的任何更新(版本、功能、特征库)都首先通过最全面的测试环境、最庞大的互联网测试团队进行充分检验,然后再发布商业版本。因此,保持数据样本来源的多样性以及数据样本的即使更新,成为了现在应用识别技术的另一重要因素。


如何保证探针的高性能转发?

Panabit与大多数厂商不同,并未使用改装过的Linux/Freebsd等通用操作系统,而是使用Panabit自主研发的数据面操作系统PanaOS。Panabit产品采用虚拟化技术完成了数据层面和控制层面分离,从驱动、内存管理到任务调度等数据面核心任务,都由PanaOS一肩承担。利用虚拟化OS 技术,PanaOS赋予了产品软件永不宕机的超高稳定性。

PanaOS具备自己的CPU调度机制、驱动和协议栈,成为一个独立的、脱离底层操作系统运行的OS,并以线程方式运行在底层操作系统之上。当“数据包”达到设备网络接口时,PanaOS立即对其接管并对直接进行调度,处理效率远远超越底层操作系统。目前现网在用的设备已经可以在实际承载业务(串接或是网关模式)的情况下,达到双向100G的吞吐量,并保持应用识别率95%以上。也正因为PanaOS,让Panabit的全流量探针产品可以在100G以内的网络环境中毫无压力。


Panabit全流量探针的能力优势

有了Panabit全流量探针之后,即可实现全网流量可视化,实现精确告警定位,实现智能化故障诊断,在网络可视化运维工作中,Panabit全流量探针赋予了网络运维人员专家级的排障能力。Panabit全流量探针定位的问题更加精准有效,打破了传统网络运维的瓶颈。

现有的探针类产品在网络运维中,处理方法大致分为三类:

第一类:拨测检测方法

传统的故障检测方式,一般包括标准协议拨测和模拟客户协议拨测,常见的包括ICMP Ping、TCP Ping、UDP Ping、HTTP GET、DNS拨测和专用私有协议拨测,有众多开源工具,比如Nagios和Zabbix,也包括一些主机参数的提取。

但是其缺点也很明显,拨测协议与用户实际使用的数据,并不走同样的路径,比如ICMP协议,路由器就是通过CPU处理,而不是经过数据平面的转发,和用户使用有较大认知偏差,经常出现拨测很好,但是用户投诉。另外就是拨测频率过低无法准确,频率过高就容易对网络形成额外的压力,很多私有协议无法模拟,所以不能拨测。

第二类:APM检测方法

APM =Application Performance Management,应用性能管理,看上去要比NPM更加高级,可以直接获取并定位某个应用程序中具体某些语句是否出现异常,但是这需要运维人员将软件插件安装至用户的服务器中,APM才能够发挥具体的作用。可以简单的理解为在原有的服务器中,增加一款新的软件,这软件负责实时监控服务器中所有其它软件的数据交互状态。也正因为如此,APM在很多机密的场景下无法使用,因为,客户的服务器上不允许安装插件。

第三类:NPM检测方法

NPM则是通过在网络中部署探针,探针采集并记录所有流量、数据包经过时的时间节点,通过计算每一条会话的时间差来进行网络性能的分析。它不需要安装任何插件,探针亦可旁路部署到网络中,可以在几乎不对原有网络产生影响的情况下,帮助运维人员实现网络可视化运维。

在实际的网络可视化运维中,Panabit全流量探针采用的是第三种检测方式,通常要具备以下几种能力:

在线测量能力

单协议性能的在线量 时延:

吞吐量:

  • 协议在线测量:xx 协议吞吐、时延等指标实时显示,丢包、抖动等指标可在线测量;

  • 劣化预警机制:xx 协议的时延经常已超过阈值,数据存在丢包风险,上报丢包预警;

  • 故障告警机制:当发现 xx 协议持续丢包、带宽异常等现象,主动上报故障告警。

用户分析能力

基于内网具体用户的时延分析,可查看内网任意 IP 的最大时延及平均时延。针对最大时延较高的内网用户,可配合时延基础查询等功能分析时延高的具体原因,并快速解决用户网络访问情况。

区域分析能力

【国内时延】是基于内网用户访问国内不同地区产生的服务时延及应用时延的分析,从 而快速找到连接不稳定或者网络请求质量差的访问。

【全球时延】是基于内网用户访问不同国家产生的服务时延及应用时延的分析,从而快速找到连接不稳定或者网络请求质量差的访问。

时延对比能力 

该功能模块可查询同一协议在不同时间段的三个时延的对比信息,从而可分析出不同时 间段的业务质量情况。并且该功能也可用来检测故障维护是否完成,即对比用户投诉时刻和 故障处理结束后的两个时间段的时延对比。

时延趋势分析能力

使用者想对某一具体应用在某一特定时间段内的异常表现进行分析,就需要用到时延趋 势分析的功能,因为一个长时间的趋势图可以更加客观的反映出该应用的真实状态,从而也 帮助使用者更好的去获取平均时延信息。

【时延趋势】中的【系统时延】指的是所有流量的客户时延、服务时延、应用时延的平 均值,是一个网络整体状态的统一展现,同时增加了【对比分析】功能,可以针对三个小时 内的时延趋势分别进行比较。

【时延趋势】中的【应用时延】则是可以根据具体的协议名称来更有针对性的查询一个 协议在某一时间范围内的时延趋势,同时也保留了对三个小时以内时延趋势的对比。

协议时延分析能力

以协议名称为选择项,然后查询在某一时间范围内的时延信息,这里分为了两种展现形 式,一种是趋势图,另一种是数字展示(包括最大时延、平均时延、流量)。

异常时延信息能力

【异常分析】可以帮助使用者快速查询到流量中某些具体应用的异常时延信息,这个功能主要的目的是可以根据源宿 IP 地址、端口号、用户账号、协议类型等条件筛选出所需要的时延信息。

该界面主要显示的内容为三部分:

第一部分:客户端时延,且显示的是源 IP 的客户时延信息(如图的左边部分内容);

第二部分:服务端时延,且显示的是目标 IP 的服务时延信息(如图的中间部分内容);

第三部分:应用端时延,且显示的是应用协议的应用时延信息(如图的右边部分内容)。

同时该界面可以根据连接数大小、最大时延大小、平均时延大小来 TOP 显示,让使用者一目了然。

多维度时延信息能力

在NPM查询中可以设定多维度的条件进行查询每一条会 话的时延信息。可选择的条件包括用户账号、源宿 IP、源宿 IP 群组、源宿端口号、协议类 型、客户时延、服务时延、应用时延、上下行重传率、时间范围等等。

值得注意的是,该界面记录了全量的会话日志信息,所以,使用者可以通过该功能,查 询故障发生时刻所有流量的时延信息、重传率、协议名称、访问时间、五元组、出口运营商 以及地理位置。更重要的是,使用者可以导出报表进行信息的筛选和过滤。

不仅如此,随着 IPv6 的普及,目前已经支持 IPv6 流量的时延分析,如下图所示:

服务器时延分析能力

内网所有服务器时延最大值、平均值以及流量检测。

 TOP 域名时延分析能力

查询内网用户访问不同域名产生的时延信息,同时可查看某一域名经过不同运营商进 行交付时的不同时延信息。

 动态大屏展示能力

通过动态大屏将常见的关键数据展示出来,帮助运维工程师更加方便快捷的使用,即使发现网络中异常的问题。


用户该如何客观选择探针?

在选择探针产品的过程中,要明确自己的实际需求,并清晰了解各个厂商之间的细微区别,以下列举了四个重要的功能点进行对比。

端到端全程功能分析和监控

该功能做的相对较好的是R厂,它实现了从防火墙前后,到应用服务器,到数据库实例的比对分析,真正实现了NPM+APM的完美结合。

R厂的NPM+AMP

实际部署支持吞吐量

各个厂商所标注的产品吞吐量都非常高,40G、100G的产品也全部都有,但是这里有个非常容易让用户产生误区的地方,就是标称参数和实际使用情况严重不匹配。这点做的最好的是Panabit,Panabit的全流量探针参数均为实际使用环境下,且功能全开时的实际参数,最高单台设备可达100G。

Panabit产品实际吞吐量

部署模式的使用差别

探针产品共有的功能中包含了对异常流量的发现,尤其是DDoS类型的攻击流量,但是R厂、N厂等一般情况下均为旁路部署,主要用来采集、分析、发现问题,但是在对异常流量的阻断上,只能交由其它产品来完成。只有Panabit全流量探针在部署方式上实现了多样化,不仅支持旁路模式,还支持串接模式、网关模式、虚拟化模式等,当使用串接或是网关模式时,对于网络中的异常流量,不但可以发现,并可以即使阻断。

1:1全量日志留存

一部分探针厂商采用netflow方式进行数据留存,但是采用的是N:1抽样留存的方式进行保存,另一部分探针厂商会留存数据的原始数据包,但是会受实际带宽流量的影响,很难在大流量的场景下使用,并且,分析溯源时要有相当专业的工程师进行数据包分析。Panabit全流量探针,采用的是1:1会话日志留存,原始数据包则根据用户需求选择性留存,这样一来,极大的减少了设备的压力,还减少了运维人员的工作量,并且更加适合在大流量的网络环境中进行部署。


如果您已经阅读到了这里,小月月将有一个好消息告诉大家,Panabit全流量探针即将迎来重大升级,敬请您期待。


扫码关注,了解更多


更多精彩:

用户该如何选择一款适合自己的流量探针设备?(上)

白盒5G CPE适配第三方商业软件来了

5G时代运营商如何盈利?

应用识别+工业互联网究竟会擦出怎样的火花?

继续滑动看下一个
Panabit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存