营销系统黑名单优化:位图的应用解析
Tech导读
在追求高效率营销系统运作的过程中,黑名单管理是一个不可忽视的环节。传统的黑名单处理方式可能面临效率低下和扩展性差的问题。本文将深入探讨一种创新的解决方案:位图的应用。位图以其卓越的空间效率和处理速度,提供了一种优化黑名单管理的新思路。本文将详细分析位图在营销系统黑名单中的应用,探讨它如何改进数据处理流程,以及实现对大规模黑名单的高效管理。这一技术的引入,不仅提升了系统性能,还为数据处理领域带来了新的启示。
导读
在追求高效率营销系统运作的过程中,黑名单管理是一个不可忽视的环节。传统的黑名单处理方式可能面临效率低下和扩展性差的问题。本文将深入探讨一种创新的解决方案:位图的应用。位图以其卓越的空间效率和处理速度,提供了一种优化黑名单管理的新思路。本文将详细分析位图在营销系统黑名单中的应用,探讨它如何改进数据处理流程,以及实现对大规模黑名单的高效管理。这一技术的引入,不仅提升了系统性能,还为数据处理领域带来了新的启示。
01 背景
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
营销系统中,客户投诉是业务发展的一大阻碍,一般会过滤掉黑名单高风险账号,并配合频控策略,来减少客诉,进而增加营销效率,减少营销成本,提升营销质量。
02
性能优化
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。
其实很容易就能想到,对于调用RPC接口这种含有I/O操作的场景,可以引入多线程优化,将一个几十万的账号集合拆分为多个子任务提交给线程池处理,从而加快处理速度。从下图可以看出引入多线程后性能有很明显的改善,单线程处理25万、50万个账号的群体分别需要近半小时、近一小时,改为25个线程处理后可以分别控制在1分钟、2分钟左右。
2.引入位图优化
进一步了解CDP的底层原理后,会发现这个问题应该还有其他的解决方案,即通过位图优化。CDP的群体都会有对应的位图文件,也就是说营销客户群体和黑名单群体都是以位图的数据结构存储的,通过CDP下载群体的SDK就可以获取到位图文件,营销群体的位图与黑名单群体位图进行与非操作(andNot,就是从一个位图中移除另一个位图中存在的元素,而保留不在另一个位图中的元素),得到的新的位图就是过滤掉黑名单账号后的目标客户的位图。代码实现很简单,使用CDP SDK的示例代码如下(也可以参考GitHub bitmap-example/src/main/java/io/github/howiefh/bitmap/BitmapBlacklistOptimize.java at main · howiefh/bitmap-example · GitHub示例代码,但不适用于CDP群体位图处理):
DataLoader dataLoader = new DataLoader(token, bitMapBaseUrl);
ABitmap customerBitmap = dataLoader.loadGroup(customerGroupCode);
ABitmap blacklistBitmap = dataLoader.loadGroup(blacklistGroupCode);
customerBitmap.andNot(blacklistBitmap);
03 位图简介
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。 1.位图原理
1.位图原理
位图的基本思想是使用bit来标记一个数值,1表示该数值存在,0表示不存在。由于以位为单位存储数据,因此可以大大节省存储空间。通过这种方式,可以非常高效地表示和操作数值集合。
举个直观的例子,有40亿个不重复的随机自然数,如果使用long型数值存储,一个long 型数值8个字节,40亿个数值占用约29.8GB,但如果是存储为40亿个bit,则只需要约0.47GB。
在Java中一个long型数值占64位,可以用一个long型数组 long[] words = new long[(nBits - 1) / 64 + 1] 存储位图,其中nBits表示位图的初始大小。对于给定任意自然数x,x / 64就能得到x在数组中的下标,x % 64就能得到x在此下标的哪个位。数组的第一个下标 words[0] 可以表示数值0~63,第二个下标 words[1] 可以表示数值64~127,之后依此类推。
如果将 3, 4, 6 几个数值存入位图,则如下图所示,对应数组的第一个下标的 3, 4, 6 位被标记为1,其他位均为0。对于添加操作,假设要添加数值2,可以计算出其在数组中的下标为2/64即0,在words[0]的位置为2 % 64即 2,只需将1按位左移2位,然后和words[0]进行按位或操作,将相应位置置为1。
RoaringBitmap将一个int数值x
划分为高16位和低16位,高16位下标可以通过x >>> 16得到,高位container中维护了一个数组,数组的元素中存储了低位container,低位container中的元素数量未达到4096时,使用ArrayContainer存储,其内部实现是一个char
数组,数组中存放低位数值,达到4096后低位container会转换为BitmapContainer,其内部实现就是一个位图。此外还有一个RunContainer的实现,不过较少使用。
为什么要使用4096这个阈值呢?是因为超过4096后,BitmapContainer会比ArrayContainer更节省空间。
04 位图的应用场景
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目
数值可以很方便地使用位图处理,但是有些场景需要处理的可能是字符串,比如用户账号、URL等,一般需要将字符串跟数值做一个映射,CDP是将用户账号和偏移量offset做了一个映射表,再将偏移量offset存储到位图。布隆过滤器则是通过多个哈希函数将元素映射到了位图上,它是一种空间效率极高的概率型数据结构,它用于判断一个元素是否在一个集合中,并且能够非常快速地进行查询,常见的应用场景包括网络爬虫中避免重复爬取相同的URL、数据库中快速判断某个元素是否存在以减少不必要的磁盘IO操作、防止缓存击穿,以及各种需要快速集合检测且可以容忍一定误报率的场合,误报是指布隆过滤器可能会错误地判断某个不存在集合中的元素为存在,但它绝不会错误地判断存在的元素为不存在,因此在不需要百分之百准确性的情况下,布隆过滤器是一种非常有用的工具。
05 总结
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目
求分享
求点赞
求在看