ICALP 2024 | 高维聚类问题——基于大规模并行计算下的完全可扩展算法
关键词:大规模并行计算,高维欧氏空间,聚类
导 读
本文是对已被 ICALP 2024 接收的 Fully-Scalable MPC Algorithms for Clustering in High Dimension 一文的解读。该工作由北京大学姜少峰课题组与英国、以色列、捷克的学者合作完成,论文主要贡献者之一高贵晨为北京大学计算机学院博士生。论文聚焦于大规模并行计算(Massively Parallel Computation, MPC)模型下高维欧氏空间中聚类问题,提出了一种新的用于几何聚合的 MPC 原语,并针对一系列聚类问题设计了完全可扩展的常数轮 MPC 算法。
↑扫码跳转论文
论文链接:
https://arxiv.org/abs/2307.07848
01
问题及背景
对大规模数据进行聚类是计算机科学中一项基本的计算任务,我们主要考虑欧氏空间下的 -median 问题。给定一个包含 个数据点的集合 ,一个整数 , -median 问题是要找到一个大小至多为 的数据集合 ,使得所有 中的数据点到集合 中最近点的距离和最小,即找到 并最小化 其中, 表示 点到 中最近点的欧氏距离。另一个常与 -median 一同考虑的聚类问题是 -means。 -means 与 -median 的唯一不同点是目标函数中要对数据点到集合 的距离求平方和。
均匀设施选址(Uniform Facility Location, UFL)是与聚类问题密切相关的一个问题。我们考虑欧氏空间下的 UFL 问题。给定一个数据集 和设施开设代价 (每个设施的开设代价相同),UFL 的目标是要找到一个设施集合 ,使得开设代价和连接代价(所有数据点到最近开设设施的距离之和)的加和最小化,即找到 并最小化 MPC 模型最早由 Karloff、Suri 和 Vassilvitskii[1]于2010年提出,是并行计算中一种重要的模型,可以用来建模 Hadoop、Spark 等众多实际广泛应用的并行计算框架。在 MPC 模型中,设有 台机器,每台机器都有大小为 的内存。典型情况下,假定内存为 且常数 ,其中 是输入数据量的大小。此外,计算以同步轮进行,在每一轮中,任何一台机器都可以向/从任何其他机器发送/接收信息,前提是从/向每台机器传输的数据总量为 。MPC 算法的效率是通过轮数来衡量的,并且一般追求常数轮的算法。
除了轮数尽量追求常数轮,MPC 算法还应该是完全可扩展(Fully Scalable)的:即算法在任何内存参数 下都可以运行,尤其是对于 -median 而言,需要满足 与 无关;此外,由于我们考虑的聚类问题潜在可以是高维的,因此我们还需要满足 是 量级(而不是 的指数级)。目前,针对 -median 问题的完全可扩展且常数轮的工作较少[2, 3],仅有 近似,并且对于相关的 -means 问题,即使在低维(例如 )情况下也没有已知的有限近似。因此,为这些基本聚类问题在高维下设计完全可扩展、常数轮、常数近似的 MPC 算法是该领域的挑战之一。
02
主要结果
针对高维欧氏空间中的 UFL、 -median、 -means 问题,我们都得到了完全可扩展的常数轮 MPC 算法,并且对于 UFL 问题我们实现了常数近似。
定理1. 存在一个高概率成功的 MPC 算法,对任何 个 上的、分布式存储在内存 的数据点,可在 轮使用 的总空间得到一个 -近似的 UFL 的解(分布式存储在各个机器上)。
对于 -median、 -means,我们得到了各项指标与定理1类似的 -双标准近似,其中 -双标准近似是指算法输出至多 个中心点,且其代价至多是 个中心点的最优代价的 倍。该双标准近似是通过黑盒利用 UFL 的常数近似解得到的。相对于标准的、只能得到 -双标准近似的黑盒方法,我们的改进是只需要 个中心。
03
技术概述
下面,我们将概述定理1算法的重要组成部分以及技术思想。我们首先给出一个更具有局部性的求解 UFL 的算法框架,然后讨论 MPC 上的实现问题。
3.1 UFL 的新局部算法
我们的新算法是对 Mettu-Plaxton (MP) 算法[4]的改造。不失一般性地,设开设代价 。原始的 MP 算法主要有两步:一是对每一个输入点 ,计算“半径值” ;二是按 值非减的顺序,依次检查当前点 其 距离之内是否有开设设施,若无,则开设点 。由于我们只追求常数近似,我们可以利用[5]提出的方法来近似计算 :对每个数据点 ,可以通过估算 个以 为球心,半径为 的 维球中数据点的数量来计算 的常数近似。因此,这一步相对比较局部。但是,MP 算法的第二步则需要用到全局的顺序信息并且需要串行进行,这对于 MPC 乃至于一般的并行计算模型都较难实现。
因此我们提出了一个新的局部算法来替代第二步。具体而言,假定算法已经得到了第一步所有 的估计值,我们给出以下两个独立的决策规则来决定每个数据点是否要开设为设施点:
P1:独立于其他数据点,每个数据点 以概率 开设为设施点;
P2:对每一个数据点 ,分配一个独立随机标签 ,如果数据点 在 内具有最小的标签值,则将点 开设为设施点,其中 代表 与以 为中心、 为半径的球的交集。
我们讨论上述两个决策规则的设计动机。首先可以证明这两个决策的期望开设代价是最优解的常数倍,因此主要应该关注这两个决策对于连接代价的影响。P1 的规则倾向于较为均匀的开设设施,直觉上可以较好解决比较均匀的数据集。然而,如果数据集含有极远的孤立点,则 P1 可能会有概率不在这种孤立点开设设施,从而产生极大的连接代价。P2 可以一定程度上弥补这点:在孤立点的小邻域内一定会开设一个设施(开在 值最小的点上)。不过需要注意的是只有 P2 也是不够的:对于1维下均匀排列的数据集: ,在半径值 时,仅使用规则 P2,则除了 值最小的点之外,其他数据点都不会开设为设施,所以该情况下的连接代价同样会很大。
因此,对于新的局部算法的分析,尤其是将互相影响的 P1 和 P2 的随机性统筹考虑,是本工作的主要技术贡献。
3.2 MPC 实现:新的几何聚合 MPC 原语
为了实现完全可扩展的常数轮 MPC 算法,注意到 值的估计只需要实现对某个半径 估算每个以数据点 为球心的球里面的点数;而对于局部 MP,只有规则 P2 是不直接的,但也可以转化成对某个半径 计算每个以数据点 为球心的球里面具有最小标签的点。
上述步骤均可以建模成一个几何聚合问题,即都可以看做是对某个“可聚合”的函数值的计算。我们称函数 是可聚合的,如果对每一个不相交的集合 ,可以通过计算 的值来得到 。我们对估计 值的统计量以及实现 P2 时关于最小标签点的计算,可以分别采用求和或求 的 来实现。
我们提出了一个可在高维欧氏空间下计算一般的可聚合 的 MPC 算法。具体而言,给定一个包含 个数据点的集合 ,一个可聚合函数 ,以及参数 ,存在一个确定性完全可扩展的 MPC 算法,在常数轮对每个数据点 计算值 。由于其一般性和广泛适用性,我们认为这可以成为一个新的 MPC 原语。技术上,我们采用了近期在数据流算法设计中提出的一致哈希函数[6]来解决高维球相交结构过于复杂、导致复杂性不可控的问题。
因此,利用新提出的局部算法,结合新的 MPC 原语,我们可以在常数轮得到 UFL 问题的完全可扩展的 MPC 算法,且近似比为常数。
04
总 结
本文探索了高维欧式空间中一系列聚类问题的完全可扩展的 MPC 算法,提出了适用于高维欧氏空间的几何聚合 MPC 原语。尽管本文的研究给出了常数双标准近似的 -median、 -means,但是否存在完全可扩展的、真正常数近似的 -median、 -means 依然是一个重要的开放性问题。
参考文献
[1] Howard J. Karloff, Siddharth Suri, and Sergei Vassilvitskii. A model of computation for MapReduce. SODA 2010.
[2] Aditya Bhaskara and Maheshakya Wijewardena. Distributed clustering via LSH based data partitioning. ICML 2018.
[3] Vincent Cohen-Addad, Silvio Lattanzi, Ashkan Norouzi-Fard, Christian Sohler, and Ola Svensson. Parallel and efficient hierarchical k-median clustering. NeurIPS 2021.
[4] Ramgopal R. Mettu and C. Greg Plaxton. The online median problem. SIAM Journal on Computing 2003.
[5] Mihai Bădoiu, Artur Czumaj, Piotr Indyk, and Christian Sohler. Facility location in sublinear time. ICALP 2005.
[6] Artur Czumaj, Arnold Filtser, Shaofeng H.-C. Jiang, Robert Krauthgamer, Pavel Veselý, and Mingwei Yang. Streaming facility location in high dimension via geometric hashing. FOCS 2022.
图文 | 高贵晨
北京大学姜少峰课题组
姜少峰课题组近期动态
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点击“阅读原文”转论文地址