查看原文
其他

小学六年级学生写的 “线段树”解析,厉害了!

程序人生 2020-12-18

The following article is from 程序员小灰 Author 王乙堃

作者 | 王乙堃 

来源 | 程序员小灰

线段树是一个复杂的数据结构,比较难理解,也比较难解释清楚。在我将这个数据结构反复学习了五遍的时候,我终于有了信心写出这篇介绍线段树的文章。希望大家能够掌握这种数据结构。

这篇文章比较长,建议大家耐心阅读,好好消化吸收哦~~


前置内容


学习线段树前,你需要掌握二叉搜索树,我只补充一个内容,就是关于二叉搜索树如何编号

二叉搜索树的根节点编号为1,对于每个节点,假如其编号为N,它的左儿子编号为2N,右儿子编号为2N+1。因此,整个二叉搜索树的编号如下:

上图当中,结点上方的数字是结点的编号,后续为了简单,把编号写在结点内不。

有读者可能要问了,为什么3的儿子是6和7,而不是4和5呢?这是因为虽然节点4和节点5不存在,但是仍然应该为他们保留4和5这2个编号,你可以把这棵树看成这样:


线段树的概念


线段树,英文名称是 Segment Tree,其本质也是一个二叉搜索树,区别在于线段树的每一个节点记录的都是一个区间,每个区间都被平均分为2个子区间,作为它的左右儿子。比如说区间[1,10],被分为区间[1,5]作为左儿子,区间[6,10]作为右儿子:

为什么要设计这样奇怪的数据结构呢?

线段树主要适用于某些相对罕见的应用场景:

比如给定了若干元素,要求统计出不同区间范围内,元素的个数。

现在我们已经知道了什么是线段树,那么看一个利用线段树的例子。


线段树的存储与建造


这是一个序列:

现在我们要用它完成一个区间求和的任务。

区间求和就是指求序列中一段区间的所有元素之和。比如说上面的序列,区间[1,5]的和为元素1+元素2+元素3+元素4+元素5,也就是14。再举一个例子,区间[9,10]的和为9。

在学习线段树的概念的时候,我们就知道线段树的每个节点都存储了一个区间。比如说对于[1,10]这个节点,也就是这棵线段树的根节点,那么它的值为1+5+1+3+4+2+0+9+0+9=34。看我们把这棵树填完:

(当一个区间的左右边界已经相等时,比如[1,1],表示这个区间内只有一个元素了,此时不能再分割,因此它就没有左右儿子节点了)

现在就让我们用代码实现线段树:

【代码片段 1】 用一个类Node表示线段树的节点:

class Node {
     int l; // l是区间左边界
     int r; // r是区间右边界
     int sum; // sum是区间元素和

     public Node (int l, int r, int sum){
         this.l = l;
         this.r = r;
         this.sum = sum;
     }
}

【代码解析 1】 线段树的任意节点都有3个属性:

  • 区间的左边界l

  • 区间的右边界r

  • 区间的元素和sum

比如说在上面的线段树中,区间[1,10]这个元素:

  • 左边界为1

  • 右边界为10

  • 元素和为34

【代码片段 2】 定义元素个数、原序列和线段树

static int n = 10; // n是元素个数
static int[] array = {0, 1, 5, 1, 3, 4, 2, 0, 9, 0, 9}; 
// array是原序列(第一个0是占array[0]位的)
static Node[] tree = new Node[4*n];

static void initTree (){
    for(int i = 0; i < tree.length; i++){
        tree[i] = new Node(0, 0, 0, 0);
    }
}

【代码解析 2】 首先我们在上文已经定义了元素个数和原序列。他们的值如下:

  • 元素个数为10个

  • 原序列为[0,1,5,1,3,4,2,0,9,0,9]

现在问题在于:存储线段树的数组应该开多大的空间?根据证明发现,一个有n个元素的序列,所对应的线段树至少需要大小为4n的数组来存储。这一类证明网上有很多,读者可以自行查阅一下。

我们用 inittree 这个函数进行线段树初始化(tree数组初始值为null,不初始化会报错,我在这个地方卡了好久)

【代码片段 3】 updateNode函数负责更新节点的值:

static void updateNode (int num) { // num是当前节点序号
    tree[num].sum = tree[num * 2].sum + tree[num * 2 + 1].sum;
}

【代码解析 3】 仔细观察前面的线段树可以发现,每一个节点的值都等于其左右儿子值的和。我们刚刚学会,一个编号为n的节点,其左右儿子分别为2n和2n+1。因此我们把num的值更新为2num+2num+1,也就是其左右儿子的和。

【代码片段 4】 build函数建造线段树:

static void build (int l, int r, int num) { // 建树
    tree[num].l = l;
    tree[num].r = r;
    if (l == r) { // l = r说明到达叶子节点
        tree[num].sum = array[l];
        return;
    }
    int mid = (l + r) / 2;
    build(l, mid, num * 2); // 递归左儿子
    build(mid + 1, r, num * 2 + 1); // 递归右儿子
    updateNode(num);
}

【代码解析 4】 函数从区间[l,r]开始递归遍历整棵线段树,每一次都递归它的左右儿子,到叶子节点时结束。递归每一个儿子时,都对它进行更新。这样下来就完成了整棵树的初始化。


线段树的单点修改


现在假如我们需要把第6个元素从2修改为3:

那么就会有很多的区间相应的改变。比如说区间[5,7],从4+2+0=6变成了4+3+0=7。现在让我们手动模拟一下线段树的单点修改过程。这里假设我们需要把元素6从2变成3:

首先,从根节点开始遍历,发现含有元素6的区间是根节点的右儿子,与左儿子没有关系。因此将修改目标锁定到右儿子:

第二步,发现含有6的区间是左儿子,因此把目标放到左儿子上:

第三步同理:

第四步同理:

此时发现这是一个叶子节点,因此对它进行更新,从2变成3:

返回到上一层:

接下去同理:

然后我们跳过演示,读者可以自己试试看用同样的方法修改这棵树。最后修改完应该是这样的:

根节点最后应该从34变成35,我经常会忘记修改它的值,大家千万不要忘记修改它。

演示完以后我们分析一下时间复杂度。如果我们使用线段树修改元素,每次都是折半操作,相当于二分查找的速度,时间复杂度仅仅是对数级别,也就是O(logn)。

【代码片段 5】 modify函数实现单点修改:

static void modify (int i, int value, int num) { // 把元素i修改为值value
    if (tree[num].l == tree[num].r) { // 到达叶子节点
        tree[num].sum = value;
        return;
    }
    int mid = (tree[num].l + tree[num].r) / 2;
    if (i <= mid) {
        modify(i, value, num * 2); // 递归左儿子
    }
    else {
        modify(i, value, num * 2 + 1); // 递归右儿子
    }
    updateNode(num);
}

【代码解析 5】 这一段代码也不是很难。每一次我们都从根开始递归遍历。我们先判断要更改的元素属于当前节点的左儿子还是右儿子,并且递归到该节点。递归结束后更新当前节点的值。假如遍历到叶子节点,说明我们已经遍历到了想要修改的元素,那么我们直接把该节点的值修改为 value 就可以了。

到这里我们已经学会了单点修改的方法了。接下来让我们更进一步,学习区间修改。


线段树的区间修改


首先让我们明确一下区间修改的概念:

单点修改,大致是以下两个步骤:

  • 找到需要修改的点;

  • 修改这个点。

而区间修改是这样两个步骤:

  • 找到需要修改的区间;

  • 修改这段区间内的所有点。

好的,概念我们明白了,现在要知道如何实现这个功能。首先我们看一看区间修改可能的情况:

1、需要修改的区间包含在儿子之内:

为大家画个图:

我们看到需修改区间[6,8]包含在未修改区间的右儿子里。这种情况很简单,我们直接递归到右儿子即可。

2、需要修改的区间被拆开:

还是画一个图:

这时4属于左儿子,但是5和6属于右儿子。这怎么办呢?最直接的方法是把这个区间拆成两半,属于左儿子的放一边,属于右儿子的放一边,像这样:

两种情况分类讨论后,我们就要考虑如何修改区间了。

最简单的方法就是把这些区间挨个儿修改。但是大家可以试试看,这种方法比暴力还要慢好几倍。因此我们需要使用懒惰标记

现在假如我们需要把区间[5,7]每个元素增加2:

首先,5属于根节点的左儿子,而6和7属于根节点的右儿子,因此两边都要进行修改。我们可以先修改左儿子:

5属于当前节点的右儿子,因此我们锁定右儿子:

5属于当前节点的右儿子,那么我们修改右儿子。我们发现右儿子就是5。当前只有一个元素,因此我们把当前的值+2,并为其打上一个懒惰标记,懒惰标记的值也是2:

之后向上回溯,每一个节点都进行更新,也就是说每一个节点都更新为其左儿子+右儿子,最后更新完是这样的:

到目前为止,懒惰标记还没有发挥作用,但是我们可以看一看6和7这段区间的修改。首先因为6和7在根节点的右儿子,因此我们先遍历右儿子:

接着因为6和7在当前节点的左儿子,因此我们遍历左儿子:

之后我们发现6和7就是当前节点的左儿子,因此我们直接遍历到左儿子,修改其值并打上懒惰标记。需要指出的是,因为6~7有2个元素,因此增加的值要乘2,也就是从+2变为+4,但懒惰标记的值不用乘2:

此时让我们思考一个问题:

我们还需要遍历修改[6,6]和[7,7]吗?

这时就不用了,因为我们已经打上了懒惰标记,懒惰标记的初衷就是延迟修改,因此我们当然不需要再修改这两个节点了。现在让我们一鼓作气,回溯到根节点,完成所有更新:

现在我们一起用代码实现:

【代码片段 6】 为Node类添加懒惰标记:

class Node {
     int l; // l是区间左边界
     int r; // r是区间右边界
     int sum; // sum是区间元素和
     int lazy; // lazy是懒惰标记

     public Node (int l, int r, int sum, int lazy){
         this.l = l;
         this.r = r;
         this.sum = sum;
         this.lazy = lazy;
     }
}

【代码解析 6】 新增了lazy变量作为懒惰标记。

【代码片段 7】 modifySegment函数实现区间修改的代码:

static void modifySegment(int l, int r, int value, int num) { // [l,r]每一项都增加value
    if (tree[num].l == l && tree[num].r == r) { // 找到当前区间
        tree[num].sum += ( r - l + 1 ) * value; // r-l+1是区间元素个数
        tree[num].lazy += value;
        return;
    }
    int mid = (tree[num].l + tree[num].r) / 2;
    if (r <= mid) { // 在左区间
        modifySegment(l, r, value, num * 2);
    }
    else if (l > mid) { // 在右区间
        modifySegment(l, r, value, num * 2 + 1);
    }
    else { // 分成2块
        modifySegment(l, mid, value, num * 2);
        modifySegment(mid + 1, r, value, num * 2 + 1);
    }
    updateNode(num);
}

【代码解析 7】  首先,按照开始讲的3种情况,进行分类讨论(情况分别是:完全在左区间,完全在右区间,分成了2块),并且向下递归。


线段树的区间查询


区间查询,顾名思义就是查询一段区间内的元素和。那么如何实现呢?

不急,现在我们来看这样一种情况:

[1,2]有一个懒惰标记2。现在假如我要求[1,1]的值怎么办?

凉拌

为什么我这么说?因为[1,2]这个节点有一个懒惰标记,但是[1,1]却没有被更新,这是一个问题。

此时我们就要实现一个函数,用于把懒惰标记下传给儿子们,称为 pushdown 函数。下面直接给代码,解析部分请看代码解析吧:

【代码片段 8】 使用pushdown函数下传懒惰标记:

static void pushdown (int num) {
    if(tree[num].l == tree[num].r) { // 叶节点不用下传标记
        tree[num].lazy = 0; // 清空当前标记
        return;
    }
    tree[num * 2].lazy += tree[num].lazy; // 下传左儿子的懒惰标记
    tree[num * 2 + 1].lazy += tree[num].lazy; // 下传右儿子的懒惰标记
    tree[num * 2].sum += (tree[num * 2].r - tree[num * 2].l + 1) * tree[num].lazy; // 更新左儿子的值
    tree[num * 2 + 1].sum += (tree[num * 2 + 1].r - tree[num * 2 + 1].l + 1) * tree[num].lazy; // 更新右儿子的值
    tree[num].lazy=0; // 清空当前节点的懒惰标记
}

【代码解析 8】 下传懒惰标记步骤有3步:

  • 将懒惰标记传递给儿子;

  • 更新儿子的值;

  • 清空当前节点的懒惰标记。

需要注意的是,叶子节点不用下传标记。

现在我们完成了pushdown函数的编写,可以开始学习区间查询了。刚才我们完成了区间修改,并且将原序列修改为了[1,5,1,3,6,4,2,9,0,9]。现在我们接着实现区间查询问题。假如我们要查询区间[5,6]:

正如我们所见,答案为10。现在告诉大家一个好消息,那就是区间查询的大致步骤其实和区间修改没有什么出入。让我们来实践一下:

首先,5和6分别属于根节点的左儿子和右儿子,那我们先遍历左儿子:

接着继续往下:

往下查找到[5,5]:

记录好这边答案为6。接着我们看根节点的右儿子,查找元素6:

向下搜索到[6,8]:

搜索到[6,7]:

此时我们需要下传[6,7]的懒惰标记,并且更新[6,6]的值,如下:

最后遍历到[6,6],值为4,与刚才得到的6相加,答案就是10:

那么我们上代码:

【代码片段 9】 query函数实现区间查询:

static int query (int l, int r, int num) {
    if (tree[num].lazy != 0) { // 下传懒惰标记
        pushdown(num);
    }
    if (tree[num].l == l && tree[num].r == r) { // 找到当前区间
        return tree[num].sum;
    }
    int mid = (tree[num].l + tree[num].r) / 2;
    if (r <= mid) { // 在左区间
        return query(l, r, num * 2);
    }
    if (l > mid) { // 在右区间
        return query(l, r, num * 2 + 1);
    }
    return query(l, mid, num * 2) + query(mid + 1, r, num * 2 + 1); // 分成2块
}

【代码解析 9】 步骤与区间修改完全相同,记得要 pushdown 一下就行。


思考与探究


下面让我们进行一些对于线段树的思考与探究:

【思考 1】 线段树都应用于什么环境?除了区间和外,能否解决更多问题?比起别的树有什么优势?

【答案 1】 线段树一般多用于区间问题。在本文中我们解决的是区间和,但是也能解决更多的问题,比如区间平方和等等。线段树只能解决符合下面条件的问题:

当区间[l,r]可以由[l,mid(l,r)]和[mid(l,r) + 1,r]得到答案

我们举几个满足条件的例子:

  • 区间[5,8]的区间和,可以由[5,6]的区间和加上[7,8]的区间和得到。

  • 区间[5,8]的最小值,等于区间[5,6]的最小值与[7,8]的最小值的最小值。

但是还有一些不满足条件:

  • 区间[5,8]的最长上升子序列。

另外就是线段树比起别的树的特点。线段树属于二叉搜索树,像我们熟悉的红黑树、AVL树其实也都属于二叉搜索树。只不过不同的二叉搜索树用处不相同。线段树比起别的树,它的最大特点就是用作存储区间的特性。

【思考 2】 线段树和前缀和算法有什么优劣区别吗?

【答案 2】 写到这里并不清楚各位是否明白前缀和算法。这里给大家简单介绍一下:

对于任何一个序列,都能制作一个相对应的前缀和数组。对于一个序列来讲,假如我们用pre表示前缀和数组,那么pre[i]就表示区间[1,i]的区间和,比如pre[3]为array[1]+array[2]+array[3],也就是7。

现在我们可用pre[i]表示区间[1,i],那么假如有一个任意区间[l,r],我们应该怎么表示它的区间和呢?仔细思考一下不难发现,区间[l,r]的区间和其实就是区间[1,r]减去区间[1,l - 1],剩下的也就是区间[l,r]了。因此我们可用pre[r]-pre[l-1]表示。

举个例子,区间[3,5]的和为1+3+4=8,相当于区间[1,5]减去区间[1,(3 - 1)],也就是14-6=8。

我们发现,使用前缀和只要做一个减法就能得到区间和,而线段树还要遍历好多次,那是不是说,前缀和甚至要快于线段树呢?我们可以来对比一下线段树和前缀和的时间复杂度:


线段树的完整代码


最后,附上线段树的完整代码实现:

static int n = 10; // n是元素个数
static int[] array = {0, 1, 5, 1, 3, 4, 2, 0, 9, 0, 9};
// array是原序列(第一个0是占array[0]位的)
static Node[] tree = new Node[4*n]; // tree是线段树

public static void main(String[] args) {
    initTree();
    build(1, 10, 1); // 利用build函数建树
    System.out.println("操作1:[2,5]的区间和是:" + query(2, 5, 1));
    // 利用query函数搜索区间和
    modify(5, 9, 1); // 利用modify函数实现单点修改(元素5从4改为9)
    System.out.println("操作2:元素5从4改为9,此时[2,5]的区间和是:" + query(2, 5, 1));
    modifySegment(3, 4, 3, 1);
    // 利用modifySegment函数将[3,4]每个元素增加3
    System.out.println("操作3:区间[3,4]每个元素+3,此时[2,5]的区间和是:" + query(2, 5, 1));
}

static void initTree (){
    for(int i = 0; i < tree.length; i++){
        tree[i] = new Node(0, 0, 0, 0);
    }
}

static void updateNode (int num) { // num是当前节点序号
    tree[num].sum = tree[num * 2].sum + tree[num * 2 + 1].sum;
}

static void build (int l, int r, int num) { // 建树
    tree[num].l = l;
    tree[num].r = r;
    if (l == r) { // l = r说明到达叶子节点
        tree[num].sum = array[l];
        return;
    }
    int mid = (l + r) / 2;
    build(l, mid, num * 2); // 递归左儿子
    build(mid + 1, r, num * 2 + 1); // 递归右儿子
    updateNode(num);
}

static void modify (int i, int value, int num) { // 把元素i修改为值value
    if (tree[num].l == tree[num].r) { // 到达叶子节点
        tree[num].sum = value;
        return;
    }
    int mid = (tree[num].l + tree[num].r) / 2;
    if (i <= mid) {
        modify(i, value, num * 2); // 递归左儿子
    }
    else {
        modify(i, value, num * 2 + 1); // 递归右儿子
    }
    updateNode(num);
}

static void modifySegment(int l, int r, int value, int num) { // [l,r]每一项都增加value
    if (tree[num].l == l && tree[num].r == r) { // 找到当前区间
        tree[num].sum += ( r - l + 1 ) * value; // r-l+1是区间元素个数
        tree[num].lazy += value;
        return;
    }
    int mid = (tree[num].l + tree[num].r) / 2;
    if (r <= mid) { // 在左区间
        modifySegment(l, r, value, num * 2);
    }
    else if (l > mid) { // 在右区间
        modifySegment(l, r, value, num * 2 + 1);
    }
    else { // 分成2块
        modifySegment(l, mid, value, num * 2);
        modifySegment(mid + 1, r, value, num * 2 + 1);
    }
    updateNode(num);
}

static void pushDown(int num) {
    if(tree[num].l == tree[num].r) { // 叶节点不用下传标记
        tree[num].lazy = 0; // 清空当前标记
        return;
    }
    tree[num * 2].lazy += tree[num].lazy; // 下传左儿子的懒惰标记
    tree[num * 2 + 1].lazy += tree[num].lazy; // 下传右儿子的懒惰标记
    tree[num * 2].sum += (tree[num * 2].r - tree[num * 2].l + 1) * tree[num].lazy; // 更新左儿子的值
    tree[num * 2 + 1].sum += (tree[num * 2 + 1].r - tree[num * 2 + 1].l + 1) * tree[num].lazy; // 更新右儿子的值
    tree[num].lazy=0; // 清空当前节点的懒惰标记
}

static int query (int l, int r, int num) {
    if (tree[num].lazy != 0) { // 下传懒惰标记
        pushDown(num);
    }
    if (tree[num].l == l && tree[num].r == r) { // 找到当前区间
        return tree[num].sum;
    }
    int mid = (tree[num].l + tree[num].r) / 2;
    if (r <= mid) { // 在左区间
        return query(l, r, num * 2);
    }
    if (l > mid) { // 在右区间
        return query(l, r, num * 2 + 1);
    }
    return query(l, mid, num * 2) + query(mid + 1, r, num * 2 + 1); // 分成2块
}

static class Node {
    int l; // l是区间左边界
    int r; // r是区间右边界
    int sum; // sum是区间元素和
    int lazy; // lazy是懒惰标记

    public Node (int l, int r, int sum, int lazy){
        this.l = l;
        this.r = r;
        this.sum = sum;
        this.lazy = lazy;
    }
}

需要特别说的的是,投稿的王乙堃同学年仅12岁,在读小学六年级,能写出这样的文章真的很了不起!

更多精彩推荐

天下苦苹果久矣:面对苹果税,开发者揭竿而起!

零基础编程小白如何拿 Offer?八年经验面试官万字肺腑之言

滴滴上线自动驾驶服务;微软宣布将永久关闭实体店;.NET 5.0 Preview 6 发布 | 极客头条

138 张图带你 MySQL 入门!

独家揭秘!抖音爆款漫画变身特效的背后技术

2013年买了100万美元比特币却希望“比特币归零”,这位亿万富翁公开“比特币鲸鱼”身份

你点的每个“在看”,我都认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存