Docker：感觉自己萌萌哒

K8S中文社区 2019-12-18

神奇的Docker

Docker可谓是近些年越来越受欢迎的一个工具。至于Docker是个什么玩意儿，私以为没必要介绍了，不知道的自然不会对这个文章感兴趣，感兴趣的自然也有办法知道Docker是个什么玩意儿。

那就直接进入正题吧。

都知道，在Docker容器里运行的应用程序，是工作在一个虚拟的环境里的，在这个环境里，进程ID、文件系统、网络等等，全都是“假象”，都是Docker通过某种方式“捏造”出来的。像个沙箱，程序只知道傻乎乎地在其中运行，并不知道自己已经处在Matrix之中了。

Docker能够对程序所访问的资源进行偷梁换柱，而程序丝毫没有察觉，依旧感觉自己萌萌哒。那，Docker是怎么做到这么神奇的一件事的呢？

Prerequisites

了解Docker的功能
Linux编程
使用搜索引擎的能力
脑子

Linux namespace

与其是说Doccker是怎么做到这一件事的，不如说是Linux kernel已经提供了做这么一个事的可能性。明白这一点很重要。Docker之所以能够实现这么神奇的一个效果，归功于Linux kernel开发者们早已在内核中提供了能够实现这样功能的接口。

也就是说，Docker实际上是在内核提供的这个功能上做了丰富的封装，让内核提供的这个feature能够更好地被使用而已。

那什么是namespace呢？命名空间？嗯，命名空间。这么说还是有些难以理解。或者说，这里讲的namespace就像是程序世界里的VR。

人类通过自身的感官感知这个世界，当我们戴上VR头盔的时候，我们看到的是另外一个世界，是一个和没有戴头盔的小伙伴不同的世界。

而程序则是通过syscall去感知和自己所在的世界，也是通过syscall和自己所在的世界进行交互。syscall就像是它们的眼睛、皮肤和手。至于什么是syscall，这个就说来话长了，syscall充当着程序和OS内核之间交互的桥梁，程序访问文件、进行网络通讯等，都需要经过syscall。

而Docker则是通过namespace这个内核提供的feature，给程序戴上了VR头盔，让程序以为自己在一个鲜花于草坪的世界里，实际上周围都是臭水沟。

clone才是一切的根源

在Linux中，clone这个系统调用可以用来创建一个新的进程，在man中可以看到clone这个函数的原型：

int clone(int (*fn)(void *), void *child_stack,
         int flags, void *arg, ...
         /* pid_t *ptid, struct user_desc *tls, pid_t *ctid */ );

clone具体具备些什么功能，可以参考Linux编程相关的资料。clone能干啥呢？克隆？可以这么理解，就是它能够“生”出一个活着的（正在运行的）程序，也就是创建一个新的进程。

不知道从哪个版本开始，Linux内核为clone这个syscall提供了好几个与namespace相关的选项，参见man clone，这些选项可以从flags参数传入，这几个选项分别是：

CLONE_NEWIPC
CLONE_NEWNET
CLONE_NEWNS
CLONE_NEWPID
CLONE_NEWUTS
CLONE_NEWUSER

也就是在使用clone的时候可以传入这些选项：

pid_t child_pid = clone(child_func, child_stack, CLONE_NEWPID | CLONE_NEWNS | SIGCHLD, NULL);

这些选项都能起个什么作用呢？程序在用clone创建新的进程的时候，我们可以告诉clone，新产生的小宝宝需要终生佩戴一个什么样的VR设备，让他在我们“捏造”的“幻境”中了此一生。

看着像是个悲剧。

拿CLONE_NEWPID开刀

当然了，直接看man clone就知道这些个选项到底起个什么作用了。这里还是找个demo来试一下：

#define _GNU_SOURCE

#include <sched.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/wait.h>
#include <sys/utsname.h>
#include <unistd.h>

#define STACK_4M    (4 * 1024 * 1024)

static char child_stack[STACK_4M];

static int child_func() {

    printf("PID: %ld\n", (long)getpid());
    printf("PPID: %ld\n", (long)getppid());

    return 0;
}

int main() {

    pid_t child_pid = clone(child_func, child_stack + STACK_4M, SIGCHLD, NULL);

    printf("clone() = %ld\n", (long)child_pid);
    waitpid(child_pid, NULL, 0);
    return 0;
}

程序启动后，通过clone调用，创建了一个进程，新的进程运行后所执行的代码由child_func指定。在上述例子的clone中第三个参数并没有指定任何一个和namespace相关的参数。也就是说这是个幸运儿，他出生后是活在真实的世界中的。所以你可以看到这样一个输出：

clone() = 2276
PID: 2276
PPID: 2275

具体的数字视情况而定，关键是clone的返回值要和PID相等，这就妥了。clone返回的是子进程的ID，也就对应着child_func这段子进程的代码中getpid的返回值，这两者应该一致。

也就是说，这个demo中，爸爸还是知道谁是自己的孩子的，孩子也知道谁是自己的爸爸的。

好，那么在clone函数中加入新的flag，把刚生下来的孩子直接扔到VR中长大吧，这样他也就不认得自己的爸爸了。

pid_t child_pid = clone(child_func, child_stack + STACK_4M, 
                    CLONE_NEWPID | CLONE_NEWUSER | SIGCHLD, NULL);

这里在clone参数中添加了两个选项：

CLONE_NEWPID
CLONE_NEWUSER

也就是说，在创建进程的时候产生一个新的PID namespace和user namespace。那么，新产生的进程所看到的PID和用户相关的“世界”就是由clone捏造的VR世界了。程序运行后输出如下：

clone() = 2533
PID: 1
PPID: 0

这下，新产生的进程已经不认得真实的自己了（进程获取自己的PID得到的是1），也不认得自己的爸爸了（获取父进程的ID得到的是0）。但是它的爸爸还是认得儿子的（父进程中clone的返回值依旧还像个正常的PID）。

我们在child_func里再加入一行代码：

system("whoami");

打印出子进程当前所在的用户吧。运行一看：

clone() = 2625
PID: 1
PPID: 0
nobody

这家伙连创建自己的上帝（用户）都不知道了，这归功于clone在创建子进程的时候指定了CLONE_NEWUSER选项，即子进程在一个新的user namespace中，它也感知不到namespace之外的用户。

为了更进一步验证在新的namespace中会发生些什么事情，我们再对child_func进行进一步修改：

static int child_func() {

    printf("PID: %ld\n", (long)getpid());
    printf("PPID: %ld\n", (long)getppid());

    pid_t pid = fork();
    if(pid == 0) {
        char * const args[] = { "/bin/bash", NULL};
        execv(args[0], args);
    } else {
        wait(NULL);
    }

    return 0;
}

这个函数中会fork出一个新的进程，并在其中启动一个bash，这样，我们就可以在新的namespace中自由地验证对namespace的各种猜想了。

程序启动后，你看到的界面则是这样的：

clone() = 2824
PID: 1
PPID: 0
nobody@ubuntu-14:~$

这会儿，程序打开了一个新的shell，里头的用户是nobody（因为创建新进程后没有做用户相关的设定）。

这里的用户和前面例子中whoami显示出来的用户一致，也就是说这个shell目前也是运行在“VR环境”中。

在当前这个shell中执行与PID和用户相关的命令，我们看到的是一个全新的环境：

nobody@ubuntu-14:~$ echo $$
2
nobody@ubuntu-14:~$ whoami
nobody

而退出这个shell之后，执行的结果如下：

vagrant@ubuntu-14:~/shared$ echo $$
2712
vagrant@ubuntu-14:~/shared$ whoami
vagrant

这就说明，在child_func中启动的shell，运行在一个完全不同的环境之中，这个环境之中的的程序看不到外面的世界。它不知道系统中还运行了什么东西，也不知道还有些什么用户。

那我运行个ps aux或者htop呢？

结果出乎意料，说好的是运行在独立的环境中呢？说好的看不到外面的世界呢？咋这就把外面的一堆程序都列出来了？

还有

其实，这里并不是namespace的锅，而是ps和htop这样的命令，是通过挂载于/proc下的文件系统来获取信息的，而我们只给clone指定了CLONE_NEWPID和CLONE_NEWUSER两个namespace相关的参数。

那根据man clone，就得再加上CLONE_NEWNS咯。

别急，加上CLONE_NEWNS还没完事儿，还得将新的环境下的proc给重新mount上去，这样才算真正完事儿了。

也就是说，clone这下应该这么用了：

pid_t child_pid = clone(child_func, child_stack + STACK_4M, 
                    CLONE_NEWNS | CLONE_NEWPID | CLONE_NEWUSER | SIGCHLD, NULL);

并且，在child_func中加入挂载proc的代码：

static int child_fn() {

    printf("PID: %ld\n", (long)getpid());
    printf("PPID: %ld\n", (long)getppid());

    char *mount_point = "/proc";
    mkdir(mount_point, 0555);
    if(mount("proc", mount_point, "proc", 0, NULL) == -1) {
        printf("error when mount\n");
    }

    pid_t pid = fork();
    if(pid == 0) {

        char * const args[] = { "/bin/bash", NULL};
        execv(args[0], args);
    } else {

        wait(NULL);
    }

    return 0;
}

这样，重新编译并运行程序，打开在新的namespace下的shell，执行ps aux看到的将是这样：

nobody@ubuntu-14:~$ ps aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
nobody       1  0.0  0.0   5228    88 pts/0    S    13:48   0:00 ./a.out
nobody       2  1.0  0.4  24024  5072 pts/0    S    13:48   0:00 /bin/bash
nobody      15  0.0  0.1  18452  1252 pts/0    R+   13:48   0:00 ps aux

对，这下我们的整个shell看起来就像是运行在一个非常干净的系统中一样的了，没有任何多余的进程。也就是说，在新的namespace中运行的各种程序，都成功地被“VR”给欺骗了。

而实际上，我们在原有的环境中执行ps aux后看到的进程，肯定不止这么点的。

总结

通过现象的对比和代码，我们也算体会了一把namespace的作用，就像一个沙盒，能够建立出一个干净、隔离的新环境，让应用运行在新的环境下，其中的程序只能看到沙箱之中的内容，无法感知也无法干涉到外面的世界。

除了上述例子中使用到的参数，clone还有几个用于控制其它namespace的参数，比如网络、进程间通讯等namespace，这些选项告诉了clone分别应该在哪些地方为子进程建立隔离的namespace。

而Docker中实现虚拟化功能的核心之一，也就正是这里所说到的namespace。

The end。文中若有疏漏，还望指教。

作者昵称：不是油条，全幹工程师
原文：
https://zhuanlan.zhihu.com/p/28273941

---END---

K8S培训推荐

Kubernetes线下实战培训，采用3+1新的培训模式（3天线下实战培训，1年内可免费再次参加），资深一线讲师，实操环境实践，现场答疑互动，培训内容覆盖：Docker架构、镜像、数据存储、网络、以及最佳实践。Kubernetes实战内容，Kubernetes设计、Pod、常用对象操作，Kuberentes调度系统、QoS、Helm、网络、存储、CI/CD、日志监控等。<了解更多详情>

北京站、上海站：1月4-6日；咨询/报名：曹辉/15999647409

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！