查看原文
其他

高效率编写Dockerfile需要绕过的一些坑

侠梦 侠梦的开发笔记 2022-09-11

前言

在日常的开发和运维中,我们时常会使用Dockerfile脚本制作镜像。其实编写一个Dockerfile文件用到的标签并不会太多,但是不同的Dockerfile在制作后产生的镜像大小是不尽相同的,这篇文章就来梳理一下,编写脚本过程中,容易犯的错误。

一、拉取最新的镜像

在从镜像仓库拉取镜像时,不指定任何版本的情况下,默认会拉取最新(latest)的版本。这在我们构建集群和复用时会造成困扰,也就是说只要组件的镜像仓库还在更新,不同时间拉取到的镜像版本可能是不一样的,那样简直太混乱了,所以,在拉取镜像时,记得加上具体的版本号。

二、在构建时使用外部脚本命令

很多人在构建镜像时,没有明确的区分出在宿主机上和在容器内执行的区别。构建映像时,Docker读取Dockerfile中的命令并从中创建镜像,不应该在文件里使用一些宿主机上的命令,因为这些环境在容器内,可能压根就没有。如:

# !!! 宿主机上有python环境,但容器内部可能没有,这是两套环境 !!!

RUN python start.py

三、把不容易变化的命令放前面

在保证逻辑执行正确的情况下,可以把不容易变化的命令放在前面,因为这样可以 我们应该把变化最少的部分放在 Dockerfile 的前面,这样可以充分利用镜像缓存。

什么是镜像缓存?

Dockerfile 中每一个指令都会创建一个镜像层,依赖顺序和命令的顺序刚好相反,比如最开始的from centos7.3 就是最底层的基础镜像。在构建时 会缓存已有镜像的镜像层,如果某镜像层已经存在,就直接使用,无需重新创建。

原镜像1.0版本构建后的某一天,某个小伙伴说:需要修改start.sh来创建一个新的1.1版本的镜像,由于合理的组织命令顺序,所以能命中很多的层,构建效率也大大加快了。

还想提一点的是,ENV,设置环境变量命令。

在Dockerfile中无论是后面的其它指令,如 RUN,还是在容器中,运行时的应用,都可以直接使用这里定义的环境变量。我们在创建某种组件的镜像时,常常将组件的版本号设置为一个环境变量,其好处是方便我们后的续修改。所以这里建议,在Dockerfile的后续命令中,没有用到的环境变量,尽量定义到最后面,原因你懂的(改版本后能尽量命中更多缓存)。

四、避免整合多个镜像

举一个极端的例子,假如你想要构建的镜像既有python环境,又有java环境,可能会写出如下的命令:

FROM jdk:1.8.9
FROM python:3.5

不过这并不会达到预期的效果,Docker会使用最后的一个FROM,并且忽略掉前面所有的From内容。所以正确的做法应该先使用Dockerfile构建一个具有java和python环境的centos基础镜像,然后你的程序再依赖这个基础镜像即可。

注意,上述原理只在Docker v17.05 前,在这个版本后,为解决以上问题,开始支持多阶段构建 (multistage builds)。使用多阶段构建我们就可以很容易解决前面提到的问题,并且只需要编写一个 Dockerfile。

每条FROM指令可以使用不同的基础镜像,这样您可以选择性地将服务组件从一个阶段COPY到另一个阶段,在最终镜像中只保留需要的内容。

五、避免在一个容器中运行多个服务

在一个容器中运行多个服务,会导致编写的Dockerfile变得更加复杂和困难,并且,附加的一些依赖会让构建速度变慢,不利于调试和维护。

当然,如果是测试环境限制,可以在一个容器中运行多个服务,但是并不建议在生产环境这样做,不利于水平扩展单个应用。

六、避免在构建过程中使用数据卷

Dockerfile为我们提供数据卷的功能,在文件中,我们可以使用VOLUME命令来指定匿名数据卷,当然你可以在运行容器时指定,写在这里的目的是:为了防止运行时用户忘记指定数据卷映射,所以我们可以事先指定某些目录挂载为匿名卷,这样在运行时如果用户不指定挂载,其应用也可以正常运行。

VOLUME /data
RUN echo "构建过程中搞事情?!!!!" > /data/myfile.txt

CMD ["cat", "/data/myfile.txt"]

$ docker run volume-in-build
cat: can't open '/data/myfile.txt': No such file or directory

VOLUME /data 这里的 /data 目录就会在运行时自动挂载为匿名卷,任何向 /data 中写入的信息都不会记录进容器存储层,从而保证了容器存储层的无状态化。当然,运行时可以覆盖这个挂载设置:

docker run -d -v host/data:/data xxxx

七、辩证的选择ADD或COPY命令

虽然功能类似,ADD和COPY实际上是不同的命令。COPY是这两种方法中最简单的一种,因为它只是将文件或目录从您的主机复制到镜像中。ADD也能做到这一点,但它还有一些更神奇的特性,比如提取tar文件或从远程url获取文件。一般情况下,建议使用ADD来代替COPY命令,由图所知,一行ADD能做完的事,COPY需要三行。但是从另一个角度来说,为了降低Dockerfile的复杂性,并防止一些意外的行为,也可以选择使用COPY命令。

八、融合多个命令到一行

上面对比过ADD命令和COPY的区别,由于每一行指令会构建一个镜像层,所以在编写Dockerfile的时候,可以一些命令串联成一行,中间通过&&运算符,一行结束位置加上 \ 符号,融合命令后,能够降低镜像的体积。案例如下:

RUN set -ex && \
apk upgrade --no-cache && \
apk add --no-cache bash tini libc6-compat && \
mkdir -p /opt/spark && \
mkdir -p /opt/spark/work-dir \
touch /opt/spark/RELEASE && \
rm /bin/sh && \
ln -sv /bin/bash /bin/sh && \
chgrp root /etc/passwd && chmod ug+rw /etc/passwd

总结

本篇文章,介绍了在编写Dockerfile中的一些心得和体会,编写一个好的Dockerfile将会让我们更熟悉Docker的工作机制,降低我们构建镜像所花的时间。提升我们在日常开发中的工作效率。




创建了一个java方面的互助群,和其他传统的学习群不同。

在本群,你可以

1)阐述你在开发过程中遇到的问题,群友集思广益,高效解答。

2)分享自己学习的一些心得,让后来学习者少踩坑。

3)资源共享,无论是好的学习视频还是文档都可以在群内共享。

别人有可能可以给你提供一些思路和看法

同样,如果你也乐于帮助别人,那解决别人遇到的问题,也同样对你是一种锻炼。



如果群满,无法加群,请通过公众号回复【加群】






文章好看点这里

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存