「译文」Docker 镜像仓库垃圾收集

本文最后更新于:2023年5月6日 上午

👉️URL: https://docs.docker.com/registry/garbage-collection/

📝Description:

High level discussion of 垃圾收集

从 v2.4.0 开始,垃圾收集器命令包含在注册表二进制文件中。本文档描述了这个命令的作用以及如何和为什么应该使用它。

Debian 上运行垃圾收集

1
/usr/bin/docker-registry garbage-collect --dry-run /etc/docker/registry/config.yml

输出示例如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
emqx/emqx-edge
emqx/emqx-edge: marking manifest sha256:daf0f342c71cdf6238cf3c56a7cfe6ca7333a62b400328c0c81b469ccd629e66
emqx/emqx-edge: marking blob sha256:30c03992a89eb819aba2931bcbb88163fb4e9ed31c839de8060ec56a66884113
emqx/emqx-edge: marking blob sha256:be307f383ecc62b27a29b599c3fc9d3129693a798e7fcce614f09174cfe2d354
emqx/emqx-edge: marking blob sha256:9fb745ef40e3f0afd369751ee44471f6c219438391c8852b30e450e15736e71e
emqx/emqx-edge: marking blob sha256:95ccf8f331e107472d0009407862e4084b5897dd12ec105b1a823e37185ff072
emqx/emqx-edge: marking blob sha256:cd0335bd06052d8ed0cf75dced1b4b73d64a6a66fdea02860ff21b5bed675893
emqx/emqx-edge: marking blob sha256:b9e8afc4fb5ee2fdd2c476dc04583b3b9881883f171b120c0ab60430d81ef63e
emqx/emqx-edge: marking blob sha256:d6f1281450cb81992e0b7003b4f1588b2b1d355075d1092396349ba688d662ef
emqx/emqx-edge: marking blob sha256:5b1be9d5d246a49dd67255d32cb0ac67b7315b9e7ecaf8f87fd44c7b1fe7a368

9 blobs marked, 0 blobs eligible for deletion

然后执行:

1
/usr/bin/docker-registry garbage-collect /etc/docker/registry/config.yml

本次没有 blob 可被删除

关于 垃圾收集

在 Docker 注册表的上下文中,垃圾收集是从文件系统中删除不再被清单引用的 blob 的过程。blob 可以同时包含层和清单。

注册表数据可能会占用相当大的磁盘空间。此外,当需要确保文件系统中不再存在某些层时,垃圾收集可以作为安全考虑因素。

垃圾收集实践

文件系统层按其在注册表中的内容地址存储。这有许多优点,其中之一是数据只存储一次,并由清单引用。查看 这里 了解更多细节。

层因此在清单之间共享;每个清单维护对该层的一个引用。只要一个层被一个清单引用,它就不能被垃圾收集。

可以使用注册表 API 删除清单和层(请参阅 这里 这里 的 API 文档以了解详细信息)。这个 API 删除了对目标的引用,并使它们符合垃圾收集的条件。这也使得它们无法通过 API 读取。

如果删除了一个层,则在运行垃圾收集时将其从文件系统中删除。如果清单被删除,如果没有其他清单引用它们,那么它所引用的层将从文件系统中删除。

实例

在这个例子中,manifest A 引用了两个层:a 和 b。manifest B 引用了层 a 和层 c。

1
2
3
A -----> a <----- B
\--> b |
c <--/

清单 B 通过 API 被删除:

1
2
3
A -----> a     B
\--> b
c

在这个状态层中,c 不再有引用,并且有资格进行垃圾收集。层 a 删除了一个引用,但没有垃圾收集,因为它仍然被清单 a 引用。代表清单 B 的 blob 有资格进行垃圾收集。

在垃圾收集运行之后,清单 A 和它的 blobs 仍然保留。

1
2
A -----> a
\--> b

关于垃圾收集的更多细节

垃圾收集分两个阶段运行。首先,在“标记”阶段,该进程扫描注册表中的所有清单。从这些清单,它构造了一组内容地址摘要。这个集合是“标记集”,表示不删除的集合。其次,在“扫描”阶段,进程扫描所有的 blob,如果 blob 的内容地址摘要不在标记集中,则进程删除它。

垃圾收集分两个阶段运行。首先,在 " 标记 "(mark)阶段,该进程扫描了注册表中的所有清单。从这些清单中,它构建了一个内容地址摘要集。这个集合是 “标记集”,表示不删除的 Blobs 集合。其次,在 “清理”(sweep)阶段,该进程扫描所有的 blob,如果一个 blob 的内容地址摘要不在标记集中,该进程将删除它。

注意:您应该确保注册表处于只读模式或根本不运行。如果您在运行垃圾收集时上传图像,则存在图像层被错误删除导致图像损坏的风险。

这种类型的垃圾收集被称为 stop-the-world 垃圾收集。

运行垃圾收集

垃圾收集可以按如下方式运行

1
bin/registry garbage-collect [--dry-run] /path/to/config.yml

garbage-collect 命令接受一个 --dry-run 参数,该参数在不删除任何数据的情况下打印标记和扫描阶段的进度。使用 info 日志级别运行可以清楚地指示哪些项目适合删除。

config.yml 格式如下:

1
2
3
4
version: 0.1
storage:
filesystem:
rootdirectory: /registry/data

将注册表日志级别设置为 info 的演练垃圾收集的示例输出:

1
2
3
4
5
6
7
8
9
10
11
12
13
hello-world
hello-world: marking manifest sha256:fea8895f450959fa676bcc1df0611ea93823a735a01205fd8622846041d0c7cf
hello-world: marking blob sha256:03f4658f8b782e12230c1783426bd3bacce651ce582a4ffb6fbbfa2079428ecb
hello-world: marking blob sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4
hello-world: marking configuration sha256:690ed74de00f99a7d00a98a5ad855ac4febd66412be132438f9b8dbd300a937d
ubuntu

4 blobs marked, 5 blobs eligible for deletion
blob eligible for deletion: sha256:28e09fddaacbfc8a13f82871d9d66141a6ed9ca526cb9ed295ef545ab4559b81
blob eligible for deletion: sha256:7e15ce58ccb2181a8fced7709e9893206f0937cc9543bc0c8178ea1cf4d7e7b5
blob eligible for deletion: sha256:87192bdbe00f8f2a62527f36bb4c7c7f4eaf9307e4b87e8334fb6abec1765bcb
blob eligible for deletion: sha256:b549a9959a664038fc35c155a95742cf12297672ca0ae35735ec027d55bf4e97
blob eligible for deletion: sha256:f251d679a7c61455f06d793e43c06786d7766c88b8c24edf242b2c08e3c3f599

「译文」Docker 镜像仓库垃圾收集
https://ewhisper.cn/posts/9434/
作者
东风微鸣
发布于
2022年2月20日
许可协议