分布式存储的多副本纠删码简介

本文最后更新于：2025年2月22日下午

什么是分布式存储？

介绍多副本和纠删码之前，我们先来说一下分布式存储。分布式存储是不同于传统集中式存储的的一种架构，很多时候也被称为 SDS 即软件定义存储（Software Defined Storage）。

传统集中式存储采用控制器 + 硬盘柜的方式，通过冗余的双控制器提供数据管理和读写能力（也有超过 2 个控制器的多控存储，多见于高端存储），通过控制器自带的硬盘槽位或扩展硬盘柜提供存储空间，如下图。

集中式存储

集中式存储的硬盘数据保护多采用 RAID 技术，比如 RAID5、RAID6、RAID10 等。

分布式存储为了实现更灵活的扩展性和更大的存储规模，采用无中心的组网方式，每个存储节点都可以同时提供计算和存储资源。它们通过内部交换机互联起来，基于分布式存储软件提供统一的存储资源池。比如 1 个节点是 200TB 容量，那么 5 个节点就是 1000TB 容量，并可以扩展到数千个节点 EB 级别的容量，所以更适合用在海量数据的场景下。

分布式存储

与集中式存储不同的是，分布式存储的硬盘数据保护多采用多副本和纠删码技术。

什么是多副本和纠删码技术？

多副本，顾名思义就是多个数据副本，简单来说就是一个数据拷贝多份完全一样的副本，分别存放在多个不同节点上。比如我们常用的 3 副本（如下图所示）就是将 A 这个数据拷贝了 3 份，分别存放在节点 1、3、4 上，这三个节点是在整个集群中随机选择的，下一个 B 数据有可能就放在节点 1、2、4 上了。

三副本

我们来看下多副本的数据保护效果，很明显，当节点 1 和 3 同时故障时，节点 4 上仍然会保存有 A 数据。以此类推，我们可以知道，N 副本技术可以允许 N-1 个节点同时故障数据不丢失。如果是硬盘故障，只要故障硬盘的范围不超过 N-1 个节点，数据也不会丢失，比如节点 1 坏了 3 块盘、节点 3 坏了 4 块盘，数据仍然不会丢失。

理解了什么是多副本之后，我们再来看下什么是纠删码。纠删码的英文全称是 Erasure Code，所以有时我们也会简称为 EC。纠删码顾名思义是一种纠正数据丢失的校验码，大家可以把它类比成一个方程组。我们如果知道 4 个数 a、b、c、d，就可以通过 2 个不同的公式算出 2 个校验数据 x 和 y，把 6 个数据一起保存起来，那么当 a、b、c、d 其中 1 个或 2 个数据丢失的话，就可以通过剩余的 2 个值和计算公式，反推出丢失的 2 个数据。比如：

已知：a+b+c+d=x=10，a+2b+3c+4d=y=20，c=2，d=1

那么：a+b=7，a+2b=10，则a=4，b=3

当然以上计算只是一个简化的方案，目的是帮助大家理解，真正存储中用的校验方式会比这个复杂得多，但效果是类似的。

如果我们用 M+N 表示纠删码的话，以上就是一个 4+2 的纠删码方案，数据会被切分成 4 个相同大小的分片，并通过校验算法生成 2 个同样大小的校验分片 P 和 Q。比如 32KB 的数据会被切成 4 个 8KB 的分片，再生出 2 个 8KB 的分片，总计 48KB 数据。当 6 个数据分片生成后，它们会被随机存到 6 个不同的节点上（如下图所示）。

纠删码

和多副本一样，我们来看下 4+2 纠删码的数据保护效果。从上图可以看出，当任意 2 个节点故障时，数据是不会丢失的，因为只会丢失 2 个数据分片，还是可以反算出来的。当然如果同时故障了 3 个节点，4+2 的纠删码是无能为力的，就像 1 个方程有 2 个未知数怎么也解不出来一样。而且 4+2 纠删码也可以允许 2 个节点内任意个数硬盘故障时，数据不丢失。比如节点 1、节点 2 分别故障了 5 块硬盘，也完全不会有影响，因为每一组 4+2 分片都有 4 个分片还在，数据还是可靠的。

多副本和纠删码对存储节点有什么要求？

多副本和纠删码对分布式存储的节点数量和硬盘配置都有一定要求，主要是 2 点：

N 个副本至少需要 N 个节点才能部署，比如 3 副本至少需要 3 个存储节点，而 M+N 纠删码至少需要（M+N）个节点，比如 4+2 纠删码至少需要 6 个节点，当然这只是最低要求，上限并没有限制，另外也不会有倍数比例的要求，比如 3 副本并不要求一定是 6 个、9 个节点，5 个、7 个节点也可以；

每个节点的硬盘数量和单盘容量建议相同，因为如果不同的话，就会出现水桶的短板效应，两个节点，一个节点配置 8TB 硬盘，一个节点配置 4TB 硬盘，8TB 硬盘只能当 4TB 硬盘用，因为每个节点的数据保存容量是随机分布、几乎相同的。

什么是 M+N:1 纠删码？

除了常见的 M+N 纠删码之外，我们还经常见到一种 M+N:1 的纠删码，这是一种特殊的纠删码技术，我们称之为亚节点纠删码。

这种技术的出现是为了满足小规模集群的部署要求，我们举个例子，有一个用户采购了 3 个分布式存储节点，因为节点数量比较少，他可选的数据冗余策略就只有 3 副本和 2+1 纠删码（2 副本暂不考虑，后文我们来详细说明原因）。选择 3 副本的话，存储的空间利用率就只有 33% 了，如果我们再考虑其他因素，比如硬盘标称值的差异、系统预留空间、热备空间的话，可用空间可能只有 26% 左右，这对于很多看重容量的用户来讲是比较难以接受的。但如果我们选择 2+1 纠删码呢，问题出现了，2+1 纠删码只能允许 1 个分片数据丢失，当集群中 2 个节点分别故障 1 块硬盘的时候，数据就丢失了！

在实际使用场景下，2 块硬盘同时故障的情况虽然比较少见，但概率也并不算低，因为很多用户在 1 块硬盘故障时可能并没有发觉。这段时间存储就是在极其危险的状态下运行，任何硬盘出问题都会导致集群数据丢失，很显然，2+1 纠删码的方案并不好。

基于以上原因，4+2:1 的纠删码出现了。为什么叫亚节点纠删码呢，因为默认的纠删码是按照节点来分配数据的，但 4+2:1 只会按照硬盘来分配数据，它把 3 个节点当 6 个节点用，每个节点选择 2 块硬盘，整个集群选择 6 块不同的硬盘来存放 4+2 总计 6 个分片数据（如下图所示）。

M+N:1

我们看到，4+2:1 相比 2+1 纠删码，虽然能容忍节点故障数量仍然是 1 个，但它可以允许 2 个节点分别故障 1 块硬盘（总计故障 2 块硬盘）而数据不丢失。而实际情况下，硬盘故障的概率是远远低于整个节点故障的，所以 4+2:1 还是非常可靠的，而且它的空间利用率远高于 3 副本。当然如果你担心的是 2 个节点同时故障，那你只能选择 3 副本了。

类似于 4+2:1，也存在 8+2:1、16+2:1 等亚节点纠删码，这里我们就不多讨论了。

多副本和纠删码哪个好，应该如何选择？

在比较多副本和纠删码技术时，我们可以从可用容量、读写性能、重构性能、可靠性等方面来分析，如下表所示。

多副本 vs 纠删码

在可用容量上，纠删码的优势是较大的，比如 4+2 纠删码的利用率是 66%，但 3 副本只有 33%，两者差了 2 倍，8+2 纠删码更可以做到 80%，这一局纠删码完胜！

在读写性能上，多副本往往会更高，因为纠删码在写入时涉及数据校验，而且可能会产生写惩罚，在读取时更会横跨多个节点。比如 4+2 纠删码在读取 1 个数据时，需要从 4 个节点分别读取 4 个分片再进行拼接，任何 1 个节点时延过高，都会对性能造成很大影响。而多副本只需要读取 1 个完整的分片即可，不涉及节点的数据拼接。这两者的性能差异在小块 IO 时会较为明显，但如果 IO 块比较大的话，比如 1MB，那么两者的性能差距就会逐渐缩小，因为这时候写惩罚较少，纠删码也能很好发挥多个节点并发的优势，这一局多副本略胜一筹！

在重构性能上，多副本也会有明显优势，因为不涉及数据校验，只是单纯的数据拷贝，所以速度比较快。而纠删码的重构涉及反向校验的计算过程，所需要的读写数据量和 CPU 计算消耗都会更大，这一局多副本同样略胜一筹！

ℹ️说明：

重构指的是存储硬盘故障后的数据恢复过程，把故障硬盘的数据恢复到正常的硬盘上，保证数据的完整性。

在可靠性上，多副本和纠删码的故障冗余程度往往差别不大，比如 3 副本和 4+2 纠删码都可以允许任意 2 个节点故障而数据不丢失。但我们也需要注意两点：

多副本的重构性能往往比纠删码更快，所以硬盘故障恢复也更快，会带来一些可靠性上的优势。
纠删码可以采用 +3、+4 的策略来容忍更多节点故障，而且空间利用率并不会太低，但如果多副本采用 4 副本、5 副本的话代价就太大了，所以这一点上纠删码有优势。

这一局两者难分伯仲！

综合来看，如果用户更关注性能，尤其是小 IO 的场景，多副本往往是更好的选择，如果用户更关注可用容量，而且是大文件场景的话，纠删码会更合适。

应该具体选择什么规格的纠删码和多副本？

常见的多副本和纠删码策略如下表，我们逐个分析：

常见的多副本和纠删码策略

2 副本：

不推荐！不推荐！不推荐！重要的事情说 3 遍，因为真的很危险！可能很多用户看重了 2 副本还不错的空间利用率（50%），同时性能也非常好，但选择存储的底线很多时候往往是数据的可靠性，千万不能因小失大。2 副本只能允许任意 1 块硬盘故障，一旦 1 块硬盘故障后，整个集群就处于岌岌可危的状态，任何问题都可能导致所有数据全部丢失。而想想硬盘每年 1%-2% 的平均故障率，整个集群可能有上百块硬盘，你还想每年都担惊受怕好几次吗？所以除了开发测试场景，完全不担心数据丢失这种情况外，忘了 2 副本吧，它真的很危险！

3 副本：

如果你要选择多副本，那么 2 副本太危险，4 副本太浪费空间，所以 3 副本是最好的选择。它除了空间利用率低一点之外就没有其他缺点了，在容量要求不高的时候其实成本还是可以接受的。在块存储、小文件的场景建议采用这种方案。

2+1 纠删码：

同样不推荐，理由和 2 副本一样，太危险了，而且有 4+2:1 纠删码这个处处比它好的方案在，为什么还要多看 2+1 纠删码一眼呢。

4+2:1 纠删码：

当集群节点数量不足 6 个，没法用 4+2 的情况下，4+2:1 亚节点纠删码无疑是最好的选择，它既可以允许任意 2 块硬盘故障数据不丢失，空间利用率也和 2+1 完全相同。

4+2 纠删码：

当集群节点数 ≥ 6 个时，4+2 纠删码是不错的选择，因为它可以容忍任意 2 个节点的硬盘故障数据不丢失，空间利用率也很高（66%）。

8+2 纠删码：

当集群节点数 ≥ 10 个，而且看重空间利用率大于性能时，8+2 纠删码也是一个选择，它的空间利用率高达 80%，但注意性能可能不理想。

综上所述，当你选择了多副本，3 副本几乎是唯一的选项，当你选择了纠删码，可以根据集群的节点数量进行选择，3-5 个节点时选择 4+2:1，≥6 个节点时选择 4+2，如果你更看重空间利用率，而且不要求高性能的情况，也可以考虑 8+2 纠删码。

除此之外，可能会有人问，5+2、8+3、16+2 等纠删码可不可以用呢？实际上，因为计算机二进制的特点，M+N 纠删码的 M 我们往往取 2 的幂次方，比如 2、4、8、16，这样切片的效率更高，所以 5+2 这类纠删码很少会用。8+3、8+4 这类纠删码虽然比 +2 更可靠，但因为同时故障 3 个、4 个节点的概率太低了，由此带来的性能性下降并不划算，所以也很少使用。16+2 的优势是空间利用率比较高（89%），但性能也较低，所以如果用户的集群规模比较大，对空间利用率要求极高，而且可以容忍一定性能下降的话，16+2 或 16+2:1 在少数场景下也是会被使用的。

以上就是关于分布式存储中多副本和纠删码技术的一些总结，希望对大家有所帮助。

原文链接

📑原文链接：

关于多副本纠删码，你想知道的全都在这里 - 新华三集团 - H3C

云计算

#块存储 #存储 #对象存储 #分布式存储 #集中式存储 #高可用

分布式存储的多副本纠删码简介

https://ewhisper.cn/posts/51960/

作者

东风微鸣

发布于

2021年9月18日

许可协议

Linux LVM 简介上一篇

DRBD 简介下一篇