ZFS

ZFS (Zettabyte File System) 是由 Sun Microsystems 开发的先进文件系统和卷管理器，现由 OpenZFS 社区维护。它将文件系统与卷管理融为一体，提供企业级的数据完整性、高效的存储管理和强大的数据保护功能。

架构概览

ZFS 采用分层架构设计，各层职责明确，协同工作：

┌─────────────────────────────────────────────────────────┐
│                    POSIX Layer (VFS)                    │
├─────────────────────────────────────────────────────────┤
│                ZPL (ZFS POSIX Layer)                    │
├─────────────────────────────────────────────────────────┤
│                    DSL (Dataset Layer)                  │
├─────────────────────────────────────────────────────────┤
│                  DMU (Data Management Unit)             │
├───────────────────────┬─────────────────────────────────┤
│   ARC (Adaptive       │       ZIL (ZFS Intent Log)      │
│   Replacement Cache)  │                                 │
├───────────────────────┴─────────────────────────────────┤
│                       VDEV Layer                        │
├─────────────────────────────────────────────────────────┤
│                 SPA (Storage Pool Allocator)            │
├─────────────────────────────────────────────────────────┤
│                    Physical Devices                     │
└─────────────────────────────────────────────────────────┘

SPA (Storage Pool Allocator)

SPA 是 ZFS 的最底层组件，负责管理物理存储设备并将其抽象为统一的存储池：

设备管理：处理物理磁盘的添加、移除和替换
空间分配：使用基于 slab 的分配器高效管理存储空间
I/O 调度：优化读写请求的排序和聚合
校验和计算：计算并验证所有数据块的完整性

DMU (Data Management Unit)

DMU 是 ZFS 的核心引擎，实现了对象-事务模型：

对象存储：所有数据以对象形式组织，每个对象有唯一标识符 (object ID)
事务组 (TXG)：将多个操作打包为原子事务，保证一致性
块指针：包含物理地址、校验和、压缩信息的元数据结构
间接块：支持文件的动态增长，无需预分配空间

ARC (Adaptive Replacement Cache)

ARC 是 ZFS 的内存缓存层，基于 IBM ARC 算法改进：

┌─────────────────────────────────────────┐
│              ARC Cache                  │
├──────────────────┬──────────────────────┤
│   MRU (Most      │   MFU (Most          │
│   Recently Used) │   Frequently Used)   │
├──────────────────┴──────────────────────┤
│         Ghost Lists (L2MRU, L2MFU)      │
└─────────────────────────────────────────┘

自适应：动态调整 MRU/MFU 比例，适应不同工作负载
Ghost Lists：记录被淘汰的元数据，优化缓存决策
预取 (Prefetch)：智能预读顺序访问的数据块
元数据优先：优先缓存元数据，加速目录遍历和属性查询

内存压力处理：当系统内存紧张时，ARC 会自动释放缓存。可通过 arc_max 限制 ARC 最大内存使用。

ZIL (ZFS Intent Log)

ZIL 保证同步写操作的持久性：

意图日志：记录待提交的事务意图，而非完整数据
崩溃恢复：系统崩溃后重放 ZIL 恢复未完成的事务
事务合并：将多个小事务合并为更大的 I/O 操作

SLOG (Separate Intent Log)

SLOG 是 ZIL 的可选加速设备：

位置：独立的高速存储设备（如 NVMe SSD）
作用：加速同步写操作（如 NFS、数据库）
容量需求：通常 8-32 GB 足够，取决于事务大小和延迟
冗余建议：生产环境应使用镜像 SLOG 避免单点故障

[!IMPORTANT] SLOG 设备故障会导致池中存在待同步数据时的导入问题。务必使用高耐久性设备并配置冗余。

L2ARC (Level 2 ARC)

L2ARC 是 ARC 的扩展缓存层：

位置：高速 SSD 设备
内容：存储被 ARC 淘汰的热数据
预热：启动时重新填充，需要时间达到最佳效果
适用场景：工作集远大于可用内存时

[!NOTE] L2ARC 元数据存储在 ARC 中，会消耗额外内存。需评估收益与成本的平衡。

核心概念

存储池 (Pool)

存储池是 ZFS 的基础存储单元，将多个物理设备聚合为统一的存储资源：

# 创建包含 RAID-Z2 的池
zpool create tank raidz2 /dev/sd{a,b,c,d,e,f}

# 添加读缓存
zpool add tank cache /dev/nvme0n1

# 添加 SLOG
zpool add tank log mirror /dev/nvme1n1 /dev/nvme2n1

VDEV (Virtual Device)

VDEV 是 ZFS 的逻辑设备抽象，可嵌套组合：

VDEV 类型	说明	适用场景
disk	单个磁盘	测试环境
file	文件设备	开发测试
mirror	镜像（N 路）	高可靠性
raidz	单校验 (类似 RAID-5)	容量优先
raidz2	双校验 (类似 RAID-6)	企业存储
raidz3	三校验	大规模存储
spare	热备设备	自动故障替换
cache	L2ARC 设备	读缓存
log	SLOG 设备	同步写加速
special	特殊分配类	元数据加速

RAID-Z 详解

RAID-Z 是 ZFS 特有的软件 RAID 实现，解决了传统 RAID-5 的写洞问题：

写洞问题：传统 RAID-5 在写入数据和校验值之间崩溃会导致数据不一致。

RAID-Z 解决方案：

Copy-on-Write：永不覆写已有数据
动态条带宽度：每次写入创建完整条带
校验和验证：每个块都有独立校验和

选择建议：

RAID-Z 级别	可容忍故障数	空间效率	推荐磁盘数
RAID-Z1	1	(N-1)/N	3-5
RAID-Z2	2	(N-2)/N	6-10
RAID-Z3	3	(N-3)/N	10+

[!WARNING] 避免在大容量磁盘上使用 RAID-Z1：重建时间过长会增加二次故障风险。

数据集 (Dataset)

数据集是 ZFS 中数据的组织单位，支持独立的属性配置：

# 创建数据集
zfs create tank/home

# 配置属性
zfs set compression=zstd tank/home
zfs set quota=100G tank/home/user
zfs set recordsize=1M tank/media    # 大文件优化

数据集类型：

类型	说明
filesystem	标准文件系统数据集
volume (zvol)	块设备，用于 iSCSI、虚拟机等
snapshot	只读时间点快照
bookmark	轻量级快照引用

关键属性参数

压缩 (compression)

算法	压缩比	CPU 开销	适用场景
off	无	无	已压缩数据
lz4	低-中	极低	通用默认
zstd	中-高	低-中	文本、日志
zstd-fast	较低	极低	高吞吐场景
gzip-9	高	高	归档数据

# 查看压缩效果
zfs get compressratio,used,logicalused tank/data

[!TIP] 压缩通常能提升性能：减少 I/O 数据量带来的收益往往超过 CPU 开销。

校验和 (checksum)

算法	说明
on (fletcher4)	默认，性能优先
sha256	加密级别完整性
skein	高安全性
edonr	快速加密校验
blake3	现代高速算法

记录大小 (recordsize)

record 是 ZFS 读写的基本单位，影响性能表现：

场景	推荐值
数据库	8K-16K
虚拟机镜像	64K-128K
大文件媒体	1M
通用文件	128K (默认)

zfs set recordsize=16k tank/mysql

去重 (dedup)

去重通过存储数据块的指纹来消除重复：

# 预估去重效果（不实际启用）
zdb -S tank

# 启用去重
zfs set dedup=on tank/data

[!CAUTION] 去重需要大量内存来存储 DDT (Dedup Table)。每 TB 数据约消耗 5GB 内存。仅在确认收益后启用。

其他重要属性

# 访问时间记录
zfs set atime=off tank          # 禁用 atime 提升性能
zfs set relatime=on tank        # 仅定期更新 atime

# 扩展属性
zfs set xattr=sa tank           # 使用系统属性存储 xattr

# 同步模式
zfs set sync=disabled tank/temp # 仅限临时数据，有数据丢失风险

# 快照可见性
zfs set snapdir=visible tank    # 显示 .zfs/snapshot 目录

原生加密 (Native Encryption)

ZFS 提供内置的数据加密功能，支持在池、数据集或磁盘级别进行加密：

加密算法

算法	说明
aes-256-gcm	默认，推荐使用
aes-256-ccm	备用选项
aes-128-gcm	较低安全级别
aes-128-ccm	较低安全级别

密钥管理

# 创建加密数据集（交互式输入密码）
zfs create -o encryption=aes-256-gcm -o keyformat=passphrase tank/secure

# 使用密钥文件
zfs create -o encryption=on -o keyformat=raw -o keylocation=file:///root/key tank/secure

# 加载密钥
zfs load-key tank/secure

# 卸载密钥
zfs unload-key tank/secure

# 更换密钥
zfs change-key -o keyformat=passphrase tank/secure

加密特性

继承性：子数据集默认继承父数据集的加密设置
透明性：加密/解密对应用完全透明
密钥轮换：支持更换加密密钥而无需重新加密数据
压缩优先：数据先压缩后加密，最大化压缩效率

[!NOTE] 加密数据集在挂载前需要加载密钥。可配置 keylocation 实现自动加载。

性能影响

现代 CPU 的 AES-NI 指令集使加密开销极低。典型场景下性能影响小于 5%。

快照与复制 (Snapshots & Replication)

快照是 ZFS 最强大的功能之一，基于 Copy-on-Write 实现近乎即时的时间点备份。

快照操作

# 创建快照
zfs snapshot tank/data@2024-01-15

# 递归创建（包含子数据集）
zfs snapshot -r tank@backup-$(date +%Y%m%d)

# 列出快照
zfs list -t snapshot

# 回滚到快照
zfs rollback tank/data@2024-01-15

# 删除快照
zfs destroy tank/data@2024-01-15

# 按规则批量删除
zfs destroy tank/data@%monthly-%  # 删除匹配模式的快照

增量快照

快照之间只存储变化的数据块，极其节省空间：

# 查看快照空间使用
zfs list -o name,used,refer -t snapshot tank/data

数据复制 (ZFS Send/Recv)

ZFS 支持将数据集以流的形式发送到其他位置：

# 完整发送
zfs send tank/data@snap1 | zfs recv backup/data

# 增量发送（只发送 snap1 和 snap2 之间的差异）
zfs send -i tank/data@snap1 tank/data@snap2 | zfs recv backup/data

# 压缩传输
zfs send tank/data@snap | gzip | ssh remote "gunzip | zfs recv backup/data"

# 原始模式（保留加密、压缩等）
zfs send --raw tank/data@snap | zfs recv backup/data

# 断点续传（书签）
zfs bookmark tank/data@snap1 tank/data#mark1
zfs send -i tank/data#mark1 tank/data@snap2 | zfs recv backup/data

自动快照策略

推荐使用 zfs-auto-snapshot 或 sanoid 实现自动化：

# sanoid 配置示例 (/etc/sanoid/sanoid.conf)
[tank/data]
    use_template = production
    recursive = yes

[template_production]
    hourly = 24
    daily = 30
    monthly = 12
    yearly = 5
    autosnap = yes
    autoprune = yes

异地复制

实现 3-2-1 备份策略的关键组件：

场景	工具	说明
本地复制	zfs send/recv	同一系统内的池间复制
远程服务器	syncoid + ssh	加密隧道安全传输
云存储	zfs send + rclone	上传到 S3/B2 等对象存储

[!TIP] 使用 syncoid (Sanoid 套件) 可以自动化增量复制，支持断点续传和并行传输。

Copy-on-Write (COW) 机制

Copy-on-Write 是 ZFS 的核心设计原则，所有写操作永不覆盖现有数据：

工作原理

传统文件系统（原地写入）:
┌─────────┐    ┌─────────┐
│ Block A │ => │ Block A'│  (覆盖原数据，风险高)
└─────────┘    └─────────┘

ZFS (Copy-on-Write):
┌─────────┐    ┌─────────┐
│ Block A │    │ Block A │  (保留原数据)
└─────────┘    └─────────┘
                    │
               ┌─────────┐
               │ Block B │  (新数据写入新位置)
               └─────────┘

COW 的优势

特性	说明
数据安全	写操作失败不会损坏原数据
原子性	事务要么完全成功，要么完全失败
快照效率	快照几乎不占用额外空间
无写洞	解决传统 RAID 的写洞问题
自愈能力	配合校验和检测并修复损坏

COW 的注意事项

碎片化：频繁随机写可能导致碎片增加
空间利用：需保留足够空闲空间（建议 10-20%）
数据库优化：对于大型数据库，考虑调整 recordsize 和使用 zvol

内核模块调优

ZFS 内核模块提供大量可调参数，位于 /sys/module/zfs/parameters/。

ARC 缓存调优

# 查看当前 ARC 状态
cat /proc/spl/kstat/zfs/arcstats

# 设置 ARC 最大值 (字节)
echo 17179869184 > /sys/module/zfs/parameters/zfs_arc_max  # 16GB

# 设置 ARC 最小值
echo 4294967296 > /sys/module/zfs/parameters/zfs_arc_min   # 4GB

# 持久化配置
echo "options zfs zfs_arc_max=17179869184" > /etc/modprobe.d/zfs.conf

ARC 调优原则：

参数	说明	默认值
zfs_arc_max	ARC 最大内存	物理内存 50%
zfs_arc_min	ARC 最小内存	32MB 或 max/2
zfs_arc_meta_limit	元数据缓存上限	arc_max 的 25%
zfs_arc_dnode_limit	dnode 缓存上限	元数据限制的 10%

ZIL 和同步写调优

# ZIL 提交延迟（微秒）
echo 5000 > /sys/module/zfs/parameters/zfs_commit_timeout_pct

# 禁用 ZIL（仅测试环境）
echo 0 > /sys/module/zfs/parameters/zil_slog_bulk

I/O 调度调优

# 同步读最大活跃数
echo 32 > /sys/module/zfs/parameters/zfs_vdev_sync_read_max_active

# 异步写最大活跃数
echo 10 > /sys/module/zfs/parameters/zfs_vdev_async_write_max_active

# 设置事务组同步间隔（秒）
echo 5 > /sys/module/zfs/parameters/zfs_txg_timeout

预取调优

# 禁用预取（随机 I/O 工作负载）
echo 0 > /sys/module/zfs/parameters/zfs_prefetch_disable

# 调整预取队列深度
echo 4 > /sys/module/zfs/parameters/zfs_vdev_read_gap_limit

内存管理

# L2ARC 预热行为
echo 1 > /sys/module/zfs/parameters/l2arc_noprefetch

# 调整元数据缓存回收
echo 0 > /sys/module/zfs/parameters/zfs_arc_meta_prune

数据完整性

ZFS 的端到端数据完整性是其核心特性：

校验和验证

每个数据块都包含校验和，存储在父块中：

Parent Block (contains checksum of child)
    └── Child Block (contains checksum of grandchild)
            └── Grandchild Block  →  Data

Scrub 操作

定期执行 scrub 验证所有数据完整性：

# 启动 scrub
zpool scrub tank

# 查看 scrub 状态
zpool status tank

# 推荐：每月执行一次 scrub
# /etc/cron.monthly/zfs-scrub
#!/bin/bash
zpool scrub tank

自愈能力

冗余配置（mirror/RAID-Z）时 ZFS 可自动修复：

检测到校验和错误
从冗余副本读取正确数据
重写损坏的块
更新错误计数器

# 查看错误统计
zpool status -v tank

性能监控

内置统计

# ARC 统计
cat /proc/spl/kstat/zfs/arcstats | grep -E "^(hits|misses|size)"

# I/O 统计
zpool iostat tank 1

# 详细 I/O 延迟分布
zpool iostat -lq tank

工具	用途
`zpool iostat -v`	实时 I/O 监控
`arc_summary`	ARC 缓存分析
`zdb -U /data/zpool.cache`	底层池分析
Prometheus + node_exporter	长期监控

ZFS

On this page