- Friends' Life and Work Space

摘要 AI/ML 训练、推断等环节对存储提出了前所未有的高性能要求。本文结合 SNIA《Ceph Storage in a World of AI/ML Workloads》演示文稿内容，分析了 AI 存储的挑战、Ceph 的优势，以及在实际部署中提升效率的关键方法。

一个典型的 AI/ML 生命周期通常包括：

原始数据 → 训练数据 → 模型 → 结果 → 再训练在训练过程中，网络带宽、数据预处理能力、模型规模都会影响整体性能。在实际案例中，推荐的存储吞吐量为 5 GB/s，高性能参考系统可达 20 GB/s。

检查点保存是 AI 模型训练的关键步骤，其数据量会随着模型规模迅速增加：

在推荐系统或事件驱动的推断场景中（如 Facebook 数据中心）：

Ceph 在 AI/ML 存储场景中有明显优势：

压缩与硬件加速 Ceph RGW 与 Bluestore 支持数据压缩。例如 S3 对象压缩，可使写入吞吐提升 250%+，读取提升 180%+。
合理架构设计 在系统初期规划好压缩策略、硬件加速方式，可显著降低 TCO（总体拥有成本）。

SNIA 提供的参考部署案例：

4 节点 Ceph 集群
- 每节点：2×32 核 CPU、512 GB 内存、2×100 GbE 网络
- 存储：24 块 TLC NVMe SSD
- 加速：4× GPU
性能表现：读取 30 GB/s，写入 4.66 GB/s 该结果展示了 Ceph 在高性能硬件条件下，完全可以胜任 AI/ML 训练与推断的存储需求。

SNIA：《Ceph Storage in a World of AI/ML Workloads》 https://snia.org/sites/default/files/CSI/Ceph%20Storage%20in%20a%20World%20of%20AI_ML%20Workloads.pdf
Ceph 官方文档：https://docs.ceph.com
SNIA 教育库：https://snia.org/education
Facebook AI Research：Deep Learning Recommendation Models (DLRM) 研究
Cephalocon 大会官网：https://cephalocon.org