GPU 趋势及其对人工智能基础设施的意义

GPU 趋势及其对人工智能基础设施的意义

大约一年前(实际上是 11 个月前),我写了一篇关于“GPU 匮乏问题”的文章,以及 Nvidia 图形处理单元 (GPU) 的马力如何如此强大,以至于您的网络和存储解决方案可能无法跟上 - 阻止您昂贵的 GPU 得到充分利用。好吧,在这短短的 11 个月里,很多事情都发生了变化。Nvidia 宣布了一种以统计学家和数学家 David Blackwell 命名的新芯片架构。与此同时,Intel 和 AMD 在他们称之为加速器的有竞争力的产品方面取得了进展。从高层次上讲,采用 GPU 可能带来的问题是计算密集型工作负载缺乏基础设施平衡。考虑一个基于 CPU 的 AI 基础设施,其中一切都运行良好。没有瓶颈,所有组件的利用率都达到 80%,因此您没有过度购买,并且有带宽用于突发。如果计算升级到 GPU,这会对您的网络和存储解决方案产生什么影响?如果一个跟不上,那么你在 GPU 上的投资就白费了。

unnamed97.png

在本文中,我想讨论引入 GPU 对您的基础设施意味着什么,以及您可以采取的一些措施来最大限度地利用 GPU 投资。我们首先来看看 GPU 和 Accelerator 发生了什么。

GPU 和加速器的现状

首先,一些内务处理 - 加速器和 GPU 有什么区别?简短的回答是没有。Intel 和 AMD 采用了使用术语“GPU”来指代在台式机系统上运行的芯片,以加快游戏玩家和视频编辑人员的图形速度。他们将加速器一词用于为数据中心设计的芯片,以支持机器学习、推理和其他数学密集型计算。另一方面,Nvidia 在其所有产品中都坚持使用“GPU”一词。在这篇文章中,我将使用术语“GPU”来一般意义上的这些芯片,因为它是最流行的术语。当提到 Intel 和 AMD 的特定产品时,我将遵循他们的标准并使用术语加速器。让我们看看 Nvidia、Intel 和 AMD 在过去 5 年里做了什么。下表按时间顺序排列,显示了自 2019 年 6 月以来进入市场的 GPU。它还展示了 Nvidia 的几款芯片,这些芯片原定于 2024 年底发布,但已推迟到 2025 年初。在我之前关于 Nvidia GPU 的博文中,我定义了 FLOPs 性能指标、内存对机器学习管道的意义以及内存带宽和内存之间的关系。因此,如果您需要复习一下,请在继续阅读之前查看该帖子。在这篇文章中,我想做一些额外的观察。

Release Date Chip Designer GPU Performance Memory Memory Bandwidth Cost
June 2019 Intel Gaudi1 0.14 PFLOPS 32 GB 1 TB/s $4,000
May 2020 Nvidia A100 0.312 PFLOPS 40 GB 1.555 TB/s $10,000
Nov. 2020 AMD M100 0.185 PFLOPS 32 GB 1.23 TB/s $3,000
Nov. 2021 AMD MI250X 0.383 PFLOPS 128 3.2 TB/s $10,000
March 2022 Nvidia H100 1.98 PFLOPS 80 GB 3.35 TB/s $25,000
May 2022 Intel Gaudi2 0.43 PFLOPS 96 GB 2.45 TB/s $10,000
Oct. 2024 AMD MI325X 1.31 PFLOPS 256 GB 6 TB/s $15,000
June 2024 Intel Gaudi3 1.84 PFLOPS 128 GB 3.7 TB/s $16,000
June 2024 Nvidia H200 1.98 PFLOPS 141 GB 4.8 TB/s $30,000
Early 2025 Nvidia B100 3.5 PFLOPS 192 GB 8 TB/s $35,000
Early 2025 Nvidia B200 4.5 PFLOPS 192 GB 8 TB/s $40,000

注意:上面显示的性能指标适用于没有稀疏性的浮点 16 (FP16) 数据类型。

首先,有一个性能趋势。了解这一趋势的最佳方法是按设计师绘制上面的数字。最重要的是,GPU 的速度越来越快,而且这种模式没有显示出任何放缓的迹象。

unnamed98.png

从上面的 GPU 表中可以得出的另一个观察结果涉及成本性能比较。例如,英特尔 Gaudi 3 加速器的成本是 Nvidia H200 GPU 价格的一半,但性能大致相同。因此,如果您不需要业内最快的芯片(即 Nvidia 的 B200)并且您的需求属于 2 PFLOPs 类别,那么您最好购买 Gaudi 3。这是挑战者 (Intel) 与具有性能优势的现有企业竞争的经典策略。基本思想是通过构建足够好的东西来竞争成本而不是性能,同时为您的客户节省成本。另一方面,如果您有多个团队训练和微调模型,并且您的生产环境在繁重的推理负载下有多个 LLMs,那么您可能需要市场上最好、最快的芯片。就像我们现在看到的 GPU 一样,竞争的最大好处是消费者有选择。

GPU 注意事项

如果您正在升级 GPU,上图可以让您大致了解更快的 GPU 将给您的基础设施带来的额外压力。例如,如果您将老化的 A100 集群替换为 B200(均来自 Nvidia),则 B200 的速度将提高 14 倍 (4.5/.312),可能会给您的基础设施带来 14 倍的负载。B200 的内存也比 A100 多 152 GB,因此每个网络请求的批处理大小更大或数据更多。首次采用 GPU 比较棘手,因为没有很好的方法可以比较 GPU 和 CPU 的性能。因此,没有好的方法可以确定 GPU 将给您的网络和存储解决方案带来的额外负载。理论比较的问题在于 GPU 性能指标测量每秒浮点运算。另一方面,CPU 性能以每秒 clock cycles 来衡量。这是因为 CPU 处理多个指令集(每个指令集在不同的电路上运行),它们管理的逻辑操作被分解为多个任务,不同的指令集可能会完成每个任务。时钟就像一个节拍器,允许精确协调逻辑操作的特定任务。因此,在试图弄清楚两辆汽车的性能时,将 CPU 与 GPU 进行比较就像将 RPM 与马力进行比较一样。您可以猜测 CPU 进程的不同指令集与 CPU 的平均 FLOPS 指标的比率,但这很容易出错。您还可以从训练集向后工作,并从理论上确定在一个 epoch 中运行训练集需要多少次浮点运算。但是,这也是基于可能有很大差异的猜测。归根结底,预测 GPU 对基础设施影响的最简单、最准确的方法是对实际工作负载进行试验。请务必尝试多个训练工作负载和多个推理工作负载。这些实验可以在低成本的 POC 环境中进行,也可以与提供您希望购买的 GPU 的云供应商一起进行。

网络注意事项

由于 GPU 可以非常高的速度处理数据,因此在训练和推理期间,它们的速度通常超过加载数据的速度。网络速度缓慢或配置不足可能会导致 GPU 在等待数据到达时空闲。此外,许多组织采用分布式训练技术,即使用集群中的多个 GPU 来使用并行训练技术训练单个模型。在分布式训练期间,网络基础设施不仅负责确保每个单独的 GPU 都能获得充足的训练数据,还负责在反向传播期间在 GPU 之间交换梯度。此操作的性能在很大程度上取决于网络的带宽和延迟。网络很难升级,因为它们是将所有内容粘合在一起的粘合剂。它不是集群中冗余部署的节点,可以轻松删除或升级。此外,网络设备价格昂贵,升级需要仔细规划,并且在升级期间可能会出现大量停机时间。出于所有这些原因,请考虑通过投资快速网络来使您的训练管道面向未来。400Gb 或 800Gb 网络听起来可能有些过分,但跳过一些升级可以节省资金,而且当引入更快的 GPU 时,您可以毫无问题地利用它们。

存储注意事项

如果您采用 GPU 并拥有高速网络,那么 AI 基础设施的最终考虑因素是您的存储解决方案。如果您将 MinIO 的 AIStor 与 NVMe 驱动器一起使用,您可能已经准备好了。最近的基准测试仅在 32 个现成的 NVMe SSD 节点上实现了 325 GiB/s 的 GET 和 165 GiB/s。如果您没有 NVMe 驱动器或想从 AI 基础设施中获得更多性能,MinIO 的 AIStor 有三个功能可以提供帮助。

**基于 RDMA 的 S3:**远程直接内存访问 (RDMA) 允许绕过 CPU、操作系统和 TCP/IP 堆栈,直接在两个系统的内存之间移动数据。这种直接内存访问减少了与 CPU 和 OS 数据处理相关的开销和延迟,使 RDMA 对于低延迟、高吞吐量网络特别有价值。MinIO 最近推出了 S3 over RDMA 作为 AIStor 的一部分。

**AIStor Cache:**AIStor Cache 允许企业使用多余的服务器 DRAM 进行缓存。它是一种缓存服务,它使用分布式共享内存池来缓存经常访问的对象。启用和配置后,AIStor Cache 对应用层透明,并且可以无缝操作。考虑将 AIStor Cache 与 S3 over RDMA 结合使用。

**镜像:**如果您有一个基于 AIStor 的大型全球数据湖,并且它没有使用可用的最快磁盘驱动器,您可以安装一个新的、更小的 AIStor 租户,并用于您的所有 AI 工作负载。AIStor 的镜像功能将使包含您的训练集的存储桶在租户之间保持同步。您的 AIStor 全球租户仍然是您所有数据的黄金副本。新租户针对性能进行了配置,并包含 AI 所需的数据副本。这种方法的优点是不需要客户替换现有的 AIStor 实例。此解决方案也适用于对于 AIStor 缓存来说太大的数据集。高速租户也可以随着 AI 工作负载数据的增长而横向扩展。考虑将镜像解决方案与 S3 over RDMA 一起使用,以获得更快的性能。

unnamed99.png

总结

从基于 CPU 的 AI 基础设施迁移到基于 GPU 的基础设施可能会给您的网络和存储解决方案带来特别大的压力。由于 Nvidia、Intel 和 AMD 已经实现了性能提升,因此即使升级现有 GPU 也可能存在问题。但是,通过投资面向未来的网络并使用 MinIO 的 AIStor 等存储解决方案,该解决方案具有缓存、镜像和 S3 over RDMA,组织可以确保从其 GPU 投资中获得最大收益。

上一篇 下一篇