最近推出的 Amazon S3 Express 单区验证了对象存储是 AI 的主存储
几年来,我们一直认为,在现代数据堆栈中,对象存储是主存储。在人工智能时代更是如此,企业几乎完全专注于对象存储。现代数据堆栈依赖于分解的计算和存储,以及在 Kubernetes 上的容器中运行的云原生微服务。随着越来越多的企业转向这种架构,对象存储成为主存储,从而增加了性能和可扩展性的风险。
在主存储方面,性能为王,这就是为什么 MinIO 经常被用作 AI/ML 和数据湖的本地主存储。MinIO 能够实现卓越的性能 - 最近的基准测试在 GET 上实现了 325 GiB/s,在 BOT 上实现了 165 GiB/s,仅使用 32 个现成的 NVMe SSD 节点。 MinIO 不仅提供了为要求苛刻的工作负载(如 Apache Spark、Kubeflow、Ray Data)以及您能想到的任何其他云原生 AI 框架提供动力所需的性能。
亚马逊最近发布了 Amazon S3 Express One Zone,这是其古老的 S3 的高性能版本。S3 Express 单区针对高吞吐量和低延迟进行了优化。Amazon S3 Express One Zone 每秒能够处理数百万个请求,旨在适应机器学习训练和实时机器学习所需的大规模并行操作。亚马逊声称,Amazon S3 Express One Zone 提供的数据访问速度是 S3 Standard 的 10 倍,延迟为个位数毫秒,成本更低。Amazon S3 Express 单区存储桶仅限于单个可用区。定价基于使用量,每月 0.16 USD/GB,是 S3 Standard 成本的 8 倍。亚马逊的意图是让客户“将您经常访问的数据与高性能计算资源放在一起”。

Amazon S3 Express One Zone 开辟了在 AWS 中实现快速无服务器计算的可能性。流处理以更低的延迟和更高的并发性获得了一剂强心针——WarpStream 已经利用了这一点。基于 Open Table Format(如 Apache Hudi、Iceberg 和 Delta)构建的应用程序也受益于更快的对象存储。人工智能需要读取大量数据,而高性能对象存储则从中受益匪浅。
Analysis 分析
让我们来了解一下 Amazon S3 Express 单区公告的详细信息。
Amazon S3 Express 单区是一种临时对象存储,用于将数据公开给本地计算。它并不意味着取代数据湖。Amazon 客户将继续在 S3 标准中存储数据。唯一的区别是,今后他们会将其复制或分层到 S3 Express 中以使用它,然后在处理完成后将其从 S3 Express 中删除。存储在 S3 Standard 中的原始数据保持不变。
这在某种程度上是一种要求。原因是 S3 Express 不是长期存储的可行选择。它的成本是 S3 Standard 的 8 倍,性能提高了 3 到 10 倍。它比 EBS SSD 贵 30% 到 200%。这样的定价违背了早期 S3 增长的最大驱动力之一——可负担性。成本是 S3 Standard 的 8 倍,企业必须仔细选择其工作负载。
然而,这种新存储类的引入利用了分解的现代数据架构,并使用这种模块化使企业能够调整每个工作负载,以实现低延迟和高成本 (S3 Express) 或高延迟和低成本 (S3 标准)。这种模块化由对象存储实现。企业没有理由将大量数据集存储在本地文件系统或块存储上——无论是在 Amazon 还是其他任何地方。
这是一个关键点:当涉及到现代工作负载时,S3 Express 的引入进一步暴露了文件和块存储在 AWS 和其他任何地方都已经过时的情况。企业现在可以构建和构建仅通过 S3 API 处理数据的云原生系统。单个编程接口简化了架构,无需编写特殊代码即可推送 AI 训练数据,现在只需临时迁移到更快的对象存储层即可。
欢迎加入派对
没有什么比全球最大的云提供商推出旨在满足数据密集型 AI/ML 应用程序需求的新服务更能呼应我们“对象存储是 AI 的主存储”的案例了。它甚至可以最好地处理大量小对象,这是 AI/ML 的常见工作负载配置文件。 大规模的 ML 训练必须依赖于对象存储,因为它在数百个计算节点上并行运行,很多时候依赖于昂贵的 GPU 进行计算。
我们可以肯定,所有主要的云提供商都将向市场推出类似的高性能对象存储选项,价格相似。对于他们来说,这是一个很好的追加销售机会,可以添加更昂贵的存储选项。它可能不会阻止数据遣返的趋势,这是一种节省成本的现象,也可以实现更高的 AI/ML 性能和对数据的控制,但这是一种有计划地试图减缓它。真正的输家是块和文件人员(参见 NetApp 最近一个季度)。
总结
我们最终对 S3 Express 的推出感到受宠若惊。它验证了我们近年来所做的许多工作 - 在性能方面,以及可扩展性、弹性和安全性方面。更重要的是,我们认为这是一个向市场发出的重要信号,即文件和块技术越来越过时,现代数据堆栈始于对象存储,也终于对象存储。
最近,对象存储作为主存储的兴起是由性能推动的。数据密集型 AI/ML 应用程序需要低延迟、高吞吐量和高并发的对象存储。对于那些已经在 AWS 生态系统中投资的人来说,Amazon S3 Express One Zone 看起来是一项有价值的服务。
如果您希望将本地或托管的高性能对象存储用作 AI/ML 的主存储,那么 MinIO 是您的最佳选择。