在 MinIO 上运行 Apache Presto:基准测试与 AWS S3

在 MinIO 上运行 Apache Presto:基准测试与 AWS S3


Presto在企业中的增长取决于其速度,SQL兼容性,可扩展性和企业功能集。尽管最初旨在加快Hadoop的速度,但该项目的成功导致了更广泛的采用-在S3,Cassandra,MySQL等上。Presto允许遍历数据存储和位置的数据查询,这在大数据分析的多方面世界中是一大优势。

这篇文章专注于Presto的性能,更具体地说是Amazon S3对象存储服务和MinIO对象存储软件之间的性能比较。本部分是关于基准测试对象存储性能的一系列博客文章的一部分,我们先前有关HDD / S3 BenchmarkNVMe / S3 Benchmark的文章可以在相应的链接中找到。

MinIO返回AWS进行基准测试,并使用了具有NVMe驱动器和100GbE网络的存储优化的裸机实例。




MinIO使用Presto的Starburst 302-E.11发行版。MinIO是Starburst团队的忠实拥护者,也是他们为不断改进企业产品所做的工作的忠实拥护者-尤其是大型联接,安全性和可管理性的改进。




对于这项工作,我们选择了缩放系数为1000的TPC-H基准。TPC-H因其查询多样性,业务定位和现实世界的复杂性而被广泛接受。数据记录大小的摘要如下所示:




基准测试分两个阶段进行。在第一阶段,数据是从AWS S3提供给Presto的。第二阶段的数据驻留在MinIO中。在两个阶段之间,运行Presto的服务器保持不变。

由于运行AWS S3是一项全球可用的服务,因此很难比较运行存储后端的硬件。但是,合理的假设是使S3拥有大量处理请求和清除数据的机器。与MinIO不同,AWS S3不做任何一致性保证,这减轻了底层硬件的计算负担,进一步降低了性能,对S3有利。

尽管有这些限制,MinIO的性能仍可与S3媲美,仅勉强支持S3。通常,某些查询特定的性能是可以预期的。下图总结了查询时间比较MinIO和S3的Starburst Presto工作负载的图表:




对于企业而言,总的来说,Presto的功能可以很好地转换为对象存储。结果是对象存储可以并且应该成为企业数据堆栈的基础组件。其优越的经济性,无限的可扩展性和丰富的企业功能集意味着在绝大多数情况下,它在与Hadoop和其他技术的竞争中赢得了价格/性能之战(请注意,我们并没有说每种情况)。

与往常一样,我们为感兴趣的人提供完整的详细信息请查看我们即将发布的关于Spark vs.AWS的文章。如果您有任何疑问,请随时给我们发送邮件sales@minio.org.cn或点击页面底部的技术请求表格。


上一篇 下一篇