先睹为快: MinIO 对象存储与人工智能调查
MinIO 最近对 656 名 IT 领导者进行了调查,这是 User Evidence 主要研究计划的一部分。结果非常有趣,突显了我们在企业中看到的巨大变化,无论是围绕向对象存储的转变,还是将对象存储用作组织 AI 计划的主要构建块的兴趣。我们将在这里总结其中一些关键点作为先睹为快,完整报告将在 12 月初的 Gartner IOCS 活动中及时发布。近 50% 的受访者在 IT 运营/基础设施领域工作,其次是应用程序和软件开发 (27%),其次是 IT 架构 (11%)。其余的(按顺序)分布在 DevOps、数据工程和其他公司中。
以下哪项最能描述您的主要工作职责?

受访者亲力亲为。我们询问了他们的前三大职责,以下是最常见的:评估和选择存储技术 (24%)、实施 (18%) 和构建应用程序/数据库/AI/ML (20%)。
您对组织数据存储的前三大专业职责是什么?
最多选择 3 个:

超过 80% 的受访者是管理层(副总裁、总监)或经理(团队负责人、项目负责人)。70% 来自员工人数超过 500 人的组织,其中最大的存储桶 (28%) 来自 1K 到 5K 员工范围。受访者主要是北美 (60%),其次是欧洲 (31%)——其余来自亚太地区和中东和北非地区。
以下哪项最能描述您目前的工作?

您的组织总部在哪里?

我们首先看一下对象存储使用情况。就连我们自己也对所听到的情况感到惊讶,我们是业内最大的对象存储冠军。提出的问题是:“想想您的组织今天在云原生存储中的所有数据。据您所知,对象存储中的数据百分比是多少?平均值为 70%。最常给出的答案是 99%,中位数是 71%。
想想您的组织目前在云原生存储中拥有的所有数据。据您所知,对象存储中的数据百分比是多少?

更重要的是,这些受访者都看到了这个数字的增长:“想想您组织的数据存储是如何演变的。您最好猜测两年后他们的数据将在对象存储中占据多少百分比?平均值为 75%。最常给出的答案是 99%,中位数是 80%。
想想您组织的数据存储是如何演变的。您最好猜测两年后他们的数据将在对象存储中占据多少百分比?

对象存储是当今的主要存储类型,并且将继续增长。
许多组织认为,在两年内,几乎所有数据都将存储在对象存储中。这将给 SAN/NAS 社区带来相当大的冲击。总的来说,它们主导着传统媒体来源,但事实是,它们并不那么相关,而且随着时间的推移会变得不那么相关。原因是非结构化数据。它是 AI 的燃料。视频、音频、图像、日志文件、遥测数据、时间序列数据。这就是企业今天生产的产品,它存储在对象存储上。将新的开放表格式添加到组合中,您还可以轻松处理非结构化数据。这就是数据库在对象存储上构建自身的原因。
但这里的故事是 AI = 对象存储。
研究明确指出:促使您的组织采用对象存储(公有云或私有云)的前三大业务或技术因素是什么?
支持 AI 19%
性能要求 17%
可扩展性 16%
这些是环环相扣的概念。部署对象存储以支持 AI,你猜怎么着......需要性能和规模。如果我们能够大规模地编写它的性能,它会做得更好。这就是 MinIO 的故事。我们无处不在,也告诉任何愿意倾听的人。
促使您的组织采用对象存储(公有云或私有云)的三大业务或技术因素是什么? 最多选择 3 个。

数据还告诉我们,当谈到价值驱动因素时,成本排在后面。这与 SAN/NAS 供应商希望您相信的廉价、深入和缓慢的叙述背道而驰。既然我们谈到了 AI 这个主题,那么让我们来看看它如何在企业中进入市场。当我们询问哪些工作负载使用对象存储时,答案正如我们所期望的那样。企业仍在使用对象存储作为其分析工作负载的基础 (24%),但也越来越多地用于 AI 模型训练和推理 (22%)。其次是现代数据湖和湖仓一体 (19%)。然后,也只有到那时,您才会发现灾难恢复等传统工作负载 (18%)。
哪些工作负载使用对象存储? 选择所有适用项。

当您稍微深入研究时,您就会真正了解是什么推动了训练数据开发。这都是 AI,而且相当紧密。应用程序数据潜在客户,然后是日志数据。我们本来预计 “custom corpus” 的排名会更高一些 - 但这可能是该术语的技术性质的一个功能。
您的组织将哪些类型的训练集发送到对象存储以进行 AI 分析? 选择所有适用项。

话虽如此,回应是一致的。当我们询问他们在对象存储上运行哪些类型的工作负载时,自定义语料库排在最后......更有趣的是,使用 GenAI 的公有云和私有云的企业数量实际上是相同的。
您是否计划在不久的将来构建具有对象存储的 Data Lakehouse?

然而,每个人似乎都想构建一个数据湖仓一体。92% 的人表示他们计划或已经这样做,62% 的人计划在没有的话明年这样做。非常清楚地表明 SAN/NAS 不需要应用于这些工作负载。
您的组织当前或计划在对象存储上运行哪些类型的 AI 工作负载? 选择所有适用项:

最后是 AI 前线。我们要求受访者说出 AI 对其组织最具挑战性的三个要素。不出所料,安全和隐私位居榜首。
对于您的组织来说,AI 最具挑战性的三大要素是什么? 最多选择 3 个:


企业将汇出的原因之一是出于控制原因。安全和隐私是关于控制的。数据治理也是这种担忧的类似表达。了解数据中的内容、谁可以访问数据是这种控制叙述的核心表达方式。有许多响应处于同一级别,它们通常可以分组。例如,快速联网和高性能存储表明了运行不同类型工作负载的能力。云原生存储支持容器化、编排、RESTful API 和微服务。SAN/NAS 技术不适合云原生世界,您无法容器化设备。 云原生 = 软件定义。还有更多,但这只是先睹为快。我们有数据驱动器类型、对象大小、谁管理对象存储、管理一个 PB 通常需要多少个 FTE、多少个云(公有云和私有云)、网络速度等等。我们将在感恩节(12 月初)后发布完整报告。要小心。
然而,关键的一点是,在企业中,对象存储是主存储,而 AI 在对象存储上运行。 这对从业者来说并不是什么新闻。这对开发人员来说并不是什么新闻。这对建筑师来说并不是什么新闻。对于在 SAN/NAS 占主导地位的世界中长大并偏爱这些技术和设备模型的高级 IT 领导者来说,这可能是个新闻。然而,这种情况显然正在发生变化,而且风险非常高。