人工智能数据栈互操作性架构师指南

人工智能数据栈互操作性架构师指南

最初发布于 New Stack。
AI 的未来是开放的,无论您的堆栈中采用何种技术,互操作性都是您保持领先地位的门票。
随着 AI 和机器学习在各行各业的扩展,数据架构师面临着一个关键挑战:确保在日益分散的专有生态系统中实现互操作性。现代 AI 数据堆栈必须灵活、经济高效且面向未来,同时避免可怕的供应商锁定,这可能会扼杀创新并增加您的预算。

为什么互操作性很重要

AI 驱动型世界的核心是数据 — 大量数据。您今天为存储、处理和分析数据所做的选择将直接影响您未来的敏捷性。构建互操作性意味着选择跨环境良好运行的工具,减少对任何单一供应商的依赖,并允许您的组织在任何给定时刻购买最优惠的价格或功能集。以下是互操作性应成为 AI 数据堆栈中关键原则的一些原因。

1 . 避免供应商锁定专有系统乍一看似乎很方便,但它们可能会变成一个代价高昂的陷阱。可互操作的系统允许您自由迁移数据,而不会被锁定在一个生态系统中或支付高额退出费用。这种灵活性确保您可以利用不断发展的最佳技术。

2 . 成本优化借助可互操作的系统,您可以自由地货比三家。需要更多计算?您不受特定提供商的定价模型的束缚。您可以根据需要切换到更实惠的选项。互操作性使您能够为 AI 堆栈的每个组件做出最具成本效益的选择。

3 . 面向未来的架构随着 AI 和机器学习工具的快速发展,互操作性可确保您的架构能够适应。无论是采用最新的查询引擎还是集成新的机器学习框架,可互操作的系统都使您的组织能够为现在和未来的 AI 做好准备。

4 . 最大化工具兼容性可互操作系统旨在跨不同的环境、工具和平台工作,实现顺畅的数据流并减少对复杂迁移的需求。这提高了实验和创新的速度,因为您不会浪费时间让工具协同工作。

可互操作的 AI 数据堆栈的关键技术

实现互操作性就是在软件堆栈中做出战略决策。以下是促进这种灵活性的一些基本工具。

1 . 打开表格格式

Apache Iceberg、Apache Hudi 和 Delta Lake 等开放表格式支持高级数据管理功能,例如时间旅行、架构演变和分区。这些格式旨在实现最大兼容性,因此您可以在各种工具中使用它们,包括 Dremio、Apache Spark 或 Presto 等 SQL 引擎。Iceberg 的开放式结构确保随着新工具和数据库的出现,您无需重新构建整个系统即可合并它们。

2 . 高性能 S3 兼容对象存储

无论您是在本地、公有云还是在边缘运行工作负载,与 AWS S3 兼容的对象存储都能提供现代 AI 工作负载所需的灵活性。作为可部署在任何地方的高性能、可扩展选项,S3 兼容性使组织能够避免云供应商锁定,同时确保从任何位置或应用程序一致地访问数据。

3 . Apache X-Table:多格式自由

Apache X-Table 是一个专为实现开放表格式的灵活性而设计的项目。它允许您在 Iceberg、Delta Lake 和 Hudi 等开放表格式之间切换。这种自由度可确保随着表格格式的发展或提供新功能,您的架构保持适应性,而无需进行大量返工或迁移工作。

4 . 查询引擎:无需迁移的查询

互操作性也扩展到查询引擎。Clickhouse、Dremio 和 Trino 是很好的示例工具,它们允许您从多个来源查询数据,而无需迁移数据。这些工具允许用户连接到各种来源,从 Snowflake 等云数据仓库到 MySQL、PostgreSQL 和 Microsoft SQL Server 等传统数据库。借助现代查询引擎,您可以对数据运行复杂的查询,无论数据位于何处,从而有助于避免成本高昂且耗时的迁移。

5 . 灵活性和性能的目录

Polaris 和 Tabular 等数据目录提供高性能功能,并具有现代数据架构所需的灵活性。这些工具旨在处理开放的表格格式,使用户能够有效地管理和查询大型数据集,而不受供应商特定的限制。这有助于确保您的 AI 模型可以实时访问所需的数据,无论这些数据存储在何处。

现在的互操作性

互操作性架构不仅仅是避免供应商锁定;而是关于构建具有弹性、灵活性和成本效益的 AI 数据堆栈。通过选择优先考虑开放标准的工具,您可以确保您的组织能够发展和适应新技术,而不受传统决策的限制。无论您是采用与 S3 兼容的高性能存储、开放式表格式还是查询引擎,AI 的未来都是开放的,而互操作性是您保持领先地位的门票。

上一篇 下一篇