人工智能数据栈互操作性架构师指南

on 操作指南 2024-11-08 15:40:13

最初发布于 New Stack。
AI 的未来是开放的，无论您的堆栈中采用何种技术，互操作性都是您保持领先地位的门票。
随着 AI 和机器学习在各行各业的扩展，数据架构师面临着一个关键挑战：确保在日益分散的专有生态系统中实现互操作性。现代 AI 数据堆栈必须灵活、经济高效且面向未来，同时避免可怕的供应商锁定，这可能会扼杀创新并增加您的预算。

为什么互操作性很重要

AI 驱动型世界的核心是数据 — 大量数据。您今天为存储、处理和分析数据所做的选择将直接影响您未来的敏捷性。构建互操作性意味着选择跨环境良好运行的工具，减少对任何单一供应商的依赖，并允许您的组织在任何给定时刻购买最优惠的价格或功能集。以下是互操作性应成为 AI 数据堆栈中关键原则的一些原因。

1 . 避免供应商锁定专有系统乍一看似乎很方便，但它们可能会变成一个代价高昂的陷阱。可互操作的系统允许您自由迁移数据，而不会被锁定在一个生态系统中或支付高额退出费用。这种灵活性确保您可以利用不断发展的最佳技术。

2 . 成本优化借助可互操作的系统，您可以自由地货比三家。需要更多计算？您不受特定提供商的定价模型的束缚。您可以根据需要切换到更实惠的选项。互操作性使您能够为 AI 堆栈的每个组件做出最具成本效益的选择。

3 . 面向未来的架构随着 AI 和机器学习工具的快速发展，互操作性可确保您的架构能够适应。无论是采用最新的查询引擎还是集成新的机器学习框架，可互操作的系统都使您的组织能够为现在和未来的 AI 做好准备。

4 . 最大化工具兼容性可互操作系统旨在跨不同的环境、工具和平台工作，实现顺畅的数据流并减少对复杂迁移的需求。这提高了实验和创新的速度，因为您不会浪费时间让工具协同工作。

可互操作的 AI 数据堆栈的关键技术

实现互操作性就是在软件堆栈中做出战略决策。以下是促进这种灵活性的一些基本工具。

1 . 打开表格格式

Apache Iceberg、Apache Hudi 和 Delta Lake 等开放表格式支持高级数据管理功能，例如时间旅行、架构演变和分区。这些格式旨在实现最大兼容性，因此您可以在各种工具中使用它们，包括 Dremio、Apache Spark 或 Presto 等 SQL 引擎。Iceberg 的开放式结构确保随着新工具和数据库的出现，您无需重新构建整个系统即可合并它们。

2 . 高性能 S3 兼容对象存储

无论您是在本地、公有云还是在边缘运行工作负载，与 AWS S3 兼容的对象存储都能提供现代 AI 工作负载所需的灵活性。作为可部署在任何地方的高性能、可扩展选项，S3 兼容性使组织能够避免云供应商锁定，同时确保从任何位置或应用程序一致地访问数据。

3 . Apache X-Table：多格式自由

Apache X-Table 是一个专为实现开放表格式的灵活性而设计的项目。它允许您在 Iceberg、Delta Lake 和 Hudi 等开放表格式之间切换。这种自由度可确保随着表格格式的发展或提供新功能，您的架构保持适应性，而无需进行大量返工或迁移工作。

4 . 查询引擎：无需迁移的查询

互操作性也扩展到查询引擎。Clickhouse、Dremio 和 Trino 是很好的示例工具，它们允许您从多个来源查询数据，而无需迁移数据。这些工具允许用户连接到各种来源，从 Snowflake 等云数据仓库到 MySQL、PostgreSQL 和 Microsoft SQL Server 等传统数据库。借助现代查询引擎，您可以对数据运行复杂的查询，无论数据位于何处，从而有助于避免成本高昂且耗时的迁移。

5 . 灵活性和性能的目录

Polaris 和 Tabular 等数据目录提供高性能功能，并具有现代数据架构所需的灵活性。这些工具旨在处理开放的表格格式，使用户能够有效地管理和查询大型数据集，而不受供应商特定的限制。这有助于确保您的 AI 模型可以实时访问所需的数据，无论这些数据存储在何处。

现在的互操作性

互操作性架构不仅仅是避免供应商锁定;而是关于构建具有弹性、灵活性和成本效益的 AI 数据堆栈。通过选择优先考虑开放标准的工具，您可以确保您的组织能够发展和适应新技术，而不受传统决策的限制。无论您是采用与 S3 兼容的高性能存储、开放式表格式还是查询引擎，AI 的未来都是开放的，而互操作性是您保持领先地位的门票。

S3 选择人工智能/机器学习现代数据湖 Apache Presto 安全数据库性能 S3 品牌/设计 Golang 编程 Kubernetes SFD 基准开源集成多云云计算微服务 Apache Hadoop Docker AWS Azure GCP 建筑师指南奖项可观察性 Apache Spark 操作指南安全咨询 AGPLv3 子网分析 Splunk 英特尔边缘计算 Veeam Sidekick R 安全设计 H20 开发运维 Apache Hudi Apache Nifi YouTube摘要不变性软件定义的存储 Apache Arrow VMware 混合云云原生红帽OpenShift 可扩展性 Cloud Field Day Apache Kafka EKS 弹性负载均衡器持续集成对象存储遵守 Opentelemetry BC/DR 存储通讯预测最佳实践

为什么互操作性很重要

可互操作的 AI 数据堆栈的关键技术

现在的互操作性

获取报价

选择方案

选择容量