为什么开放式湖仓一体方法很重要:dbt 收购 SDF Labs 的经验教训
dbt (Data Build Tool) 是一个开源 SQL 转换框架,已成为许多现代数据团队的基石,提供灵活性和可访问性。最近,dbt 通过收购 SDF Labs 增强了其产品组合。SDF Labs 是一家总部位于西雅图的初创公司,由 Meta 和 Microsoft 的前工程师于 2022 年创立。该公司开发了一个开发人员平台,旨在增强跨组织的 SQL 理解,使数据团队能够充分利用他们的数据。他们的平台提供的功能包括简化的查询编写和管理、主动质量和治理报告,以及将业务逻辑表示为代码。该平台基于开源查询引擎 Apache DataFusion 构建,SDF Labs 开源了多个组件以促进社区协作。Dbt 在收购公告中表示,这两家公司之间的整合旨在通过在 SQL 代码开发过程中提供实时反馈来提高 dbt 的性能并增强开发人员体验,从而允许立即检测到错误并在开发过程的早期确保数据质量。
投资开源(无论是通过收购、建立项目还是做出贡献)一直在推动开源社区的创新和增长。成功的合作伙伴关系,例如 Red Hat 对 Kubernetes 的投资或 Confluent 对 Apache Kafka 的管理,已经表明开源项目如何在适当支持下蓬勃发展,同时保持其社区驱动的精神。由于 dbt 和 SDF Labs 都在开放核心模式下运行,其中核心功能是开源的,而附加功能可能是专有的,因此收购 SDF Labs 加强了开源和开放标准数据堆栈的价值,进一步巩固了它们在现代数据基础设施中的作用。此次收购是开放数据湖仓一体架构的又一条论点,在这种架构中,堆栈的每个元素都有一个开放模型。这种开放性可以而且应该一直向下扩展,从开源存储的基础到 Iceberg、Delta Lake 和 Hudi 的开放表格式,再到查询引擎,再到现在由 SQL 和 dbt 和 SDF Labs 驱动的增强转换层。现在,现代数据堆栈比以往任何时候都更加开放。
需要开放式湖仓一体
开放式湖仓一体架构利用开放式表格式 Apache Iceberg、Delta Lake 和 Apache Hudi 来提供可扩展、灵活且与供应商无关的数据管理。与专有数据平台不同,开放式湖仓一体可确保组织保持对其数据的控制,从而实现各种工具和技术之间的无缝集成。AiStor 等高性能对象存储解决方案在此架构中发挥着关键作用。它们提供高速、可扩展的存储,这对于管理数据湖中不断增长的结构化和非结构化数据量至关重要。通过将开放计算和开放存储相结合,组织可以实现支持现代分析和 AI/ML 工作负载所需的敏捷性和成本效益。
主要优点:
1 . 互作性:开放式数据湖仓一体堆栈允许跨多个查询引擎(从 Trino 到 Spark 和 Dremio)访问对象存储中的数据,从而加剧了计算供应商之间的竞争,并推动了以用户为中心的创新。
2 . 性能优化:开放式湖仓一体解决方案分别优化存储和计算,从而提供成本效益和可扩展性。当您的开放式 Lakehouse 堆栈从一开始就在高性能对象存储上构建时,尤其如此。
3 . 数据治理和合规性:开放格式允许更好地控制元数据、审计和策略实施。这补充了对象存储的法规合规性功能,例如对象锁定、版本控制和加密,以实现数据不变性和安全性。
dbt 如何适应开放的湖仓一体生态系统
虽然 dbt 是基于 SQL 的转换的重要工具,但它主要侧重于编排转换,而不是提供存储或计算功能。它充当 ETL 中的“T”,通过利用任何查询引擎将原始数据转化为可作的见解。在典型的湖仓一体架构中,dbt 与 Apache Iceberg、Delta Lake 和 Hudi 等开放表格式一起工作,这些格式提供 ACID 事务和架构演变。此外,AiStor 等高性能对象存储支撑着整个堆栈,确保高可用性、可扩展性和持久性。这种组合使组织能够构建可扩展、灵活且可互作的数据管道,同时保持对其数据的完全控制。

拥抱开放的未来
为了充分利用开源技术的优势,组织应该:
1 . 选择正确的工具:根据社区支持、可扩展性以及与现有基础设施的兼容性来评估开源项目。
2 . 逐步采用:分阶段实施开源解决方案,以确保顺利集成并最大限度地减少中断。
3 . 回馈:通过分享改进、报告问题和协作开发新功能,与开源社区互动。
4 . 安全性与合规性:制定策略和最佳实践,以确保一致、安全且合规地使用开源技术。确保您对软件的使用符合许可协议的参数范围。
面向未来的开放堆栈
dbt Labs 对 SDF Labs 的收购凸显了组织在构建数据堆栈时面临的关键选择。现在比以往任何时候都更明显地表明,现代数据堆栈是一个开放的堆栈。随着组织在日益复杂和分布式的数据工作流中导航,开放式湖仓一体方法提供了保持敏捷性和面向未来所需的灵活性、可扩展性和互作性。通过致力于整个堆栈的开放标准,企业可以培养创新,同时确保在快速变化的技术环境中的长期可持续性和适应性。