Iceberg 的 Catalog API:Iceberg 表背后的原子指针管理器
Apache Iceberg极大地重塑了组织管理和与对象存储中的海量结构化分析数据集交互的方式。它带来了类似数据库的可靠性以及 ACID 事务、模式演化和时间旅行等强大功能。虽然这些功能通常被强调,但Iceberg Catalog API才是使这些表易于访问的关键。
阅读更多...
Apache Iceberg极大地重塑了组织管理和与对象存储中的海量结构化分析数据集交互的方式。它带来了类似数据库的可靠性以及 ACID 事务、模式演化和时间旅行等强大功能。虽然这些功能通常被强调,但Iceberg Catalog API才是使这些表易于访问的关键。
阅读更多...
数据是驱动现代企业的货币。能够代表组织多元化的利益相关者利用这些数据,是现代化、云原生、高性能且经济高效的系统的功能所在。这些现代化努力的核心是一个永恒的主题——使企业能够更好地服务客户。
阅读更多...
存在不同类型的压缩算法和非常好的实现。在 MinIO,我们已经使用了 Snappy 的增强版本,它一直为我们服务良好。但随着时间的推移,我们发现了一些可能的改进,可以更好地对压缩数据进行编码
阅读更多...
MLflow 模型注册表允许您管理发往生产环境的模型。这篇文章从我上一篇文章关于 MLflow 跟踪的地方开始。在我的 Tracking 帖子中,我展示了如何记录参数、指标、工件和模型
阅读更多...
Apache XTable 通过以多种开放表格式提供对数据的访问,在增强互作性方面迈出了一大步。移动数据很困难,在过去,这意味着在为数据湖仓一体选择开放表格式时,您被锁定在该选择中
阅读更多...
比较 Apache Iceberg、Delta Lake 和 Apache Hudi,并了解如何为您的数据湖仓一体选择合适的开放表格式。开放表格式和对象存储正在重新定义组织构建其数据系统的方式,为可扩展、高效且面向未来的数据湖仓一体奠定了基础
阅读更多...
这篇文章于 2025 年 1 月 16 日首次出现在 The New Stack 上。通常,在了解一项受到大量炒作的新技术的合法性时,研究现有的核心能力和历史是有帮助的。
阅读更多...
2025 年继承了多年前开始的一系列地缘政治担忧。美国外交政策、美中关系、中国的地缘政治策略、中东冲突、俄乌战争和网络安全威胁。此外,美国的新领导层增加了这些担忧带来的不确定性
阅读更多...
dbt (Data Build Tool) 是一个开源 SQL 转换框架,已成为许多现代数据团队的基石,提供灵活性和可访问性。最近,dbt 通过收购 SDF Labs 增强了其产品组合。
阅读更多...
当我刚开始从事数据工作时,每个人都是数据科学家。随着时间的推移,我们开始与众不同 - 您是构建数据管道,还是专注于构建和训练模型?您是在停电期间值班的寻呼机,还是仅在向执行董事会汇报时随叫随到
阅读更多...