为人工智能的成功而招聘: 为什么你的第一位员工应该是数据工程师?

为人工智能的成功而招聘: 为什么你的第一位员工应该是数据工程师?

AI 计划通常是许多希望从数据中提取价值的组织的首要任务。但是,在聘请高技能的 AI/ML 工程师之前,需要建立管理和优化数据的关键基础。要想在 AI 中取得成功,首先聘请数据工程师至关重要,尤其是在对象存储和开放表格式方面经验丰富的工程师。原因如下。

从经验中学习:正确选择职称

当我们的技术和销售培训主管 Pete Hnath 在 MinIO 开始他的 AI 之旅时,他最初发布了一份“数据科学家”的工作。他的目标是找到一个深入研究机器学习的人,并立即构建 AI 模型。但有些事情不太合适。正如 Pete 解释的那样:“我最初发布了'数据科学家'的职位,然后收到了一堆简历。候选人精通算法和高级分析,但没有我们需要的云基础设施的实践经验。Pete 意识到构建 AI 模型需要强大的数据基础,因此将角色更改为“云工程师”。这种调整吸引了精通云基础设施的候选人,但侧重于运营层 — 管理虚拟机、网络和云原生软件。

“他们在堆栈中的位置太低了,”他继续说道,“这些候选人在云原生软件方面表现出色,但没有能力处理数据架构的细微差别。最后,他将职位重新定义为“数据工程师”。这击中了最佳位置。

“数据工程师似乎是我所需要的金发姑娘头衔 - 他可以管理、存储和优化 AI/ML 工作负载的数据,并且具有帮助选择和部署可扩展、高性能的云原生基础设施的架构意识。”

为什么数据工程师对于 AI 计划至关重要

AI/ML 模型的好坏取决于它们所依赖的数据。如果这些数据管理不善、杂乱或未针对高效处理进行优化,那么即使是最好的 AI 模型也会达不到要求。同样,如果数据架构没有针对 AI/ML 独特且苛刻的存储、网络和计算要求进行优化,应用程序将难以执行。具有适当技能的数据工程师可确保您的 AI/ML 工作建立在坚实的基础之上。以下是数据工程师为 AI 成功所应具备的素质:

1 . 对象存储体验:对象存储已成为现代数据湖和湖仓一体的支柱。它提供了处理大量非结构化和半结构化数据所需的灵活性和可扩展性,这对 AI 工作负载至关重要。数据工程师应该精通 MinIO 或 AWS S3 等平台,确保无缝数据管理。

2 . 熟练使用数据湖仓一体:AI 工作负载需要对大量数据进行高性能访问,而数据湖仓一体架构提供了数据湖的可扩展性和数据仓库的可靠性两全其美的优势。数据工程师应精通管理和优化数据湖仓一体环境,确保数据组织良好、易于检索并针对 AI/ML 使用案例进行了优化。

3 . 数据管道开发: 出色的数据工程师可以设计和实施强大的数据管道,以有效地清理、转换和聚合数据。这可确保在 AI/ML 工程师开始工作时,数据已为建模做好充分准备。

4 . 云原生技能:虽然在堆栈中太低并不理想,但强大的数据工程师仍应具有云原生经验,以利用软件进行可扩展的存储和计算。他们的重点应该是数据架构以及存储、组织和访问数据的机制。

构建 AI 就绪型数据湖仓一体

对于现代 AI 计划,数据湖仓一体架构正日益成为首选解决方案。它将数据湖的灵活性和可扩展性与传统数据仓库的性能和 ACID 保证相结合。为了充分利用此体系结构,您的第一个员工应该是知道如何执行以下操作的人:

  • 管理大型对象存储系统。
  • 使用开放表格格式优化数据以实现最高效率。
  • 确保数据管道提供 AI 就绪的数据集。
  • 与架构团队合作,选择和部署合适的基础设施。

在 AI/ML 工程师之前聘请数据工程师可确保您的数据基础设施能够处理高级分析和机器学习的需求。借助强大的数据基础,您可以避免常见的陷阱,并确保您的 AI 计划从第一天起就取得成功。

以正确的顺序雇用正确的专业知识

组织开始实施 AI 计划的关键要点是优先聘请具有适当经验的数据工程师。寻找了解对象存储、开放表格格式、云原生软件和数据基础设施的应聘者。一旦您的数据基础坚实,您的 AI/ML 工程师就可以专注于构建和微调模型,而不会因数据效率低下而陷入困境。

上一篇 下一篇