如何使用 MinIO Operator 安装和配置 Kubeflow
Kubeflow 是一种现代解决方案,可使用最新和最流行的框架来设计、构建和编排机器学习管道。开箱即用,Kubeflow 内部随附 MinIO 以存储其所有管道、工件和日志,但是 MinIO 仅限于单个 PVC,因此无法受益于分布式 MinIO 为表带来的所有功能,例如 Active- Active复制,通过分层无限存储- 等等。
在这篇博文中,我们将配置 Kubeflow 以在同一 Kubernetes 集群上使用大型 MinIO 租户,但当然,此配置也适用于位于不同集群上的 Kubeflow 和 MinIO。如需参考,请参阅我们之前的博文,在 Azure 上使用 Kubeflow 和 MinIO 的机器学习管道,以及Kubeflow站点。
虽然我们在这篇博文中进行了详细介绍,但如果您已经有 Kubeflow 设置和 MiniO 设置,您可以直接跳到这篇博文的配置 Kubeflow部分以查看需要配置的内容。
设置 MinIO 操作员
让我们从安装 MinIO Operator 并创建 Kubeflow 将使用的租户开始。我最喜欢的安装 MinIO Operator 的方法是 via,kubectl apply -k但我们也有可用的 Helm Charts,我们也可以在AWS Marketplace、Google Cloud Marketplace和Azure Marketplace上使用。

这将安装最新最好的 MinIO Operator,现在我们只需要登录到 Operator UI 并创建一个租户。对于此步骤,我们将获得用于登录的服务帐户 JWT 令牌,但此 UI 也可以使用 AD/LDAP 或 OIDC 进行保护。

现在让我们转发 UI 和登录。

现在打开浏览器,转到http://localhost:9090并使用我们在上一步中获得的 JWT 令牌登录。

登录后,单击创建租户并设置一个 1TiB 租户。

输入新租户的名称及其命名空间。

如果命名空间不存在,您可以选择创建命名空间。

现在让我们确定租户的大小。我将设置一个4 节点集群,每个节点上有 4 个驱动器,在这种情况下,因为我们在 Kubernetes 上,节点或服务器转换为 pod,每个服务器的驱动器转换为每个 pod 的 PVC。
我也从 1TiB 的容量开始,但您始终可以扩展租户的容量。

让我们转到身份提供者并创建一个将由 Kubeflow 使用的基本用户。如果您选择配置使用 OpenID 或 Active Directory/LDAP 的外部身份提供者,您可以在登录租户后继续创建服务帐户。

最后,我们将禁用TLS只是为了防止这篇博文变得太长,但是如果你想在你的租户上启用 TLS,你需要在 Kubeflow 信任的租户上配置一个证书。

就是这样,只需点击创建,租户将在几分钟内创建。


就是这样,现在您拥有了一个可以无限扩展的分布式、高性能、超大规模对象存储。从这里开始,让我们配置 Kubeflow 以使用此 MinIO 部署。
设置 Kubeflow
在本节中,我们将在 Kubernetes 上从头开始设置 Kubeflow。这适用于内部部署、开发环境或任何公共云,尽管云提供商经常提供预配置版本的 Kubeflow。
我们将使用kubeflow/manifest存储库。请记住,这有一些严格的要求才能工作,例如,Kubeflow 1.5.0(在撰写本文时)支持的最高 Kubernetes 版本是 1.21,因此请确保您使用的 Kubernetes 集群满足此要求.
一个额外的要求是拥有 Kustomize 版本3.2.0,仅此而已。
让我们从克隆 kubeflow/manifest 存储库开始

然后更改清单文件夹的目录并运行以下命令:
此命令将花费几分钟时间来安装 Kubeflow 所需的所有资源。如果有任何应用失败,该命令将继续尝试应用它直到完全成功。

几分钟后,您可以确认kubeflow命名空间中的所有 pod 都已启动并正在运行:

现在我们将配置 Kubeflow 以使用我们的新 MinIO。
配置 Kubeflow
以下部分是连接Kubeflow和MinIO的核心。请注意,如果您从现有的 Kubeflow 部署开始,本节中需要修改的资源也是您需要调整的资源。
我们将首先在kubeflow命名空间上编辑各种 Config Maps、Secrets 和 Deployment ,然后再在任何现有的用户命名空间上编辑。
所有这些步骤都假设 MinIO 在ns-1命名空间中运行并在端口80上运行。如果您使用 TLS 运行租户,您将使用端口 443。
租户 URL:minio.ns-1.svc.cluster.local
租户端口:80
编辑配置图
管道安装配置
编辑pipeline-install-config配置映射并将以下字段添加到.data:
编辑命令:
工作流控制器配置映射
编辑 configmap workflow-controller-configmap并将s3部分内的端点字段配置为指向您的租户
使用此命令编辑 configmap:
ml-pipeline-ui-configmap
编辑ml-pipeline-ui-configmap configmap 并将 viewer-pod-template.json 的 json 内容替换为以下 json:
使用此命令编辑 configmap:
确保 json 的缩进结构与现有格式匹配。

编辑秘密
我们将更新保存 MinIO 凭据的秘密,但是这些是base64编码的,因此您可以使用 shell 对它们进行编码:

mlpipeline-minio-工件
编辑秘密mlpipeline-minio-artifact并在.data字段中设置这些值
使用此命令编辑 configmap:
编辑部署
我们现在将最后编辑部署以导致 pod 重启并准备好一切。
ml-pipeline-ui
编辑ml-pipeline-ui部署并添加以下环境变量:
注意:确保将 MINIO_NAMESPACE 环境变量编辑为空,这很关键,因为该环境变量已经存在于部署中。
使用以下命令编辑 configmap:
机器学习流水线
编辑ml-pipeline部署并添加以下环境变量:
使用以下命令编辑部署:
配置每个用户命名空间
这也非常重要,对于每个用户命名空间,修补该命名空间中的ml-pipeline-ui-artifact部署和工件秘密。例如,在我的例子中,我的命名空间是kubeflow-user-example-com,因为我们使用了示例清单。
编辑秘密mlpipeline-minio-artifact并在.data字段中设置这些值:
编辑 ml-pipeline-ui-artifact并添加以下环境变量
使用以下命令编辑工件:
此时 Kubeflow 已正确配置为使用您的租户。还有最后一步,然后我们就可以测试我们的部署了。
将所有数据从 Kubeflow 的内部 MinIO 迁移到新租户
现在我们已经配置了所有内容,我们只需要确保 Kubeflow 期望存储在其存储桶中的数据确实存在。让我们复制该数据,然后关闭我们正在替换的内部 MinIO。
为此,我们将使用 MinIO Client (mc),这是一个用于管理 MinIO 的 CLI 工具。我们将从 Kubernetes 中运行的 pod 执行所有这些操作,但如果您选择这样做,您可以通过端口转发和使用您自己机器上的 mc 来执行此操作。
让我们用 Ubuntu shell 运行一个 pod:

该 shell 在 Kubeflow 命名空间中的 Kubernetes 集群内运行的 pod 上运行。
现在我们将:
安装wget
下载MC
使mc可执行
为当前的 MinIO 添加一个别名
为新的 MinIO 添加别名
复制所有数据
为此,我们运行以下命令:
最后,关闭内部 MinIO,因为不再需要它。
好的!我们已经完成了完整的 MinIO 部署。
验证 Kubeflow 正在使用新的 MinIO
接下来我们将验证设置并运行一些管道。
如果你去 MinIO Operator,你可以看到租户现在有数据:

单击租户,然后单击浏览器窗口右上角的控制台以打开 MinIO 控制台以浏览该租户。

从此视图中,您可以看到mlpipeline存储桶。单击浏览以查看其内容。

您会看到现有的演示管道已被复制过来。

现在让我们进入 Kubeflow 并运行一些管道,您可以使用端口转发来公开 Kubeflow 中央仪表板:
然后在浏览器中转到http://localhost:8080。

使用此示例设置的默认凭据登录:
电子邮件地址: user@example.com
密码: 12341234

然后转到左侧菜单栏中的“管道”菜单。我们将运行最基本的管道,“[教程] DSL - 控制结构”:

单击管道的名称。

从这里,单击右上角的创建实验。这将创建一个新实验,因为它是第一次运行,但随后您可以重新使用该实验。

然后点击开始:

运行完成后,探索管道以验证它是否成功运行。


用于多云机器学习的 Kubeflow 和 MinIO
这篇博文教您如何用 MinIO Operator 替换 Kubeflow 附带的 MinIO。您现在已准备好将 Kubeflow 的使用提升到一个新的水平,并使用 Kubernetes 原生高性能和高度可扩展的 MinIO 对象存储来支持它。
在机器学习管道和基础设施方面,使用 MinIO 的生命周期管理部署由超快 NVMe 驱动器支持的租户作为您的热层以进行快速训练和模型服务,并设置一个由 SSD 或 HDD 支持的暖层以供您老化数据集。MinIO 在不中断您的应用程序的情况下透明地执行此操作。分层是在每个存储桶的基础上配置的,甚至是针对存储桶中的单个前缀配置的,从而提供对将哪些数据移动到较慢的层的精细控制。
使用 MinIO 的Active-Active Replication,您可以将服务于生产机器学习模型的存储桶配置为跨多个站点即时复制,以实现灾难恢复和快速故障转移。
我真心希望这篇博文能帮助您发现在 Kubernetes 上设置 MinIO 对象存储并使用 Kubeflow 使用它是多么容易。如果您有任何问题,请加入我们的Slack 社区并提问!