使用 Amazon SageMaker 和 Kubernetes 进行机器学习运营

使用 Amazon SageMaker 简化基于 Kubernetes 的机器学习

Kubernetes 是一种开源系统,用于自动执行容器化应用程序的部署、扩展和管理。Kubeflow Pipelines 是一个工作流管理器,它提供一个界面来管理和调度 Kubernetes 集群上的机器学习 (ML) 工作流。使用开源工具提供灵活性和标准化,但需要花费时间和精力来设置基础设施、为数据科学家预置笔记本环境,并保持深度学习框架版本始终为最新版。

Amazon SageMaker Operators for Kubernetes 和适用于 Kubeflow Pipelines 的组件支持在 Kubernetes 或 Kubeflow 本地的机器学习工作流中使用完全托管的 SageMaker 机器学习工具。这样,您无需手动管理和优化基于 Kubernetes 的机器学习基础设施,同时仍掌控编排和灵活性。

优势

简化基础设施设置

Amazon SageMaker Operators 和组件基于您所需的 Amazon EC2 实例类型,通过自动预置必要的资源和完成自动扩展,让您无需为机器学习设置自己的 Kubernetes 环境。

专注于创新

通过利用 Amazon SageMaker Operators 和组件,您可以避免不断执行更新和安装,确保您的团队使用最新的深度学习框架版本、超参数调优工具和其他实用程序,如可重用算法和 AutoML。

快速预置

Amazon SageMaker Studio 和 SageMaker 笔记本允许您为在基于 Kubernetes 的机器学习平台上工作的数据科学团队快速预置开发环境,包括 Jupyter 笔记本、作业管理工具和 Python 库。

工作原理

  • Amazon SageMaker Operators for Kubernetes
  • Amazon SageMaker Operators for Kubernetes 工作原理
  • 适用于 Kubeflow Pipelines 的 Amazon SageMaker 组件
  • 工作原理 – 适用于 Kubeflow Pipelines 的 Amazon SageMaker 组件

使用案例

混合机器学习工作流

有时,机器学习工作流的某些部分需要在本地进行,以适应本地数据需求等约束,但其他部分(如推理)可以在云中进行。Amazon SageMaker Operators 和组件将本地基础设施连接到云,以便在可能的情况下,在机器学习工作流中利用完全托管的机器学习服务。

开源机器学习平台

许多团队选择依托开源平台构建机器学习平台,以获得跨环境的灵活性和可移植性。但是,运行开源平台需要配置 Kubernetes 设置。Amazon SageMaker Operators 和组件允许维护开源的机器学习平台,同时将云用于机器学习工作流中可满足业务需求的部分。

业务连续性

我们投入了大量时间和精力来精心构建 Kubernetes 环境,从而满足业务需求。Amazon SageMaker Operators 和组件允许使用完全托管的云服务,同时继续利用使用 Kubernetes 或 Kubeflow 构建的现有机器学习平台。

客户案例

Cisco

Cisco 的人工智能团队使用 Kubeflow Pipelines 实施了一个混合云,使他们能够遵守当地数据要求。Cisco 使用自己的硬件在本地训练其模型,然后将模型提供给 AWS,并使用 Amazon SageMaker 执行推理,将他们的机器学习生命周期总体拥有成本降低了 50%。

阅读更多 »

Bayer Crop Science

Bayer Crop Science 采用机器学习来监控试验田,评估潜在新产品的性能,但所使用的分析模型需要花费大量精力来训练和正确使用。Bayer 使用 Amazon SageMaker 和 Kubeflow Pipelines 创建了可复用的分析模型训练模板,帮助整个企业提升数据科学性。

阅读更多 »

iRobot

“在 iRobot,我们使用机器学习来构建让客户在家中生活和工作时无需进行日常清洁工作的用户体验。为了实现企业规模扩张,我们在 AWS 上使用 Kubeflow 开发解决方案。我们非常喜欢能够以生产级安全性和扩展能力来运行机器学习数据处理、训练和验证管道的方式。Amazon SageMaker 使在 AWS 上运行 Kubeflow 变得越来越流畅,这让我们感到兴奋。这样一来,iRobot 就能够为我们的客户提供令人愉快的体验,例如 iRobot Genius Home Intelligence 平台。”

机器学习技术总监 Danielle Dean 博士

资源

博客文章

使用 Amazon SageMaker ACK Operators 训练和部署机器学习模型

博客文章

通过一键式 Kubeflow on AWS 部署在 Amazon EKS 和 Amazon SageMaker 上启用混合式 ML 工作流

文档

Amazon SageMaker 集成

博客文章

适用于 Kubeflow 管道的 Amazon SageMaker 组件简介

博客文章

使用Amazon SageMaker Debugger 实时分析开源 ML 管道模型

文档

使用 Application Auto Scaling 扩展 SageMaker 工作负载

文档

使用 ACK SageMaker 控制器进行机器学习