Amazon SageMaker 常见问题

一般性问题

SageMaker 是一项完全托管的服务,可通过完全托管的基础设施、工具和工作流程为任何应用场景准备数据并构建、训练和部署机器学习(ML)模型。

有关受支持的 SageMaker 区域的列表,请访问 AWS 区域服务页面。此外,有关更多信息,请参阅 AWS 一般参考指南中的区域端点

SageMaker 旨在提供高可用性。没有维护时段或计划停机时间。SageMaker API 在 Amazon 稳定可靠且具有高可用性的数据中心中运行,相关的服务堆栈会在每个区域中的三处数据中心进行复制配置,以实现容错,防止服务器故障或可用区中断等事故导致的损失。

SageMaker 将代码存储在 ML 存储卷上,通过安全组保证安全,并可以选择在静态时加密。

SageMaker 可以确保机器学习模型构件和其他系统构件在传输中和静态下全部经过加密。对 SageMaker API 和控制台发出的请求全部通过安全(SSL)连接进行。您可以为 SageMaker 传递 AWS Identity and Access Management 角色,为其提供资源访问权限以便进行训练和部署。您可以将加密的 Amazon Simple Storage Service(Amazon S3)存储桶用于模型构件和数据,并为 SageMaker 笔记本、训练任务和端点传递 AWS Key Management Service(AWS KMS)密钥来加密挂载的 ML 存储卷。SageMaker 还支持 Amazon Virtual Private Cloud(Amazon VPC)和 AWS PrivateLink 支持。

SageMaker 不使用或共享模型、训练数据或算法。我们知道,客户十分注重隐私和数据安全。因此,AWS 通过简单而强大的工具让您拥有和控制自己的内容,这些工具可以让您确定内容的存储位置、保护动态和静态内容,并为用户管理对 AWS 服务和资源的访问权限。我们还采取了技术和物理控制措施,防止您的内容被非法访问或披露。作为客户,您对自己的内容拥有所有权,并且您可以选择使用哪项 AWS 服务来处理、存储和托管您的内容。未经您的同意,我们不会出于任何目的而访问您的内容。

您需要为用于托管笔记本、训练模型、执行预测和记录输出日志的 ML 计算、存储和数据处理资源付费。借助 SageMaker,您可以选择用于托管笔记本、训练和模型托管的实例的数量和类型。您只需按您的实际用量付费;既没有最低费用,也无需预付费。有关更多详细信息,请参阅 Amazon SageMaker 定价Amazon SageMaker 定价计算器

您可以采用一些最佳实践来优化您的 SageMaker 资源使用。一些方法涉及配置优化;另一些涉及编程解决方案。关于这个概念的完整指南,包括可视化教程和代码示例,可参见此博客文章

SageMaker 提供完整的工作流,但您可以继续将现有工具与 SageMaker 结合使用。您可以根据业务需求将每个阶段的结果轻松传入和传出 SageMaker。

符合。您可以在 SageMaker 笔记本实例中使用 R,该实例包括预装的 R 内核和 reticulate 库。Reticulate 为 Amazon SageMaker Python SDK 提供了 R 接口,可帮助 ML 从业人员构建、训练、调整和部署 R 模型。您还可以在 Amazon SageMaker Studio 中启动 RStudio,这是一个免费的集成式开发环境(IDE)。 

Amazon SageMaker Studio 提供了一个基于 Web 的可视化界面,您可以通过该界面执行所有机器学习(ML)开发步骤。借助 SageMaker Studio,您可以全面访问、控制和查看准备数据以及构建、训练和部署模型所需的每个步骤。您可以快速上传数据、创建新笔记本、训练和调优模型,在步骤之间来回移动以调整实验、对比结果以及将模型部署到生产环境中,而且上述所有工作都在一个地方完成,大大提升了工作效率。您可以在统一的 SageMaker Studio 可视化界面中执行所有 ML 开发活动,包括笔记本、实验管理、自动创建模型、调试和分析以及模型偏差检测。

使用 SageMaker Studio 不收取额外费用。您只需为在 SageMaker Studio 中使用的服务支付基础计算和存储费用。

您可以在 Amazon SageMaker 开发人员指南中找到支持 SageMaker Studio 的区域。

Amazon SageMaker Clarify 通过检测整个 ML 工作流中的统计偏差来帮助提高模型的透明度。SageMaker Clarify 在数据准备期间、训练之后以及随时间推移检查是否存在不平衡,同时包括有助于解释 ML 模型及其预测的工具。可通过可解释性报告共享调查发现。

在 ML 模型中测量偏差是缓解偏差的第一步。偏差可以在训练之前(作为数据准备的一部分)、训练之后(使用 Amazon SageMaker Experiments)以及部署模型的推理期间(使用 Amazon SageMaker Model Monitor)进行测量。每个超过 20 的偏差指标都对应不同的公平概念。您可以选择对正在调查的应用程序和情况有效的指标。例如,在训练之前,类别不平衡和各组标签分布的差异等指标会检查训练数据是否代表总体人群。SageMaker Clarify 会考虑正面(有利)结果差异和个体标签分布差异,以检测群体的代表性是否不足。在训练结束后或部署期间,偏差指标有助于衡量模型在不同组中的性能是否存在差异以及差异有多大。平等代表性和差异影响等指标衡量正面预测的差异。相同性能指标,例如精度(正面预测正确的可能性)和召回率(模型正确标记正面示例的可能性)的差异,用于评估各组间的误差均匀分布。要了解更多信息,请参阅此博客文章。 

SageMaker Clarify 与 SageMaker Experiments 集成提供功能重要性图表,以详细说明模型训练之后,每个输入对于模型总体决策过程的重要性。这些详细信息有助于确定特定模型输入对整体模型行为的影响是否比应有影响更大。SageMaker Clarify 还可对通过 API 可获得的单个预测做出解释。 

ML 治理

SageMaker 在整个 ML 生命周期中提供专门构建的 ML 治理工具。借助 Amazon SageMaker 角色管理器,管理员可以在几分钟内定义最低权限。Amazon SageMaker 模型卡让您可以更轻松地捕获、检索和共享从概念到部署的基本模型信息,而 Amazon SageMaker 模型总览板则可以让您在一个位置了解生产模型的行为。有关
更多详情,请参阅使用 Amazon SageMaker 进行 ML 治理

您可以使用 SageMaker Role Manager 在几分钟内定义最低权限。该服务通过预构建的 IAM policy 目录为 ML 活动和角色提供一组基线权限。您可以保留基线权限,或根据您的特定需求进一步自定义它们。通过一些自助提示,您可以快速输入常见的治理构造,例如网络访问边界和加密密钥。然后,SageMaker Role Manager 将自动生成 IAM policy。您可以通过 AWS IAM 控制台发现生成的角色和关联的策略。要进一步针对您的用例定制权限,请将您的托管 IAM 策略附加到您使用 SageMaker Role Manager 创建的 IAM 角色。您还可以添加标签以帮助跨 AWS 服务识别和组织角色。

SageMaker 模型卡通过为模型信息创建单一信任源,帮助您在整个 ML 生命周期中集中和标准化模型文档。SageMaker 模型卡可以自动填充训练详细信息以加速文档编制过程。您还可以添加详细信息,例如模型的目的和性能目标。您可以将模型评估结果附加到您的模型卡并提供可视化效果,以获得对模型性能的关键洞察。SageMaker 模型卡可以通过导出为 PDF 格式轻松地与他人共享。

SageMaker 模型总览板为您提供已部署模型和端点的全面概览,让您可以通过一个窗格跟踪资源和模型行为违规。它让您可以通过与 SageMaker Model Monitor 和 SageMaker Clarify 的集成,从四个维度监控模型行为,包括数据和模型质量,以及偏差和特征归因漂移。SageMaker 模型总览板还提供了一种集成体验,可以针对缺失和不活动的模型监控作业以及模型质量、数据质量、偏差漂移和特征归因漂移的模型行为偏差设置和接收警报。您可以进一步检查各个模型并分析随时间推移影响模型性能的因素。然后,您可以跟进 ML 从业者以采取纠正措施。

基础模型

SageMaker JumpStart 可帮助您快速轻松地开始 ML。SageMaker JumpStart 为最常见的应用场景提供了一套解决方案,只需几个步骤即可轻松部署。这些解决方案是完全可定制的,并展示了 AWS CloudFormation 模板和参考架构的使用,因此可以加快您的 ML 进程。SageMaker JumpStart 还提供根基模型并支持一步式部署和 150 多种流行的开源模型的微调,例如转换器、对象检测和图像分类模型。 

SageMaker JumpStart 提供专有和公共模型。有关可用基础模型的列表,请参阅 Amazon SageMaker JumpStart 入门

您可以通过 SageMaker Studio、SageMaker SDK 和 AWS 管理控制台访问根基模型。要开始使用专有基础模型,您必须接受 AWS Marketplace 中的销售条款。

不会。不会使用或共享您的推理和训练数据来更新或训练 SageMaker JumpStart 向客户展示的基本模型。

不能。专有模型不允许客户查看模型权重和脚本。

在提供 SageMaker Studio 的所有区域都可以发现基础模型,但部署模型的能力因所需实例类型的模型和实例可用性而异。您可以从 AWS Marketplace 的模型详细信息页面查看 AWS 区域的可用性和所需实例。

对于专有模型,您需要按模型提供商确定的软件定价付费,并根据使用的实例支付 SageMaker 基础设施费用。对于公开可用的模型,您需要根据使用的实例支付 SageMaker 基础设施费用。有关更多信息,请参阅 Amazon SageMaker 定价AWS Marketplace

安全是 AWS 的重中之重,SageMaker JumpStart 旨在确保安全。因此,SageMaker 通过简单而强大的工具让您拥有和控制自己的内容,这些工具可以帮助您确定内容的存储位置、保护动态和静态内容,并为用户管理对 AWS 服务和资源的访问权限。

  1. 我们不会在 AWS Marketplace 上与模型卖家共享客户训练和推理信息。同样,卖家的模型构件(例如模型权重)也不会与买家共享。
  2. SageMaker JumpStart 不会使用客户模型、训练数据或算法来改善其服务,也不会与第三方共享客户训练和推理数据。
  3. 在 SageMaker JumpStart 中,机器学习模型构件在传输中和静态下全部经过加密。
  4. AWS 责任共担模式下,AWS 负责保护运行所有 AWS 的全球基础设施。您有责任保持对在此基础设施上托管的内容的控制。

使用 AWS Marketplace 或 SageMaker JumpStart 中的模型,即表示用户承担模型输出质量的责任并承认已知悉单个模型描述中所述的功能和限制。

SageMaker JumpStart 包括来自 PyTorch Hub 和 TensorFlow Hub 的 150 多种经过预先训练且公开发布的模型。对于图像分类和对象检测等视觉任务,您可以利用 RESNET、MobileNet 和 Single-Shot Detector(SSD)等模型。对于句子分类、文本分类和问题回答等文本任务,您可以使用 BERT、RoBERTa 和 DistilBERT 等模型。

借助 SageMaker JumpStart,数据科学家和 ML 开发人员可以在其组织内轻松共享 ML 构件,包括笔记本和模型。管理员可以设置一个存储库,可供定义的一组用户访问。所有有权访问存储库的用户都可以浏览、搜索和使用模型和笔记本以及 SageMaker JumpStart 中的公共内容。用户可以选择构件,以在 SageMaker JumpStart 中训练模型、部署端点和执行笔记本。

借助 SageMaker JumpStart,您可以在构建 ML 应用程序时加快上市速度。只需几个步骤,就可以将组织内一个团队构建的模型和笔记本轻松地与组织内的其他团队共享。内部知识共享和资产重用可以显著提高组织的生产力。

Amazon SageMaker Clarify 现在支持基础模型评估。您可以评估、比较并选择适合您的特定应用场景的最佳基础模型。只需选择您想要针对给定任务评估的模型,例如问答或内容摘要。然后选择评估标准(例如准确性、公平性和稳健性)并上传您自己的提示数据集或从内置的公开数据集中进行选择。对于需要复杂的人工判断的主观标准或有细微差别的内容,您可以选择利用自己的员工队伍,也可以使用 AWS 提供的托管员工队伍来审查响应。完成设置过程后,SageMaker Clarify 会运行评估并生成报告,以便您可以轻松了解模型在关键标准上的执行情况。您可以使用评估向导评估 SageMaker JumpStart 中的基础模型,也可以使用开源库评估未在 AWS 上托管的任何基础模型。

符合。管理员可以跨 AWS 账户和用户主体控制哪些 Amazon SageMaker JumpStart 模型可供用户查看和使用。要了解更多信息,请参阅文档

推理优化工具包使您可以轻松实施最新的推理优化技术,从而在 Amazon SageMaker 上实现最先进的 (SOTA) 性价比,同时节省数月的开发时间。您可以从 SageMaker 提供的常用优化技术菜单中进行选择,提前运行优化作业,对模型进行性能和精度指标基准测试,然后将优化的模型部署到 SageMaker 端点进行推断。该工具包可处理模型优化的各个方面,因此您可以更加专注于业务目标。

推理优化工具包可帮助您提高生成式人工智能应用的性价比并缩短上市时间。完全托管的模型优化工具包使您可以通过易于使用的工具访问最新的优化技术。随着时间的推移,该工具包会不断适应最先进的创新技术、新硬件和托管功能,因此也很容易升级到现有的最佳解决方案。

推理优化工具包支持 Speculative Decoding、Quantization 和 Compilation 等优化技术。您只需点击几下即可选择要添加到模型的优化,Amazon SageMaker 将管理所有无差别的繁重工作,包括采购硬件、选择深度学习容器和相应的调整参数来运行优化作业,然后将优化的模型构件保存在您提供的 S3 位置。

对于 Speculative Decoding,您可以开始使用 SageMaker 提供的草稿模型,这样您就不必从头开始构建自己的草稿模型,也不必请求路由和系统级优化。使用 Quantization 功能,您只需选择要使用的精度类型,然后开始基准测试工作,以衡量性能与精度之间的权衡。Amazon SageMaker 将生成一份全面的评估报告,因此您可以轻松分析性能和准确性之间的权衡。有了 Compilation 功能,对于最常用的模型及其配置,Amazon SageMaker 会在端点设置和扩展过程中自动获取编译后的模型构件,这样您就无需提前运行编译作业,从而节省了硬件成本。

Amazon SageMaker 推理优化工具包有助于减少优化 GenAI 模型的成本和时间,让您能够专注于业务目标。

低代码 ML

SageMaker Canvas 是一项无代码服务,具有一个直观的点击式界面,使您能够根据数据创建高度准确的基于机器学习的预测。SageMaker Canvas 让您可以使用拖放式用户界面访问和组合来自各种来源的数据,自动清理和准备数据以最大限度地减少手动清理工作。SageMaker Canvas 应用各种最先进的 ML 算法来寻找高度准确的预测模型,并提供直观的界面来进行预测。您可以使用 SageMaker Canvas 在各种业务应用程序中进行更精确的预测,并通过共享模型、数据和报告轻松与企业中的数据科学家和分析师协作。要了解有关 SageMaker Canvas 的更多信息,请参阅 Amazon SageMaker Canvas 常见问题

SageMaker Canvas 根据使用量付费。SageMaker Canvas 使您能够以交互方式摄取、探索和准备来自多个来源的数据、使用您的数据训练高度准确的 ML 模型并生成预测。您的账单由两个部分决定:基于使用或登录 SageMaker Canvas 的小时数的会话费用,以及基于用于构建模型的数据集大小的模型训练费用。有关更多信息,请参阅 Amazon SageMaker Canvas 定价

ML 工作流

Amazon SageMaker Pipelines 帮助您创建从数据准备到模型部署的全自动 ML 工作流,让您可以在生产中扩展到数千个 ML 模型。您可以使用 SageMaker Python SDK 创建 Pipelines,并从 SageMaker Studio 的可视化界面查看、执行和审核它们。SageMaker Pipelines 管理步骤之间的数据、打包代码配方并编排其执行,从而将数月的编码工作缩短至几个小时。每次执行工作流时,都会保存已处理数据和所采取措施的完整记录,以便数据科学家和 ML 开发人员可以快速调试问题。

您可以在 SageMaker Pipeline 中使用模型注册步骤将所有待部署的模型整合到一个位置。稍后,您或团队中的其他人可以通过 SageMaker Studio 用户界面或 Python SDK 发现、审查和批准这些模型,以便在 SageMaker 模型注册表中部署。
SageMaker Pipeline 由多个“步骤”组成。您可以选择任何原生支持的步骤类型来组成一个调用各种 SageMaker 功能(例如培训、评估)或其他 AWS 服务(例如 EMR、Lambda)的工作流程。您还可以使用 ‘@step’ python 装饰器或添加整个 python 笔记本作为 SageMaker Pipeline 的组件,将现有的 ML Python 代码提取并转移到管道中。有关更多详细信息,请参阅 SageMaker Pipelines 开发人员指南。
SageMaker Pipelines 自动跟踪所有模型构成部分,并跟踪所有更改的审核记录,从而消除手动跟踪,并可以帮助您实现合规性目标。您可以使用 SageMaker Pipelines 跟踪数据、代码、经训练的模型等。

使用 SageMaker Pipelines 不收取额外费用。您只需为 SageMaker Pipelines 中使用的基础计算或任何单独 AWS 服务支付费用。

符合。适用于 Kubeflow Pipelines 的 Amazon SageMaker 组件是开源插件,借助这些组件,您可以使用 Kubeflow Pipelines 定义您的机器学习工作流,以及使用 SageMaker 执行数据标注、培训和推理步骤。Kubeflow Pipelines 是 Kubeflow 的一个附加件,借助它,您可以构建和部署便携且可扩展的完整 ML 管道。但是,使用 Kubeflow Pipelines 时,ML 运营团队需要管理带有 CPU 和 GPU 实例的 Kubernetes 集群,并始终保持其高利用率,以降低运营成本。跨数据科学团队实现集群的利用率最大化是充满挑战的,并且会为机器学习运营团结增加运营开销。作为 ML 优化 Kubernetes 集群的替代方案,借助适用于 Kubeflow Pipelines 的 SageMaker Component,您可以利用强大的 SageMaker 功能,例如数据标注、完全托管的大规模超参数调优、分布式培训任务、一键式安全和可扩展模型部署以及通过 Amazon Elastic Compute Cloud(Amazon EC2)竞价型实例进行经济高效培训等,无需专门配置和管理 Kubernetes 集群,即可运行机器学习任务。

将 SageMaker 组件用于 Kubeflow 管道无需额外付费。 

人机交互

人机闭环是在整个机器学习生命周期中利用人类输入来提高模型的准确性和相关性的过程。人类可以执行从数据生成和注释到模型审查和定制等各种任务。人类干预对于生成式人工智能应用尤其重要,人类通常既是内容的请求者又是内容的消费者。因此,人类训练基础模型(FM)如何准确、安全和相关的响应用户的提示至关重要。可以应用人类反馈来帮助您完成多项任务。首先,通过有监督学习(人类模拟模型应如何响应用户提示的风格、长度和准确性)和提供人类反馈的强化学习(人类对模型响应进行排名和分类)为生成式人工智能应用程序创建高质量的标记训练数据集。其次,使用人工生成的数据针对特定任务或使用您的公司和领域特定数据来定制 FM,并使模型输出与您相关。

人机闭环功能在创建和改进由 FM 提供支持的生成式人工智能应用程序方面发挥重要作用。接受过任务指南培训的高技能员工可以在一些活动中提供反馈、指导、意见和评测,例如生成演示数据以训练 FM、纠正和改进样本响应、根据公司和行业数据微调模型、通过行动防范毒舌和偏见,等等。因此,人机闭环功能可以提高模型的准确性和性能。 

Amazon SageMaker Ground Truth 提供最全面的人机交互功能。有两种使用 Amazon SageMaker Ground Truth 的方法:自助式产品和 AWS 托管产品。在自助式产品中,您的数据注释者、内容创建者和提示工程师(内部、供应商管理或利用公共人群)可以使用我们的低代码用户界面来加速人机闭环任务,同时可以灵活地构建和管理您自己的自定义工作流程。在 AWS 托管的产品(SageMaker Ground Truth Plus)中,我们为您处理繁重的工作,包括为您的使用案例选择和管理合适的员工。SageMaker Ground Truth Plus 设计和定制端到端工作流程(包括详细的员工培训和质量保证步骤),并提供熟练的 AWS 管理团队,该团队接受过特定任务方面的培训,并满足您的数据质量、安全性和合规性要求。 

准备数据

SageMaker Data Wrangler 可将汇总和准备机器学习数据所需的时间从数周缩短至几分钟。通过 SageMaker Studio 中的单一界面,只需几个步骤即可浏览和导入来自 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon EMR、Snowflake 和 Databricks 的数据。您还可以查询和导入从 50 多个数据来源传输并通过 Amazon AppFlow 在 AWS Glue Data Catalog 中注册的数据。SageMaker Data Wrangler 将自动加载、聚合和显示原始数据。将数据导入 SageMaker Data Wrangler 后,您就可以看到自动生成的列摘要和直方图。然后,您可以通过 SageMaker Data Wrangler 数据质量和洞察报告更深入地了解您的数据并识别潜在错误,该报告提供汇总统计数据和数据质量警告。您还可以直接从 SageMaker Data Wrangler 运行 SageMaker Clarify 支持的偏差分析,以检测数据准备期间的潜在偏差。从那里,您可以使用 SageMaker Data Wrangler 的预构建转换来准备您的数据。当数据准备就绪后,您可以使用 Amazon SageMaker Pipelines 构建全自动 ML 工作流程,或将该数据导入 Amazon SageMaker Feature Store

SageMaker Data Wrangler 支持表格、时间序列和图像数据,提供 300 多种预先配置的数据转换来准备这些不同的数据模式。对于想要在 Data Wrangler 中为 NLP 用例准备文本数据的客户,Data Wrangler 支持 NLTK 库,以便客户可以通过在 Data Wrangler 中编写自己的自定义转换来准备文本数据。
SageMaker Data Wrangler 提供 300 多种预构建的、基于 PySpark 的数据转换,因此您可以转换数据并扩展数据准备工作流程,而无需编写任何代码。此外,您还可以使用由 FM 提供支持的自然语言界面转换机器学习模型的数据,或者从 SageMaker Data Wrangler 代码片段库中编写自定义代码片段。
SageMaker Data Wrangler 通过一组强大的预配置可视化模板帮助您了解数据并识别潜在错误和极值。直方图、散点图和特定于 ML 的可视化(例如目标泄漏检测)均可用,无需编写任何代码。您还可以创建和编辑自己的可视化文件。

您需要为用于 SageMaker Data Wrangler 的所有 ML 计算、存储和数据处理资源支付费用。您可以在此处查看 SageMaker Data Wrangler 定价的所有详细信息。作为 AWS Free Tier 的一部分,您还可以免费开始使用 SageMaker Data Wrangler。

SageMaker Data Wrangler 提供了统一的体验,使您能够在 SageMaker Canvas 中准备数据并无缝训练机器学习模型。SageMaker Canvas 可根据您的数据自动构建、训练和调整最佳 ML 模型。您还可以将 SageMaker Data Wrangler 中准备的功能与现有模型结合使用。您可以通过在用户界面(UI)中配置作业或使用编排代码导出笔记本,将 SageMaker Data Wrangler 处理作业配置为作为 SageMaker 训练管道的一部分运行。
您可以直接从 SageMaker Data Wrangler UI 配置和启动 SageMaker 处理作业,包括安排数据处理作业和参数化数据来源,以轻松地大规模转换新的数据批次。
准备好数据后,SageMaker Data Wrangler 会提供不同的选项来将您的 SageMaker Data Wrangler 流程推广到生产环境,并与 MLOps 和 CI/CD 功能无缝集成。您可以直接从 SageMaker Data Wrangler UI 配置和启动 SageMaker 处理作业,包括安排数据处理作业和参数化数据来源,以轻松地大规模转换新的数据批次。或者,SageMaker Data Wrangler 与 SageMaker 处理和 SageMaker Spark 容器无缝集成,让您可以轻松使用 SageMaker SDK 将 SageMaker Data Wrangler 集成到您的生产工作流程中。
只需几个步骤,SageMaker Data Wrangler 就会使用默认超参数拆分和训练 XGBoost 模型。根据问题类型,SageMaker Data Wrangler 提供模型摘要、特征摘要和混淆矩阵,以快速为您提供见解,让您可以迭代数据准备流程。
SageMaker Data Wrangler 支持各种采样技术,例如用于导入数据的 top-K、随机和分层采样,因此您可以使用 SageMaker Data Wrangler 的 UI 快速转换数据。如果您使用的是大型或宽数据集,则可以增加 SageMaker Data Wrangler 实例大小以提高性能。创建流程后,您可以使用 SageMaker Data Wrangler 处理作业处理完整的数据集。
是,您可以将 SageMaker Feature Store 配置为在 SageMaker Data Wrangler 中准备的特征的目标。这可以直接在 UI 中完成,或者您可以导出专门为处理数据而生成的笔记本,并将 SageMaker Feature Store 作为目标。

SageMaker Feature Store 是一个完全托管式的专用平台,用于存储、共享和管理机器学习(ML)模型特征。可以发现和共享功能,以便在具有安全访问和控制权限的模型和团队(包括 AWS 账户)之间轻松重复使用。SageMaker Feature Store 支持在线和离线功能,用于实时推理、批量推理和训练。它还管理批处理和流式特征工程管道,以减少特征创建中的重复工作并提高模型准确性。

离线特征通常是用于训练和批量推理的大量历史数据。离线特征在高可用性、高持久性的对象存储中维护。
在应用程序中,使用在线功能来进行实时预测。在线功能通过高吞吐量存储提供,该存储从客户端应用程序进行传输的延迟时间仅几毫秒,可实现快速预测。
SageMaker Feature Store 自动维护在线和离线功能之间的一致性,无需其他管理或代码,从而在训练和推理环境中保持一致性。
SageMaker Feature Store 会维护所有特征的时间戳,并提供可帮助您在任何时间点检索特征的内置方法,以满足业务或合规性需求。无需编写复杂的 SQL 查询或编写大量代码,而是可以调用内置方法进行时间旅行和时间点精确连接,以生成用于针对相关时间段的训练和批量推理的数据集

作为 AWS Free Tier 的一部分,您可以免费开始使用 SageMaker Feature Store。使用 SageMaker Feature Store 时,您需要支付写入功能库以及从在线功能库读取和存储的费用。有关定价详细信息,请参阅 Amazon SageMaker 定价

SageMaker 提供两种数据标注产品:Amazon SageMaker Ground Truth Plus 和 Amazon SageMaker Ground Truth。这两个选项都允许您识别原始数据,例如图像、文本文件和视频,并添加信息标签来为您的机器学习模型创建高质量的训练数据集。要了解更多信息,请参阅 Amazon SageMaker 数据标注

地理空间数据表示地球表面的特征或对象。第一类地理空间数据是矢量数据,它使用点、线或多边形等二维几何图形来表示道路和陆地边界等对象。第二种地理空间数据是栅格数据,例如卫星、航空平台或遥感平台收集的图像。此数据类型使用像素矩阵来定义特征所在的位置。您可以使用栅格格式来存储变化的数据。第三种地理空间数据是地理标记位置数据。它包括兴趣点(例如埃菲尔铁塔)、带有位置标记的社交媒体帖子、经纬度坐标或不同风格和格式的街道地址。
SageMaker 地理空间功能使数据科学家和 ML 工程师可以更轻松地构建、训练和部署 ML 模型,以使用地理空间数据进行预测。您可以自带数据,例如来自 Amazon S3 的 Planet Labs 卫星数据,或从 AWS 上的开放数据、Amazon Location Service 和其他 SageMaker 地理空间数据来源获取数据。
您可以使用 SageMaker 地理空间功能比自己动手的解决方案更快地对地理空间数据进行预测。SageMaker 地理空间功能使您可以更轻松地从现有客户数据湖、开源数据集和其他 SageMaker 地理空间数据来源访问地理空间数据。SageMaker 地理空间功能通过提供用于高效数据准备、模型训练和推理的专用算法,最大限度地减少了构建自定义基础设施和数据预处理功能的需求。您还可以从 SageMaker Studio 创建自定义可视化和数据并与您的组织共享。SageMaker 地理空间功能包括用于农业、房地产、保险和金融服务的常见用途的预训练模型。

构建模型

您可以在 SageMaker 中使用完全托管的 Jupyter Notebook 进行完整的机器学习开发。利用云端的多种计算优化型实例和 GPU 加速型实例,纵向扩展或缩减计算资源。

SageMaker Studio Notebooks 是一步式 Jupyter notebook,可以快速启动。底层计算资源极具弹性,让您可以轻松启用或关闭可用资源,并且更改将在后台自动进行,不会干扰您的工作。SageMaker 还支持一步共享笔记本。您可以与他人轻松共享笔记本,他们将获得保存在同一位置的完全相同的笔记本。

使用 SageMaker Studio Notebooks 时,您可以通过 IAM Identity Center 使用您的企业凭证登录。在团队内和团队间共享笔记本非常简单,因为系统会在工作映像中自动跟踪运行笔记本所需的依赖关系,并在共享笔记本时将其封装在笔记本内。

SageMaker Studio IDE 中的笔记本提供了几项重要的功能,使它们有别于基于实例的笔记本。首先,您可以快速启动笔记本,而无需手动预置实例并等待其运行。启动 UI 来读取和执行笔记本的启动时间比基于实例的笔记本快。您还可以随时灵活地在 UI 内从大量实例类型中进行选择。您不需要转至 AWS 管理控制台即可通过笔记本启动新实例和进行移植。每个用户都有一个独立于特定实例的隔离主目录。该目录在启动时便自动挂载在所有的笔记本服务器和内核中,因此,即使您切换实例以查看和运行笔记本,您仍可以访问笔记本和其他文件。SageMaker Studio 笔记本集成了 AWS IAM Identity Center(AWS SSO 的后继者),使您可以更轻松地使用组织凭证来访问笔记本。它们还与 SageMaker 和其他 AWS 服务中的专用机器学习工具集成,以便您完成从使用 Amazon EMR 上的 Spark 准备 PB 级数据、训练和调试模型,到部署和监控模型以及管理管道的整个机器学习开发过程。
Studio IDE 中的 SageMaker Notebooks 让您能够使用 SageMaker 的所有功能,例如分布式训练、批量转换和托管。您还可以从 SageMaker 笔记本中使用 Amazon S3、Amazon Redshift、AWS Glue、Amazon EMR 或 AWS Lake Formation 中的数据集等其他服务。

ML 从业者可以创建一个共享工作区,团队成员可以在其中一起阅读和编辑 SageMaker Studio 笔记本。通过使用共享步调,团队成员可以共同编辑同一个笔记本文件,同时运行笔记本代码,并一起查看结果,以消除来回和简化协作。在共享空间中,ML 团队将内置对 BitBucket 和 AWS CodeCommit 等服务的支持,因此他们可以轻松管理笔记本的不同版本并比较随时间变化的变化。从笔记本中创建的任何资源(例如实验和 ML 模型)都会自动保存并与创建它们的特定工作区相关联,因此团队可以更轻松地保持井井有条并加速 ML 模型开发。

使用 Studio IDE 中的 SageMaker Notebooks 时,您需要支付计算和存储费用。有关按计算实例类型收费的信息,请参阅 Amazon SageMaker 定价。您的笔记本以及相关构件(例如数据文件和脚本)将保留在 Amazon Elastic File System(Amazon EFS)上。有关存储费用,请参阅 Amazon EFS 定价。作为 AWS Free Tier 的一部分,您可以免费开始使用 SageMaker Studio 中的笔记本。

不需要。您可以在同一计算实例上创建并运行多个笔记本。您只需为使用的计算付费,不需要为各个项目付费。您可以在我们的计量指南中了解更多相关信息。

除了笔记本之外,您还可以在 SageMaker Studio 中启动和运行终端和交互式 Shell,一切操作均在同一计算实例上执行。每个应用程序都在容器或映像内运行。SageMaker Studio 提供了多个内置映像,这些映像是为数据科学和机器学习专门构建和预先配置的。

您可以通过 SageMaker Studio 可视化界面和 AWS 管理控制台来监视和关闭 SageMaker Studio 笔记本所使用的资源。 有关更多详细信息,请参阅文档

需要,您将继续为计算付费。这类似于在 AWS 管理控制台中启动 Amazon EC2 实例,然后关闭浏览器。除非您明确关闭 Amazon EC2 实例,否则该实例仍在运行,并且仍会产生费用。

否,您无需为创建或配置 SageMaker Studio 域(包括添加、更新和删除用户资料)付费。

作为管理员,您可以在 AWS Billing Console 中查看 SageMaker(包括 SageMaker Studio)的逐项收费列表。在用于 SageMaker 的 AWS 管理控制台中,选择顶部菜单上的 “服务”,在搜索框中键入“账单”并从下拉列表中选择 “账单”,然后在左侧面板上选择 “账单”。在 “详细信息” 部分中,您可以选择 SageMaker 展开区域列表并向下钻取到逐项收费。

SageMaker Studio Lab 是一个免费的机器学习开发环境,它免费提供计算、存储(高达 15GB)和安全性,供任何人学习和试验 ML。您只需一个有效的电子邮件 ID 即可开始使用;无需配置基础设施或管理身份和访问权限,甚至无需注册 AWS 账户。SageMaker Studio Lab 通过 GitHub 集成加速模型构建,它预配置了最流行的 ML 工具、框架和库,可让您立即开始使用。SageMaker Studio Lab 会自动保存您的工作,因此您无需在会话之间重新启动。就像合上笔记本电脑然后再回来一样简单。
SageMaker Studio Lab 适用于需要免费笔记本开发环境且无需设置机器学习课程和实验的学生、研究人员和数据科学家。SageMaker Studio Lab 非常适合不需要生产环境但仍希望使用 SageMaker 功能的子集来提高机器学习技能的用户。SageMaker 会话会自动保存,可帮助用户从每个用户会话的中断处继续。
SageMaker Studio Lab 是一项基于 AWS 构建的服务,它利用了许多与 Amazon SageMaker Studio 相同的核心服务,例如 Amazon S3 和 Amazon EC2。与其他服务不同,客户不需要 AWS 账户。他们将使用电子邮件地址创建一个 SageMaker Studio Lab 特定账户。这将使用户能够访问一个有限的环境(15GB 的存储空间和 12 小时的会话),以便他们运行机器学习笔记本。

SageMaker Canvas 有助于您无缝发现账户有权访问的 AWS 数据来源,包括 Amazon S3 和 Amazon Redshift。您可以使用 SageMaker Canvas 可视化拖放界面浏览和导入数据。此外,您还可以从本地磁盘拖放文件,并使用预构建的连接器从第三方源(如 Snowflake)导入数据。

连接源、选择数据集并准备好数据后,您可以选择要预测的目标列以启动模型创建任务。SageMaker Canvas 将自动识别问题类型,生成新的相关特征,使用 ML 技术(例如线性回归、逻辑回归、深度学习、时间序列预测和梯度提升)测试一组全面的预测模型,并构建基于您的数据集进行准确预测的模型。

训练模型

SageMaker HyperPod 专为加快基础模型(FM)的训练而构建。它提供了针对大规模分布式训练进行优化的更具弹性的基础设施,使您能够更快地在数千个加速器上进行训练。它可以自动检测、诊断故障并从故障中恢复,因此您可以一次训练 FM 数月而不会中断。SageMaker HyperPod 预先配置了 SageMaker 分布式训练库,可将模型训练数据分配为更小的块,以便跨加速器并行处理,从而帮助您有效提高性能。
如果您需要时间更长、规模更大的训练工作负载,并且需要大量计算实例(例如 GPU 或 AWS 加速器),则可以使用 SageMaker HyperPod 来获得更具弹性的体验,从而减少训练时间。

符合。SageMaker 可以自动在 AWS GPU 实例之间分配深度学习模型和大型培训集,只需花少量时间手动构建和优化这些分配策略即可。SageMaker 应用的两种分布式训练技术是数据并行和模型并行。通过在多个 GPU 实例之间平均划分数据,并允许每个实例同时进行训练,可应用数据并行,从而提高训练速度。模型并行对于太大而无法存储在单个 GPU 上,并且需要在将其分布到多个 GPU 之前划分为较小部分的模型很有用。只需在 PyTorch 和 TensorFlow 训练脚本中额外添加几行代码,SageMaker 就可以为您自动应用数据并行或模型并行,让您更快地开发和部署模型。SageMaker 将通过使用图形分区算法来确定拆分您的模型的最佳方法,以平衡每个 GPU 的计算量,同时尽量减少各 GPU 实例之间的通信。SageMaker 还可通过算法对您的分布式训练任务进行优化,这些算法充分利用 AWS 计算和网络,以实现近乎线性的扩展效率,从而让您比手动开源实施更快地完成训练。

SageMaker Experiments 可帮助您组织和跟踪机器学习模型的迭代。SageMaker Experiments 通过自动捕获输入参数、配置和结果并将其存储为“实验”来帮助您管理迭代。您可以创建 Amazon SageMaker 实验,使用首选开发环境中的几行代码来跟踪您的机器学习工作流程。你还可以使用 SageMaker Python SDK 将 SageMaker 实验集成到您的 SageMaker 训练脚本中。
SageMaker Debugger 能够在训练期间自动捕获实时指标(例如,混淆矩阵和学习梯度),帮助提高模型精度。SageMaker Studio 中会直观呈现来自 SageMaker 调试程序的指标,以便您理解。检测到常见的训练问题时,SageMaker 调试程序还会生成警告及提供修复建议。SageMaker Debugger 还可以自动实时监控和分析系统资源,例如 CPU、GPU、网络和内存,并提供有关重新分配这些资源的建议。这有助于您在训练期间有效使用资源,并有助于降低成本和资源。
借助 SageMaker 的托管型 Spot 训练功能,您可以使用 Amazon EC2 竞价型实例来训练您的机器学习模型,同时降低最高 90% 的训练模型成本。
您可以在提交训练作业时启用托管型 Spot 训练选项,同时您还可以指定希望等待 Spot 容量多长时间。然后,SageMaker 将使用 Amazon EC2 竞价型实例运行您的任务并管理 Spot 容量。您可以在训练任务运行及等待容量时全面了解其状态。
当您能灵活运行您的训练且您想最大限度降低训练任务成本时,托管型 Spot 训练适用。托管型 Spot 训练可帮助您将训练机器学习模型的成本最高降低 90%。
托管型 Spot 训练使用 Amazon EC2 竞价型实例进行训练,并且当 AWS 需要容量时可以先获得这些实例。因此,当容量可用时,托管型 Spot 训练任务可以以小的增量运行。当出现中断时,不需要从头开始重启训练任务,因为 SageMaker 可以使用最新的模型检查点恢复训练任务。SageMaker 的内置框架和内置计算机视觉算法支持定期检查点,并且您可以启用带有自定义模型的检查点。
对于长期运行的训练任务,我们建议将定期检查点作为一般最佳实践。这将阻止您的托管型 Spot 训练任务在先取得容量时重新启动。当您启用检查点时,SageMaker 会从最近的检查点恢复您的托管型 Spot 训练作业。
当托管的 Spot 训练任务完成后,您可以在 AWS 管理控制台中查看节省情况,并且还能通过训练任务运行持续时间与计费持续时间之间的百分比差异来计算成本节省。无论您的托管型 Spot 训练任务中断了多少次,都只会根据下载数据的持续时间向您收取一次费用。
可以将托管型 Spot 训练用于 SageMaker 中支持的所有实例。

目前提供 SageMaker 的所有区域都支持托管型 Spot 训练。

SageMaker 训练模型可以使用的数据集没有固定的大小限制。

SageMaker 包含一些内置算法,例如线性回归算法、逻辑回归算法、k-means 集群算法、主成分分析算法、因式分解机算法、神经主题建模算法、潜在狄利克雷分配算法、梯度提高树算法、序列到序列算法、预测时间序列 word2vec 和映像分类算法等。SageMaker 还提供经过优化的 Apache MXNet、Tensorflow、Chainer、PyTorch、Gluon、Keras、Horovod、Scikit-learn 和 Deep Graph Library 容器。此外,SageMaker 还支持通过符合成文规格的 Docker 映像提供的自定义训练算法。
大多数机器学习算法都提供了各种各样的参数,这些参数控制了底层算法的运算方式。这些参数通常被称为超参数,它们的值会影响经过训练的模型的质量。Automatic Model Tuning 是为能够生成最优模型的算法寻找超参数组合的过程。
只要在科学上可行,您就可以在 SageMaker 中基于任何算法运行自动模型调优,包括内置的 SageMaker 算法、深度神经网络算法或您通过 Docker 映像引入 SageMaker 的任意算法。

目前不提供。只有在 SageMaker 内部使用它,才能获得最佳的模型优化性能和体验。

目前,用于优化超参数的算法是对贝叶斯算法的自定义实现。其目的是在优化过程中优化客户指定的目标参数。具体来说,它检查已完成训练任务的目标参数,然后利用这一信息推断下一个训练任务的超参数组合。

不推荐。某些超参数对模型性能的影响取决于各种各样的因素,很难肯定地说一个超参数比其他超参数更重要,因此需要对它进行优化。对于 SageMaker 的内置算法,我们会提示每个超参数是否可进行优化。

超参数优化任务的用时长短取决于多种因素,包括数据的大小、底层算法和超参数的值。此外,客户可以选择同时执行的训练任务的数量和训练任务的总数量。所有这些选择都会影响超参数优化任务的用时。

目前不提供。目前,您需要指定一个目标参数来优化或更改您的算法代码,以生成一个新指标(该指标是两个或更多有用指标之间的加强平均值),并在优化过程中对该目标指标进行优化。

超参数优化任务本身不收费。您需要按照模型训练定价为超参数调优作业启动的训练作业付费。

SageMaker Autopilot 可以自动处理典型的机器学习工作流程中的所有工作,包括特征预处理、算法选择和超参数优化,同时特别关注分类和回归使用场景。而 Automatic Model Tuning 用于优化任何模型,无论其是基于内置算法、深度学习框架还是自定义容器。为了获得灵活性,您必须手动选择具体算法、要优化的超参数和相应的搜索范围。

强化学习是一项机器学习技术,可帮助代理运用从其自己的行为和经验中得到的反馈,通过反复试验在交互式环境中学习。

可以,除了监督学习和无监督学习训练模型之外,您还可以在 SageMaker 中训练强化学习模型。

虽然监督学习与强化学习均使用输入和输出之间的映射,但强化学习使用延迟反馈,它对奖励信号进行了优化,以确保通过一系列操作实现长期目标,而不像监督学习那样,提供给代理的反馈是一组用于执行任务的正确操作。

监督学习技术的目标是根据训练数据中的模式找到正确的答案,无监督学习技术的目标是发现数据点之间的相同之处和不同之处。相比之下,强化学习 (RL) 技术的目标是学习如何实现预期结果,即使不清楚如何实现该结果。因此,RL 更适合实现智能应用,其中代理可以自主决策,例如机器人、无人驾驶车辆、暖通空调和工业控制等等。

Amazon SageMaker RL 支持许多不同的环境来训练 RL 模型。您可以使用 AWS 服务(如 AWS RoboMaker)、开源环境或自定义环境(使用 Open AI Gym 接口开发),或者使用商业模拟环境(如 MATLAB 和 SimuLink)。

不需要,SageMaker RL 包含 RL 工具包(如 Coach 和 Ray RLLib),这些工具包提供 RL 代理算法的实现,如 DQN、PPO、A3C 等等。

能,您可以将您自己的 RL 库和算法实现引入 Docker 容器并在 SageMaker RL 中运行这些实现。

符合。您甚至可以选择一个异构集群,其中训练可以在 GPU 实例上运行,而模拟可以在多个 CPU 实例上运行。

部署模型

在您构建和训练模型以后,SageMaker 提供三种选项来部署它们,让您可以开始进行预测。实时推理适用于有毫秒级延迟要求的工作负载,它的负载最大为 6MB,处理时间最长为 60 秒。批量转换适用于对预付费用的大批量数据的离线预测。异步推理专门为没有亚秒级延迟要求,负载最大为 1GB,处理时间最长为 15 分钟的工作负载而设计。
SageMaker 异步推理可异步对传入请求进行排列与处理。此选项适用于需要在到达时进行处理的负载大小较大和/或处理时间较长的请求。您还可以选择配置自动扩展设置,以便在未积极处理请求时缩减实例数量到零,从而节省成本。

您可以缩减 SageMaker 异步推理端点实例数量到零,以便在您未积极处理请求时节省成本。您需要定义根据“ApproximateBacklogPerInstance”自定义指标进行扩展的扩展策略,并且将“MinCapacity”值设置为零。如需了解分步说明,请访问开发人员指南的自动扩展异步端点部分。 

SageMaker 无服务器推理功能是一个专门构建的无服务器模型服务选项,可让您轻松部署和扩展 ML 模型。SageMaker 无服务器推理端点会自动启动计算资源并根据流量扩大和缩小它们,让您无需选择实例类型、运行预置容量或管理扩展。您可以选择为无服务器推理端点指定内存要求。您只需为运行推理代码的持续时间和处理的数据量付费,而无需为空闲时间付费。

SageMaker 无服务器推理功能无需预先配置容量和管理扩展策略,从而简化了开发人员的体验。SageMaker 无服务器推理功能可以根据使用模式在几秒钟内立即从数十个推理扩展到数千个推理,使其成为具有间歇性或不可预测流量的 ML 应用程序的理想选择。例如,一家工资单处理公司使用的 Chatbot 服务在月底会遇到查询增加的情况,而在该月的其余时间,流量是间歇性的。在这种情况下,为整个月调配实例的成本效益不高,因为您最终要为闲置期付费。SageMaker 无服务器推理通过为您提供开箱即用的自动和快速扩展,而无需您预先预测流量或管理扩展策略,从而帮助解决这些类型的用例。此外,您只需为运行推理代码的计算时间(以毫秒计费)和数据处理支付费用,因此对于具有间歇流量的工作负载,这是一个经济有效的选择。
预置并发可让您在无服务器端点上部署模型,这些模型具有可预测的性能,并且通过让端点为指定数量的并发请求保持预热来实现高可扩展性。

使用按需无服务器端点,如果您的端点有一段时间没有收到流量,然后突然收到新的请求,则您的端点可能需要一些时间才能启动计算资源来处理请求。这称为冷启动。如果您的并发请求超过当前的并发请求使用量,也可能发生冷启动。冷启动时间取决于您的模型大小、下载模型所需的时间以及容器的启动时间。

为了减少不断变化的延迟,您可以选择为无服务器端点启用预置并发。使用预置并发功能,您的无服务器端点随时准备就绪,可以即时应对突发流量,并且不会出现冷启动。

与按需无服务器推理一样,启用预置并发后,您需要为用于处理推理请求的计算容量(按毫秒计费)和处理的数据量付费。还可以根据配置的内存、预置的持续时间和启用的并发量为预置并发使用量付费。有关更多信息,请参阅 Amazon SageMaker 定价。

SageMaker 通过针对当前部署的模型测试其性能,帮助您运行影子测试以在生产发布之前评估新的 ML 模型。SageMaker 以影子模式以及当前生产模型一起部署新模型,并将生产流量的用户指定部分镜像到新模型。它可以选择记录模型推理以供离线比较。它还提供了一个实时控制面板,其中对生产模型和影子模型之间的关键性能指标(例如延迟和错误率)进行比较,以帮助您决定是否将新模型推广到生产中。
SageMaker 简化了设置和监控影子变体的过程,因此您可以评估新 ML 模型在实时生产流量上的性能。SageMaker 让您无需为影子测试编排基础设施。它允许您控制测试参数,例如镜像到影子变体的流量百分比和测试持续时间。因此,您可以从小处着手,在对模型性能有信心后增加对新模型的推理请求。SageMaker 会创建一个实时控制面板,其中显示关键指标之间的性能差异,让您可以轻松比较模型性能以评估新模型与生产模型的差异。

SageMaker Inference Recommender 通过跨 SageMaker ML 实例自动执行性能基准测试和优化模型性能,减少了将 ML 模型投入生产所需的时间。您现在可以使用 SageMaker Inference Recommender 将您的模型部署到提供最佳性能和最小成本的端点。您可以在几分钟内开始使用 SageMaker Inference Recommender,同时选择实例类型并在数小时内获得最佳端点配置的建议,从而消除数周的手动测试和调整时间。使用 SageMaker Inference Recommender,您只需为负载测试期间使用的 SageMaker ML 实例付费,无需额外费用。

如果您需要有关正确端点配置的建议以提高性能并降低成本,则应使用 SageMaker Inference Recommender。以前,想要部署模型的数据科学家必须运行手动基准测试来选择正确的端点配置。他们必须首先根据模型的资源需求和样本有效负载,从 70 多种可用实例类型中选择正确的 ML 实例类型,然后优化模型以适应不同的硬件。接下来,他们必须进行广泛的负载测试,以验证是否满足延迟和吞吐量要求并且成本很低。SageMaker Inference Recommender 消除了这种复杂性,让您可以轻松地:1)通过实例推荐在几分钟内开始使用;2)跨实例类型进行负载测试,以在数小时内获得有关您的端点配置的建议;3)自动调整容器和模型服务器参数,并为给定的实例类型执行模型优化。
数据科学家可以从 SageMaker Studio、AWS SDK for Python (Boto3) 或 AWS CLI 访问 SageMaker Inference Recommender。他们可以在 SageMaker Studio 中的 SageMaker 模型注册表中为已注册模型版本获取部署建议。数据科学家可以通过 SageMaker Studio、AWS 开发工具包或 AWS CLI 搜索和筛选建议。

否,我们目前仅支持每个端点一个模型。

目前我们只支持实时终端节点。

我们支持 Amazon SageMaker 支持的所有区域,AWS 中国区域除外。

是的,我们支持所有类型的容器。Amazon EC2 Inf1 基于 AWS Inferentia 芯片,需要使用 Neuron 编译器或 Amazon SageMaker Neo 编译的模型构件。一旦您拥有 Inferentia 目标的编译模型和关联的容器映像 URI,您就可以使用 SageMaker Inference Recommender 对不同的 Inferentia 实例类型进行基准测试。

开发人员能够使用 SageMaker Model Monitor 来检测和修复概念偏差。SageMaker Model Monitor 会自动检测已部署模型中的概念偏差,并提供详细的警报,帮助确定问题的根源。通过 SageMaker 训练的所有模型都会自动发送关键指标,这些指标可以在 SageMaker Studio 中收集和查看。从 SageMaker Studio 内部,您可以配置要收集的数据、查看方式以及提示的接收时间。

否。SageMaker 会代您运行计算基础设施,从而执行运行状况检查、应用安全补丁和执行其他例行维护。您也可以通过在自己托管的环境中训练自定义推理代码来部署模型项目。

SageMaker 托管使用 Application Auto Scaling 自动扩展到您的应用程序所需的性能。此外,您可以通过修改端点配置,在不停机的情况下手动更改实例的数量和类型。

SageMaker 将性能指标发到 Amazon CloudWatch Metrics,这样您可以跟踪指标、设置警报,并自动响应生产流量变化。此外,SageMaker 还会将日志写入 Amazon CloudWatch Logs,让您能够监控生产环境并对其进行故障排除。

SageMaker 可托管符合推理 Docker 映像的记录规格的任何模型,其中包括利用 SageMaker 模型构件和推理代码创建的模型。

SageMaker 旨在将每秒完成的事务量扩展到一个更大值。精确的数量因部署的模型以及部署模型的目标实例的数量和类型而有所不同。

作为一项完全托管的服务,Amazon SageMaker 负责设置和管理实例、软件版本兼容性和补丁版本。它还为端点提供内置指标和日志,您可以使用这些指标和日志来监控和接收警报。借助 SageMaker 工具和引导式工作流程,整个 ML 模型打包和部署过程得到简化,可以轻松优化端点以实现所需的性能并节省成本。您只需在 SageMaker Studio 中单击几下或使用新的 PySDK,即可轻松部署 ML 模型,包括基础模型。

通过批量转换,您可以针对大批量或小批量数据运行预测。无需将数据集拆分为多个区块,也无需管理实时终端节点。使用一个简单的 API,您可以轻松快速地请求对大量数据记录进行预测并转换数据。

SageMaker 支持以下端点选项:单模型终端节点 — 托管在专用实例或无服务器实例上的容器上的一种模型,旨在实现低延迟和高吞吐量。多模型终端节点 — 使用共享基础架构托管多个模型,以提高成本效益并最大限度地提高利用率。您可以控制每个模型可以使用多少计算量和内存,以确保每个模型都能获得高效运行所需的资源。串行推理管道 — 多个容器共享专用实例并按顺序执行。您可以使用推理管道来组合预处理、预测和后处理数据科学任务。
您可以使用扩展策略自动扩展底层计算资源,以适应推理请求的波动。您可以单独控制每个机器学习模型的扩展策略,以轻松处理模型使用情况的变化,同时还可以优化基础架构成本。

通过 SageMaker Edge Manager,您可以更轻松地优化、保护、监控和维护智能相机、机器人、个人计算机和移动设备等边缘设备队列上的机器学习模型。SageMaker Edge Manager 帮助 ML 开发人员在各种边缘设备上大规模操作 ML 模型。

要开始使用 SageMaker Edge Manager,您需要在云中编译并打包经训练的 ML 模型、注册设备、并使用 SageMaker Edge Manager SDK 准备设备。为准备模型以进行部署,SageMaker Edge Manager 使用 SageMaker Neo 为目标边缘硬件编译模型。编译模型后,SageMaker Edge Manager 用 AWS 生成的密钥对模型进行签名,然后将模型及其运行时和必要凭证打包在一起,以使其准备好进行部署。在设备端,您可以使用 SageMaker Edge Manager 注册设备,下载 SageMaker Edge Manager 开发工具包,然后按照说明在设备上安装 SageMaker Edge Manager 代理。教程笔记本提供了有关如何准备模型以及如何使用 SageMaker Edge Manager 在边缘设备上连接模型的分步示例。

SageMaker Edge Manager 支持采用 Linux 和 Windows 操作系统、基于 CPU(ARM,x86)和 GPU(ARM,Nvidia)的设备。随着时间的推移,SageMaker Edge Manager 将扩展以支持更多 SageMaker Neo 也支持的嵌入式处理器和移动平台。

不需要。您可以在其他地方训练模型,也可以使用源自开源代码或模型供应商的预训练模型。

是的,需要。SageMaker Neo 将您的模型转换并编译为可执行文件,然后将其打包并部署到您的边缘设备上。部署模型包后,SageMaker Edge Manager 代理将解压缩模型包并在设备上运行模型。

SageMaker Edge Manager 将模型包存储在指定的 Amazon S3 存储桶中。您可以使用 AWS IoT Greengrass 提供的空中下载(OTA)部署功能,也可以使用您选择的任何其他部署机制将模型包从 S3 存储桶部署到设备。

Neo dlr 是一个开源运行时系统,仅运行由 SageMaker Neo 服务编译的模型。与开源 dlr 相比,SageMaker Edge Manager 开发工具包包含一个具有附加安全性、模型管理和模型服务功能的企业级设备内置代理。SageMaker Edge Manager SDK 适用于大规模生产部署。

SageMaker Edge Manager 可在六个区域中提供:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、欧洲(爱尔兰)、欧洲(法兰克福)和亚太地区(东京)。有关详细信息,请访问 AWS 区域性服务列表

SageMaker Neo 让机器学习模型训练一次即可在云和边缘站点中的任何位置运行。SageMaker Neo 可以自动优化使用常用的深度学习框架构建的模型,这些框架可用于在多个硬件平台上部署。优化的模型运行速度最多可提高 25 倍,并且所消耗的资源不到典型机器学习模型的十分之一。

要开始使用 SageMaker Neo,请登录 SageMaker 控制台,选择经过训练的模型,根据示例编译模型,然后将生成的模型部署到目标硬件平台上。

SageMaker Neo 包含两个主要组件:编译器和运行时系统。首先,SageMaker Neo 编译器会读取由不同框架导出的模型。然后,它将框架特定的功能和操作转换为与框架无关的中间表示形式。接着,它会执行一系列优化。最后,编译器会为优化的操作生成二进制代码,并将其写入一个共享对象库。此外,编译器还会将模型定义和参数保存到各个文件中。在执行期间,SageMaker Neo 运行时系统会加载编译器生成的构件(模型定义、参数和共享对象库)以运行模型。

不需要。您可以在其他位置训练模型,然后使用 SageMaker Neo 为 SageMaker ML 实例或 AWS IoT Greengrass 支持的设备优化这些模型。

目前,SageMaker Neo 支持最常用的深度学习模型(此类模型支持计算机视觉应用程序),以及当今 SageMaker 中最常用的决策树模型。SageMaker Neo 可以优化 MXNet 和 TensorFlow 中训练的 AlexNet、ResNet、VGG、Inception、MobileNet、SqueezeNet 和 DenseNet 模型的性能,以及 XGBoost 中训练的分类和随机砍伐森林(Random Cut Forest)模型的性能。

您可以在 SageMaker Neo 文档中找到受支持的云实例边缘设备和框架版本的列表。

要查看受支持区域的列表,请参阅 AWS 区域性服务列表

Amazon SageMaker Savings Plans

SageMaker 实惠配套是一种面向 Amazon SageMaker 的基于用量的灵活定价模式,您需要在一年或三年的期限内达到稳定的承诺用量(以 USD/小时为单位衡量)。SageMaker 实惠配套的灵活性最高,最高可帮助您节省 64% 的费用。这些计划会自动应用于符合条件的 SageMaker ML 实例用量,包括 SageMaker Studio Notebooks、SageMaker 按需笔记本、SageMaker 处理、SageMaker Data Wrangler、SageMaker 训练、SageMaker 实时推理和 SageMaker 批量转换,无论实例系列、大小或区域如何。例如,您可以随时将在美国东部(俄亥俄州)运行的 CPU 实例 ml.c5.xlarge 用量更改为在美国西部(俄勒冈州)运行的 ml.Inf1 实例用量以用于推理工作负载,并自动继续支付实惠配套价格。
如果您具有稳定的 SageMaker 实例用量(以 USD/小时为单位衡量)并且使用多个 SageMaker 组件,或者期望您的技术配置(例如实例系列、区域)随时间推移而变化,SageMaker 实惠配套会帮助您更加轻松地实现最大程度的费用节省,与此同时,它还会根据应用程序需求或新创新来灵活更改基础技术配置。实惠配套费率会自动应用于所有符合条件的 ML 实例,无需进行手动修改。
您可以从 AWS 管理控制台中的 AWS Cost Explorer 成本管理服务或者通过 API/CLI 开始使用实惠配套。您可以按照 AWS Cost Explorer 中提供的建议,轻松承诺使用某个 Savings Plans 并实现最大的成本节省。建议的小时承付额基于您的历史按需使用量以及您选择的计划类型、期限长度和付款选项。注册 Savings Plans 后,您的计算用量将自动按 Savings Plan 折扣价格计费,超过承付额的任何用量都将按正常按需价格计费。
SageMaker 实惠配套和 Amazon EC2 实惠配套的不同之处在于它们所提供的服务不同。SageMaker 实惠配套仅适用于 SageMaker ML 实例用量。

可通过 AWS Organizations/整合账单系列中的任何账户购买 Savings Plans。默认情况下,Savings Plans 提供的优惠适用于 AWS Organization/整合账单系列中的所有账户的用量。不过,您也可以选择将 Savings Plans 的权益限定到仅购买过 Savings Plans 的账户。