概览
Amazon SageMaker Canvas 是一项无代码机器学习服务,企业无需编写任何代码,即可通过可视化界面构建、训练和部署高度准确的机器学习模型。SageMaker Canvas 为计算机视觉和自然语言处理场景提供了即用型基础模型和预训练模型。此外,您可以从 50 多个数据来源导入数据,使用内置转换或自然语言准备数据,构建自定义模型并完成机器学习生命周期。
SageMaker Canvas 采用即用即付定价模式,费用由以下五个关键因素决定:1) 您的 SageMaker Canvas 工作区实例的运行时长,2) 数据处理,3) 自定义模型训练,4) 模型预测,以及 5) 即用型模型的使用量。这种灵活的定价模式能让客户仅为所使用的资源付费。此外,通过将 SageMaker Canvas 工作区实例设置为在不使用时自动关闭,可以进一步优化成本。
SageMaker Canvas 定价结构
1.工作区实例(会话小时数)
工作区实例是您在登录 SageMaker Canvas 后的专用实例。根据 SageMaker Canvas 的使用或登录小时数付费。从您启动 SageMaker Canvas 应用程序时开始计时,在您从 SageMaker Canvas 界面注销或管理员从 AWS 管理控制台结束 SageMaker Canvas 应用程序时结束。注销 SageMaker Canvas 后,将停止收取 Workspace 实例费用。
工作区实例(会话小时数)费用
1.9 USD/小时
2.数据处理费用
SageMaker Canvas 支持处理表格、时间序列、结构化文本和图像数据,并且可在工作区实例中免费处理高达 5GB 的数据。对于超过 5GB 的数据集,SageMaker Canvas 中的 Data Wrangler 功能利用 Amazon EMR Serverless,这是一种自动扩展技术,可高效地为表格、时间序列和结构化文本数据准备数据。当处理大于 5GB 的数据集或明确选择使用 EMR Serverless 时,您需要根据 EMR Serverless 工作程序从工作程序运行开始到结束所消耗的 vCPU、内存和存储资源总量付费。费用通过四舍五入到最接近的秒来计算,最低收费时间为 1 分钟。定价因地区和实例类型而异,如需了解更多详细信息,请参阅 Amazon EMR Serverless 定价页面。或者,您可以选择使用 SageMaker Processing,对任何数据大小运行数据处理作业,您可以查阅 SageMaker 定价页面,了解基于机器学习(ML)计算实例、处理的数据和使用的存储的适用费率。使用 EMR Serverless 或 SageMaker Processing 在整个数据集中运行 Data Wrangler 流程时的确切处理费用将取决于您的数据大小和您选择的转换类型,这些因素会严重影响计算要求。下表根据使用 EMR Serverless 导入和采样数据集所需的大致时间提供了估算费用。根据数据集的确切大小和应用的转换类型,导出数据的实际时间和费用会有所不同。
要导入和采样的数据大小(随机或分层) | 估算费用 |
<5GB | 0 USD |
5 - 100 GB | 0.09 USD -1.5 USD |
100 - 500 GB | 2 USD - 3.8 USD |
500GB - 1TB | 4 USD - 12 USD |
3.自定义模型训练费用
SageMaker Canvas 支持为各种任务自动建模(AutoML),包括表格数据(回归和分类)、时间序列预测、图像和文本分类(计算机视觉和自然语言处理)以及微调大型语言模型。它会验证准备好的数据,在需要时利用 Amazon EMR Serverless 进行高效的数据准备,触发 SageMaker Autopilot 进行自定义模型探索和训练,并生成模型排行榜以可视化结果、模型分数、特征重要性和见解。
3.1 表格和时间序列模型
SageMaker Canvas 支持表格模型的各种机器学习任务,包括数值预测(回归)、二进制分类、多类分类和时间序列预测。
对于不超过 5GB 的表格数据集和不超过 30GB 的时间序列数据集,Canvas 利用 SageMaker Training 实例。您需要根据 Amazon SageMaker 中模型训练所用的实例小时数付费。Canvas 会根据数据集大小、性能和可用性自动选择适当的实例类型,例如 ml.m5.12xlarge、ml.c5.18xlarge 和 ml.m5.4xlarge。有关更多信息,请参阅 SageMaker 实例定价页面。
对于超过 5GB 的表格数据集和超过 30GB 的时间序列数据集,SageMaker Canvas 利用 Amazon EMR Serverless 高效地对数据进行降采样和准备。随后,它将利用 SageMaker 实例进行模型训练。您将根据数据处理步骤的 EMR Serverless 定价模型(在 2.数据处理费用中提到)和模型训练阶段的 Amazon SageMaker 实例定价支付费用。
下表根据数据集大小以及使用的 SageMaker 和 EMR Serverless 实例小时数估算了标准构建的训练成本。请注意,这些数字是近似值,实际时间和费用可能会有所不同。
数据大小 | EMR Serverless 估算费用 | SageMaker Training 实例估算费用 | 估算费用总额 |
<100MB | 0 | 2.3 USD - 9.2 USD | 2.3 USD - 9.2 USD |
100MB - 1GB | 0 | 9.2 USD - 13.8 USD | 9.2 USD - 13.8 USD |
1 - 5 GB | 0 | 13.8 USD - 18.8 USD | 13.8 USD - 18.8 USD |
5 - 100 GB | 221 USD - 276 USD | 18.8 USD - 27.5 USD | 240 USD - 303.5 USD |
100 - 500 GB | 276 USD - 387 USD | 18.8 USD - 27.5 USD | 295 USD - 415 USD |
500GB - 1TB | 387 USD - 497 USD | 18.8 USD - 27.5 USD | 406 USD - 525 USD |
3.2 CV 和 NLP 模型
SageMaker Canvas 支持自定义 NLP 和 CV 模型的 2 分类和 3+ 分类预测(二进制和多类文本分类和图像分类)。自定义 NLP 和 CV 模型的训练费用取决于训练模型所需的时间。SageMaker 训练实例用于渲染模型训练服务,将直接通过 SageMaker 向您收费。根据 SageMaker Canvas 中使用的实例,训练价格将在每小时训练 2.03 USD 至 4.89 USD 之间。有关更多定价信息,请参阅 SageMaker 定价。
下表提供了基于 640 x 480 像素的图像分辨率估算的自定义 CV 模型训练费用。估算使用 ml.g4dn.12xlarge 的 SageMaker 实例价格为 4.89 USD/小时。
图像数量 | 估算费用 |
100 | 1.62 USD |
250 | 1.63 USD |
500 | 1.65 USD |
1000 | 1.68 USD |
5000 | 1.97 USD |
10000 | 2.33 USD |
50000 | 5.19 USD |
下表根据每个单元格平均 240 个 unicode 字符提供估算的自定义 NLP 模型训练费用。估算使用 ml.g4dn.12xlarge 的 SageMaker 实例价格为 4.89 USD/小时。
单元格数 | 估算费用 |
100 | 3.01 USD |
500 | 3.11 USD |
1000 | 3.24 USD |
5000 | 4.22 USD |
10000 | 9.98 USD |
50000 | 15.25 USD |
注意:训练时间和费用可能会因多种因素而异,包括简历的图像分辨率、NLP 每个序列的字符数以及类别数量。
3.3 微调基础模型
如果您有特定使用案例,并希望根据自己的数据自定义模型响应,SageMaker Canvas 支持对基础模型(FM)进行微调。Canvas 利用 SageMaker 训练实例来微调 FM。您需要根据 Amazon SageMaker 中模型微调所用的实例小时数付费。Canvas 会自动选择适当的实例类型,例如 ml.g5.8xlarge、ml.g5.24xlarge 和 ml.g5.48xlarge。此实例选择基于实例在这些区域的可用性。有关更多信息,请参阅 Amazon SageMaker 实例定价页面。
4.模型预测费用
在 SageMaker Canvas 中,您可以执行实时或批量推理,以部署和使用训练模型进行预测。模型预测的费用因推理类型和数据集大小而异。
实时推理:
部署 Canvas 模型进行实时推理时,需要为托管该模型的特定 Amazon SageMaker 实例类型的使用量付费。实时推理的定价基于 Amazon SageMaker 托管:实时推理的定价,具体取决于实例类型和使用时长。
批量推理:
对于批量预测,费用取决于模型类型和数据集大小。有关跨数据类型批量转换定价的更多详细信息,请参见下文:
4.1 表格模型
对于不超过 5GB 的数据集,使用数字预测、二进制分类和多类分类自定义表格模型进行批量预测,该预测在 SageMaker Canvas 应用程序中运行,无需额外付费。
如果您的表格数据集大于 5GB,批量预测过程将利用 Amazon EMR Serverless 进行数据处理,并使用 Amazon SageMaker 批量转换生成预测。在这种情况下,您将根据数据处理步骤的 EMR Serverless 定价模型和预测生成的 SageMaker 批量转换定价支付费用。
数据大小 | EMR Serverless 估算费用 | 估算 SageMaker 批量转换实例费用 | 估算费用总额 |
0 - 5GB | 0 | 0 | 0 USD |
5 - 100 GB | 13.9 USD - 42.3 USD | 14 USD - 34 USD | 27.9 USD - 76.3 USD |
100 - 500 GB | 42.3 USD - 90.3 USD | 34 USD - 91 USD | 76.3 USD - 181.3 USD |
500GB - 1TB | 90.3 USD - 181 USD | 91 USD - 182 USD | 181.3 USD - 363 USD |
4.2 时间序列预测模型
使用时间序列预测模型,您可以并且需要生成单一预测或批量预测。对于时间序列预测,使用 Amazon SageMaker 异步推理、Amazon SageMaker 批量转换或同时使用两者均需付费。
对于单一预测,将收取 SageMaker 异步推理费用,2 小时起计。根据您所在区域的不同,费用可能从每小时 0.408 美元到 0.533 美元不等。闲置两个小时后,会自动停止收费。
对于批量预测,SageMaker 批量转换费用取决于生成预测所需的时间。下表根据在您的数据中观察到的时间序列数量来估算费用。
数据大小 | EMR Serverless 估算费用 | 估算 SageMaker 批量转换实例费用 | 估算费用总额 |
0 - 5GB | 0.5 USD - 0.8 USD | 0.75 USD - 1.13 USD | 1.25 USD - 2.03 USD |
5 - 100 GB | 0.8 USD - 18 USD | 1.13 USD - 27 USD | 2.03 USD - 45 USD |
100 - 500 GB | 18 USD - 81 USD | 27 USD - 137 USD | 45 USD - 218 USD |
500GB - 1TB | 81 USD - 160 USD | 137 USD - 261 USD | 218 USD - 421 USD |
有关 SageMaker 定价的详细信息,请参阅 SageMaker 定价。
4.3 CV 和 NLP 模型
自定义 CV 和 NLP 模型的预测费用基于生成预测所需的时间。SageMaker 实例用于渲染模型预测,其定价为每小时预测生成 0.408 USD,将直接通过 SageMaker 向您收费。有关更多定价信息,请参阅 SageMaker 定价。
例如,为 1000 张分辨率为 640 x 480 的图像生成预测的估计费用为 0.03 USD。同样,按照每个序列 520 个 unicode 字符为 1000 个序列生成预测的费用估计为 0.01 USD。
5.即用型模型费用
SageMaker Canvas 提供对 Amazon Bedrock 和 Amazon SageMaker JumpStart 的各种基础模型以及 Amazon Rekognition、Amazon Comprehend 和 Amazon Textract 的预训练模型的访问,适用于 CV 和 NLP 使用案例。
对于使用 Amazon Bedrock 的基础模型(FM)进行的内容生成、提取和摘要,将根据输入和输出令牌的数量收费。有关更多信息,请参阅 Amazon Bedrock 定价。SageMaker JumpStart FM 部署在 SageMaker 实例上,将根据所选实例类型的运行时间收费。有关更多信息,请参阅 Amazon SageMaker 托管:实时推理定价。
使用 Amazon Rekognition 对图像进行对象检测和文本检测的请求将根据数据集中的图像数量收费。有关具体定价详情,请参阅 Amazon Rekognition 定价页面。
使用 Amazon Comprehend 进行情绪分析、实体提取、语言检测和个人信息检测的请求以 100 个字符为单位,将根据数据集中的单位数量收费。有关更多定价信息,请参阅 Amazon Comprehend 定价页面。
使用 Amazon Textract 进行费用分析、文档分析和身份证件分析的请求以 1000 页为单位,将根据数据集中的单位数量收费。有关详细定价信息,请参阅 Amazon Textract 定价页面。
Canvas 免费套餐
Amazon SageMaker Canvas 免费套餐为期两个月。免费套餐包括每月最多 160 小时的工作区实例(会话小时)使用量,用于使用 SageMaker Canvas 应用程序。
Amazon Rekognition、Amazon Comprehend、Amazon Textract 和 Bedrock 提供即用型 NLP、CV 和基础模型。每项服务提供不同的免费套餐期限和覆盖范围。要了解更多信息,请参阅相应的 AWS 服务价格页面:Amazon Rekognition、Amazon Comprehend、Amazon Textract 和 Amazon Bedrock。
定价示例
示例 1:
假设您有一个由 4 名分析师组成的团队,他们想要试用 SageMaker Canvas。假设其中一名分析师使用 50MB 输入数据集构建了一个数值预测模型来预测包裹能否准时送达。SageMaker Canvas 使用 2.9 个实例小时的 ml.m5.12xlarge 类型来训练模型。在此过程中,团队的每位用户每周登录 SageMaker Canvas 10 小时。这些时间花在探索数据、准备数据集和生成预测上,转化为每位用户每个月 40 小时,或者 160 小时的总使用时间。月末账单计算如下:
免费套餐下 160 小时/月以内的工作区实例(会话小时数)费用:0.00 USD
模型训练费用:2.765 USD/小时 x 2.9 = 7.69 USD(50MB 输入数据集)
总计:7.69 USD
示例 2:
假设在您使用免费套餐后,您的团队继续使用 SageMaker Canvas。您使用 150MB 的输入数据集来构建数值预测模型。SageMaker Canvas 使用 10 小时 ml.c5.18xlarge 类型的实例来训练模型。在整个过程中,团队登录到 SageMaker Canvas 中,并且一个月花费 40 小时在 SageMaker Canvas 中探索数据、联接数据集和运行预测。月末账单计算如下:
工作区实例(会话小时数)费用:1.9 USD x 40 = 76 USD
模型训练费用:3.672 USD/小时 x 11 = 36.72 USD
总计:112.72 USD
示例 3:
假设您在使用免费套餐后构建了一个自定义 CV 分类模型来检测图像中的制造缺陷,并使用包含 1000 张图像的训练数据集。您的训练时间约为 21 分钟,价格点为每小时 4.89 USD。在此过程中,您在 SageMaker Canvas 中花费了 4 个小时来标记训练数据集中的图像、查看可解释性热图和了解模型精度。然后,您以每小时 0.408 USD 的价格运行大约需要 12 分钟的预测。费用将按以下方式计算:
工作区实例(会话小时数)费用:1.9 USD * 4 = 7.60 USD
模型训练费用:4.89 USD/小时 x 21 分钟 x 1/60 = 1.68 USD
预测:0.408 USD/小时 x 12 分钟 x 1/60 = 0.08 USD
总计:9.36 USD
示例 4:
假设您在使用免费套餐后构建了一个自定义 NLP 模型来了解用户在评论中的情绪,您使用包含 6700 条评论的训练数据集,平均每条评论有 120 个字符,然后使用您的模型对 1000 条评论生成预测。您的训练时间约为 31 分钟,价格点为每小时 3.825 USD,生成预测的时间为 4.1 分钟,价格点为每小时 0.408 USD。在此过程中,您在 SageMaker Canvas 中花费 2 个小时来标记训练数据集中的评论并查看预测结果。费用将按以下方式计算:
工作区实例(会话小时数)费用:1.9 USD * 2 = 3.80 USD
模型训练费用:3.825 USD/小时 x 31 分钟 x 1/60 = 1.98 USD
预测:0.408 USD/小时 x 4.1 分钟 x 1/60 = 0.03 USD
总计:5.81 USD
示例 5:
假设您在使用免费套餐后,希望从 50 个份身份证件中提取信息。在此过程中,您在 SageMaker Canvas 中花费了 1.5 个小时来导入文档和查看结果。费用将按以下方式计算:
工作区实例(会话小时数)费用:1.9 USD * 1.5 = 2.85 USD
即用型模型费用(根据 Amazon Textract 的定价):美国西部(俄勒冈州)区域前 100000 页的每页定价 0.025 USD。费用为 0.025 USD x 50 = 1.25 USD
总计:4.10 USD
示例 6:
假设您在使用免费套餐后,构建了一个自定义的时间序列预测模型来预测产品需求。您拥有一家服装公司,在全球 50 家商店销售 1000 件商品,并且正在预测未来 12 周的产品需求。您使用了 200MB 的数据集,其中包括过去一年的每周销售额以及两个附加属性(价格和营销支出)的信息。SageMaker Canvas 使用 3 小时 ml.m5.12xlarge 类型的 SageMaker 训练实例来训练模型。模型构建完成后,您将花费 30 分钟对单个预测执行“假设”分析,该分析在 ml.c5.2xlarge 实例上使用 SageMaker 异步推理,SageMaker Canvas 在该实例闲置两小时后自动将其停止。随后,您生成 12 周预测期的批量预测,这需要在 ml.m5.12xlarge 实例上进行 3 小时的 SageMaker 批量转换。在整个过程中,团队登录到 SageMaker Canvas 中,并且一个月花费 10 小时用于探索数据、联接数据集和运行预测。月末账单计算如下:
工作区实例(会话小时数)费用:1.90 USD x 10 = 19 USD
模型训练费用:2.765 USD/小时 x 3 小时 = 8.30 USD
单一预测:0.408 USD x(使用时间 30 分钟 + 闲置时间 2 小时)= 1.02 USD
批量预测:2.765 USD/小时 x 3 小时 = 8.30 USD
总计 = 36.62 USD
示例 7
假设您使用免费套餐后,想要使用一个 500GB 的大型数据集来构建自定义表格分类模型,以预测客户流失。该数据集包括客户人口统计、使用模式和订阅详细信息,并且您想先使用 Data Wrangler 准备数据。在使用随机或分层采样将数据集导入 Data Wrangler 期间,SageMaker Canvas 利用 Amazon EMR Serverless 导入和降采样大型数据集,以帮助您以交互方式构建数据流。导入样本后,您可以可视化和理解数据,并在数据流中添加一些转换步骤。准备好触发模型构建(使用 AutoML)后,您可以单击“创建模型”。在从 Data Wrangler 导出到 SageMaker Canvas 模型构建阶段时,您的数据流将在整个数据集上运行,以使用 EMR Serverless 应用您在流中添加的转换。数据转换和数据大小将决定 EMR Serveless 的运行时间以及分配的计算量。然后,它会将整个处理过的数据集存储在 SageMaker Canvas 数据集中。它还将在“草稿”状态下创建您指定的模型名称,然后您可以配置该名称并触发构建(快速或标准)。此过程将对您的数据集进行降采样,并根据 EMR Serverless 中 SageMaker Autopilot 的要求运行其他数据准备步骤。降采样和其他数据准备完成后,模型探索将开始。此过程使用 SageMaker 实例,并将根据用于模型训练的实例小时数收费。确切的实例小时数取决于数据集中的列数和列类型。构建模型后,您可以评估模型指标、比较模型并在测试数据集上生成批量预测(假设用于测试的数据集的 10% 为 50GB)。批量预测过程将使用 EMR Serverless 将数据分成较小的批次,然后使用 SageMaker Batch Transform 生成预测。最后,对于整个端到端模型构建过程,您的团队可能将在 SageMaker Canvas 中总共花费 20 个小时,探索数据、查看模型排行榜以及分析特征重要性和模型可解释性。月末账单的计算方式如下,但请注意,实际费用可能因您在 Data Wrangler 流程中添加的转换、数据集特征(大小、列数、列类型等)而异:
工作区实例(会话小时数)费用:1.90 USD x 20 = 38 USD
数据导入和采样费用:(EMR Serverless)= 3.8 USD
数据处理费用(EMR Serverless):时间和成本取决于您选择的转换
模型训练费用(EMR Serverless 用于降采样,SageMaker 实例用于训练):406 USD
批量预测费用(EMR Serverless 用于分块,SageMaker 实例用于预测):38 USD
总计:485.8 USD(不考虑数据处理费用,这取决于所选的转换)