Amazon Comprehend 提供自然语言处理、个人身份信息 (PII) 检测和修订、自定义分类和实体检测以及主题建模,以支持可分析原始文本的广泛应用程序,并且还使用一些 API 提供 PDF 和 Word 之类的文档格式。

  • 自然语言处理:适用于实体识别、情绪分析、语法分析、关键短语提取和语言检测的 Amazon Comprehend API 可用于从自然语言文本中提取见解。这些请求以 100 个字符为单位(1 个单位 = 100 个字符)进行计算,每个请求最低按 3 个单位(300 个字符)收费。
  • 个人身份信息 (PII):检测 PII API 可以查找文档中选定的个人识别信息(以下简称 “PII”)实体的位置,并可用于创建修订版文档。包含 PII API 会告知您文档是否包含选定的 PII。这些请求也以 100 个字符为单位(1 个单位 = 100 个字符)进行计算,每个请求最低按 3 个单位(300 个字符)收费。
  • 自定义 Comprehend:自定义分类和实体 API 可以训练自定义 NLP 模型以对文本进行分类并提取自定义实体。异步推理请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。您需要为模型训练支付费用,每小时 3 USD(按秒计费),并需要为自定义模型管理支付费用,每月 0.50 USD。对于同步自定义分类和实体推理请求,您要预置一个具有适当吞吐量的终端节点。从您启动您的终端节点到它被删除,您需要支付此段时间的费用。
  • 主题建模:主题建模可从存储在 Amazon S3 的文档集合中识别相关术语或主题。它会识别集合中最常见的主题,并按组整理,然后将文档映射到相应主题。您需要基于每个作业处理的文档总大小支付费用。前 100 MB 按统一费率收费。超过 100MB,按 MB 收费。
  • 信任与安全(新增):Comprehend 毒性检测 API 可用于检测文本中的有毒内容。同样,Comprehend 提示安全分类功能可用于检测大型语言模型和应用程序的不安全输入提示。这些请求以 100 个字符为单位(1 个单位 = 100 个字符)进行计算,每个请求最低按 3 个单位(300 个字符)收费。
  • 此处了解有关 Amazon Comprehend Medical 定价的更多信息。
  • 您可以使用 AWS 定价计算器估算成本。
  • 在下面的区域选择器中选择美国东部(弗吉尼亚州北部)区域,查看所有 API 的定价

 

对于每月超过 1 亿单位的量,请联系我们以了解定价。
NLP 请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。

使用 Amazon Comprehend API,您可以同时处理非结构化、原始文本,使用一些 API,您可以处理 PDF 和 Word 文档之类的其他文本文件。 

自定义 Comprehend

自定义实体和分类
对于 PDF*、Word 和纯文本文档的异步实体识别

推理请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。

对于异步分类

推理请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。

对于同步分类和实体识别

终端节点按每秒的增量计费,最少为 60 秒。从您启动终端节点时起,直到它被删除,即使未分析文档也会持续产生费用。

一个推理单位 (IU) 会在您的托管终端节点上提供每秒 100 个字符的吞吐量。您可以预置额外 IU,以获得更多吞吐量。每个 IU 每秒将产生 0.0005 USD 的费用。

对于模型训练,每小时 3 USD

*要从经过扫描的 PDF 文档中提取文本,调用 Amazon Textract Detect Document Text API

主题建模

对于前 100MB

对于超过 100MB 的每 MB

您需要基于每个主题建模作业处理的文档总大小支付费用。前 100 MB 按统一费率收费。超过 100MB,按 MB 收费。

免费套餐

5 万个单位的文本(5 百万个字符)

Amazon Comprehend 提供的免费套餐包括每月每个 API 5 万个单位的文本(5 百万个字符)。

符合条件的 API 包括关键词提取、情感、目标情感、实体识别、语言检测、事件检测、语法分析、检测 PII、包含 PII 和提示安全性分类。

注意:自定义 Comprehend(自定义实体和自定义分类)不提供免费套餐。这包括模型训练、推断和模型管理。

5 个任务,每个最多 1MB(主题建模)

新客户和现有 AWS 客户都可以使用 Amazon Comprehend 免费套餐,时长为 12 个月,从发出第一个 Amazon Comprehend 请求之日开始。

Amazon Comprehend 定价示例

示例 1 — 分析客户评论

假设您使用 Amazon Comprehend 构建了一个应用程序,用来分析客户在您的在线商店中的评论。您收到了 10,000 条客户评论,每条 550 个字符,这是您第二年使用该服务。

费用合计:

每个请求的大小 = 550 个字符

每个请求的单位数 = 6

单位合计:10,000 (请求数) x 6 (每个请求的单位数) = 60,000

每个单位的价格 = 0.0001 USD

总费用 = [单位数] x [每单位成本] = 60000 x 0.0001 USD = 6.00 USD


示例 2 — 按主题分类文档

假设您有一组总大小为 240MB 的研究文档,您想按主题分类,并基于客户的兴趣领域推荐文档。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。

费用合计:

处理的兆字节总数 = 240

以 1 USD 的统一费率计费的兆字节数 = 100

以 0.004 USD/MB 计费的兆字节数 = 140 [240-100]

作业总费用 = 1.00 USD + [140 x 0.004 USD] = 1.00 USD + 0.56 USD = 1.56 USD


示例 3 — 使用自定义分类 API 对客户反馈进行分类

假设您想训练一个分类器来自动整理您的网站中新的客户反馈。每分钟有 10 个客户输入反馈,每段反馈有 300 个字符。训练自定义模型需要 1 小时,您打算让这个模型运行一个月。那么,当月的模型训练费用将为 3 USD,模型存储成本为 0.5 USD。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。 

要对反馈进行异步分类,您要按照文档中的字符数量付费。要进行实时分类,您要预置具有足够吞吐量的终端节点来处理您的使用案例,并且为终端节点的运行时间付费。

异步分类的推理成本计算:

每天每个请求的大小 = 4,320,000 个字符 [300 个字符 * 10 个文档 * 1,440 分钟]

每个请求的单位数 = 43,200 个单位 [432,000 个字符 ÷ 每单位 100 个字符]

每个单位的价格 = 0.0005 USD

单位的总推理成本 = 21.60 USD [43,200 个单位 x 0.0005 USD]

总成本 = 25.10 USD [21.60 USD 推理 + 3 USD 模型训练 + 0.50 USD 模型存储]

同步分类的总费用计算:

首先,我们来计算所需的吞吐量。我们会在每分钟分类 10 个文档,每个文档有 300 个字符。也就是:

每秒 50 个字符 [300 个字符 x 10 个文档 ÷ 60 秒]

因此,您将需要预置一个具有 1 个推理单位 (IU) 的终端节点,它将提供每秒 100 个字符的吞吐量。

1 个 IU 的价格 = 每秒 0.0005 USD

您要支付的费用取决于您要在多长时间内保持您的实时分类终端节点处于活跃状态,而不管发起多少次推理调用。

如果您每天要运行实时分类终端节点 12 个小时:

总推理成本 = 21.60 USD [0.0005 USD x 3600 秒 x 12 个小时]

总成本 = 25.10 USD [21.60 USD 推理 + 3 USD 模型训练 + 0.50 USD 模型存储]

请注意,您要为所预置的吞吐量以及终端节点处于活跃状态的时间付费。如果您需要预置更多吞吐量,价格为:

2 个 IU 的价格 = 每秒 0.001 USD [0.0005 USD x 2]

3 个 IU 的价格 = 每秒 0.0015 USD [0.0005 USD x 3]


示例 4 — 使用自定义实体 API 对客户评论进行分析

假设您想训练一个自定义实体模型,以从您的网站中新的客户反馈自动提取自定义文字。培训工作需要 1.5 小时,您可以分析 10000 条客户反馈,每个反馈 550 个字符。您打算让这个模型运行一个月。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。

费用合计:

每个请求的大小 = 5,500,000 个字符

每个请求的单位数 = 55,000 个单位 [5,500,000 个字符 ÷ 每单位 100 个字符]

每个单位的价格 = 0.0005 USD

单位的总费用 = 27.5 USD [55,000 个单位 x 0.0005 USD]

模型训练的总用时 = 1.5 小时

每小时的价格 = 3 USD

模型训练的总费用 = 4.5 USD [1.5 小时 x 3 USD]

模型管理的月份数 = 1 个月

每月的价格 = 0.50 USD 

模型管理的总费用 = 0.50 USD [1 个月 x 0.50 USD]

总费用 = 37 USD [27.5 USD + 4.5 USD + 0.50 USD]


示例 5 — 使用事件检测提取事件及相关信息

假设您要从 3000 篇文章(每篇文中 500 个字符)中提取 3 种事件类型,而您正处于使用该服务的第二年。

费用合计:

处理的字符数 = 1500000 个字符 [3000 篇文章 x 500 个字符]

处理的单位数 = 45000 个单位 [1500000 x 3 个事件类型 ÷ 100 个字符/单位]

每个单位的价格 = 0.003 USD

单位的总费用 = 135 USD [45000 个单位 x 0.003 USD]


示例 6 — 使用包含 PII API 通过 PII 来识别文档

假设您使用 Amazon Comprehend 构建了一个应用程序,用来分析客户在您的在线商店中的评论。您收到了 10000 条客户评论(每条评论 550 个字符),需要确定哪些文档中包含 PII,以便可以将它们存储在安全的位置。假设目前是您使用该服务的第二年。

费用合计:

每个请求的大小 = 550 个字符

每个请求的单位数 = 6

单位合计 = 60000 [10000 个请求数 x 6 个单位/请求]

每个单位的价格 = 0.000002 USD

总费用 = 0.12 USD [60000 个单位 x 0.000002 USD]


示例 7 — 使用检测 PII API 修订文档中的 PII

假设您使用 Amazon Comprehend 构建了一个应用程序,用来分析客户在您的在线商店中的评论。您收到了 10000 条客户评论(每条评论 550 个字符),需要在对文档进行存档之前,创建修订版文档。假设目前是您使用该服务的第二年。

费用合计:

每个请求的大小 = 550 个字符

每个请求的单位数 = 6

单位合计 = 60000 [10000 个请求数 x 6 个单位/请求]

每个单位的价格 = 0.0001 USD

总费用 = 6 USD [60000 个单位 x 0.0001 USD]

示例 8 — 使用自定义实体 API 提取抵押贷款申请实体

假设您想要训练一个自定义实体提取模型,以从抵押贷款申请中提取 10 个自定义实体。每天有一百位客户申请,每位客户提供 10 页的扫描 PDF 文档,其中每页包含 2500 个字符。使用 Amazon Textract 时,让我们假设在使用 Detect Document Text API 提取实体之前,我们需要从每个处理过的页面中提取文本。训练自定义模型需要 1 小时,您打算让这个模型运行一个月。那么,当月的模型训练费用将为 3 USD,模型存储成本为 0.50 USD。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。要异步提取自定义实体,您要按照文档中的字符数量付费。要实时提取实体,您要预置具有足够吞吐量的终端节点来处理您的使用案例,并且为终端节点的运行时间付费。

异步分类的推理成本计算:

每天每个请求的大小 = 2500000 个字符 [100 个申请/天 * 10 个文档 * 2500 个字符]

每个请求的单位数 = 25000 个单位 [2500000 个字符 ÷ 每单位 100 个字符]

每个单位的价格 = 0.0005 USD

单位的总推理成本 = 12.50 USD [25000 个单位 x 0.0005 USD]

Detect Document Text API 的 Amazon Textract 成本 = 1.50 USD [100 个申请/天 * 10 个文档 * 每页 0.0015 USD 的价格,最多 100 万页]

总费用 = 17.50 USD [12.50 USD 推理 + 1.50 USD Textract + 3 USD 模型训练 + 0.50 USD 模型存储]

 

示例 9 — 分析员工调查响应

假设您已经通过 Amazon Comprehend Targeted Sentiment 构建了一个应用程序来分析您公司的员工调查响应。您收到了 10 万条调查响应,每条 350 个字符,而且这是您第二年使用该服务。

费用合计:

每个请求的大小 = 350 个字符

每个请求的单位数 = 4

单位合计 = 400000(100000 个请求数 x 4 个单位/请求)

每单位成本 = 0.0001 美元 (0 – 1000 万个单位)

总费用 = [单位数] x [每单位成本] = 400000 x 0.0001 USD = 40.00 USD

 

示例 10 — 在网站上的在线评论中检测毒性

假设您已经使用 Amazon Comprehend 构建了一个应用程序,用来检测网站评论中的毒性。您已经收到了 1 亿条客户评论,每条评论的长度为 100 个字符,您需要确定哪些评论本质上是有毒的,应予以修订。假设目前是您使用该服务的第二年。

            费用合计:

            每个请求的大小 = 100 个字符

            每个请求的单位数 = 总计 1 个

            单位数 = 1 亿个 IU [1 亿条评论 x 每个请求 1 个单位]

            每单位价格 = 0.0001 USD [0 到 1000 万个 IU] + 0.00005 USD [1000 万到 5000 万个 IU] + 0.000025 USD [5000 万到 1 亿个 IU]

            总费用 = [单位数] x [每单位成本]

            = [10M x 0.001 USD] + [40M x 0.00005 USD] + [50M x 0.000025 USD]

            = 1000 USD + 2000 USD + 1250 USD

            = 4250 USD

示例 11 — 检测生成式人工智能应用程序中的不安全提示

假设您已经使用 Amazon Comprehend 构建了一个应用程序,用于在用户与您的生成式人工智能产品交互时检测不安全的输入提示。您已经收到了 1000 万条输入提示,每个提示包含 500 个字符,您需要确定哪些提示是不安全的。假设目前是您使用该服务的第二年。

            费用合计:

            每个请求的大小 = 500 个字符

            每个请求的单位数 = 5

            总单位数 = 5000 万个 IU [1000 万条评论 x 每个请求 5 个单位]

            每单位价格 = 0.0001 USD [0 到 1000 万个 IU] + 0.00005 USD [1000 万到 5000 万个 IU] + 0.000025 USD [5000 万到 1 亿个 IU]

            总费用 = [单位数] x [每单位成本]

            = [1000 万 X 0.001 USD] + [4000 万 X 0.00005 USD]

            = 1000 USD + 2000 USD

            = 3000 USD

详细了解 Amazon Comprehend 的功能

访问功能页面
准备好开始使用了吗?
注册
还有更多问题?
联系我们