一般性问题

问:什么是 Amazon Transcribe?

Amazon Transcribe 是一项 AWS 人工智能(AI)服务,使您能够轻松实现语音转文本功能。采用自动语音识别(ASR)技术,您可以将 Amazon Transcribe 用于各种业务应用程序,包括转录基于语音的客户服务通话、生成音频/视频内容字幕,以及对音频/视频内容执行(基于文本的)内容分析。  

问:Amazon Transcribe 如何与其他 AWS 产品交互?

Amazon Transcribe 可以将音频输入转换为文本,这为开发基于语音输入的各种文本分析应用程序打开了方便之门。例如,通过将 Amazon Comprehend 用于来自 Amazon Transcribe 的转换后文本数据,您可以进行情绪分析或提取实体和关键短语。同样,通过将 Amazon Translate 与 Amazon Polly 集成,您可以接收一种语言的语音输入,然后将其翻译为另一种语言并生成语音输出,从而有效地实现多种语言对话。还可以将 Amazon Transcribe 与 Amazon Kendra 或 Amazon OpenSearch 集成,以便在音频/视频库内编写索引并执行基于文本的搜索。要了解更多信息,请查看实时呼叫分析和座席协助呼叫后分析媒体搜索内容分析解决方案。

问:我在使用 Amazon Transcribe 之前还应了解什么?

Amazon Transcribe 旨在处理各种语音和声学特征,包括音量、音调和语速的变化。音频信号的质量和内容(包括但不限于背景噪音、扬声器重叠、口音或一个音频文件内语言间的切换等因素)可能会影响服务输出的准确性。我们在不断更新服务,以改进其适应其他声音变化和内容类型的能力。

使用 Amazon Transcribe

问:开发人员将如何访问 Amazon Transcribe?

开始使用的最简单的方法是使用控制台提交任务来转录音频文件。您也可以从 AWS 命令行界面直接调用该服务,或使用您选择的任一受支持的软件开发工具包,将其与您的应用程序集成。无论哪种方式,您都只需几行代码即可开始使用 Amazon Transcribe 为音频文件生成自动转录。

问:Amazon Transcribe 是否支持实时转录?

可以。Amazon Transcribe 允许您通过 HTTP2 打开双向流。您可以在接收返回的文本流的同时,将音频流实时发送到服务。有关更多详细信息,请参阅文档页面

问:实时转录支持哪种编码?

批处理转录和流式转录之间支持的媒体类型有所不同,但两者都建议使用无损格式。有关更多详细信息,请参阅文档页面

问:Amazon Transcribe 支持哪些语言?

有关语言支持的信息,请参阅此文档页面。

问:哪些设备可以使用 Amazon Transcribe?

在很大程度上,Amazon Transcribe 不受设备影响。一般而言,具有内置麦克风的任何设备都可以使用,例如手机、PC、平板电脑和物联网设备(如车载音频系统)。Amazon Transcribe API 将能够检测在设备上输入的音频流质量(8kHz 或 16kHz),并相应地选择用于将语音转换为文本的声学模型。此外,开发人员可以通过其应用程序调用 Amazon Transcribe API 来使用语音到文本转换功能。

问:Amazon Transcribe 可以处理的音频内容是否有大小限制?

对于我们的批处理服务,Amazon Transcribe 服务调用限制为每个 API 调用四个小时(或 2 GB)。流式处理服务可以容纳长达四小时的开放式连接。

问:Amazon Transcribe 支持哪些编程语言?

Amazon Transcribe 批处理服务支持 .NET、Go、Java、JavaScript、PHP、Python 和 Ruby。 Amazon Transcribe 实时服务支持 Java 软件开发工具包、Ruby 软件开发工具包和 C++ 软件开发工具包。对其他软件开发工具包的支持也即将推出。有关更多详细信息,请访问资源文档页面

问:我的自定义词汇表中的单词总是无法识别。该怎么办?

除了自定义词汇表条目之外,语音识别输出还取决于许多因素,因此可能无法保证自定义词汇表中的术语会被正确识别。然而,导致这一问题最常见的原因之一是单词的发音与书写方式存在显著差异。

在这些情况下,建议在自定义词汇表文件中为同一单词创建多个短语条目,以涵盖发音中可能的变化。您可以使用 DisplayAs 列来获得这些短语条目所需的输出。如需了解更多信息,请参阅自定义词汇表文档

问:为什么我的输出中出现过多自定义单词?

自定义词汇表针对一小部分目标单词进行了优化;如果词汇表较大,可能会导致过度生成自定义单词,尤其是当词汇表中包含发音相似的单词时。如果您的词汇表较大,请尝试将其缩小为生僻字和实际上预计会出现在音频文件中的单词。如果您有一个涵盖多个使用案例的大型词汇表,请将它分成针对不同使用案例的单独列表。简短且发音与许多其他单词相似的单词可能会导致过度生成(输出中出现过多自定义单词)。最好将这些单词与周围的单词组合,并将它们列为连字符分隔的短语。例如,自定义单词“A.D.”可以作为“A.D.-converter”这类短语的一部分。

问:使用 DisplayAs 表单时,是否可以显示与被转录的原始语言无关的字符集(例如,将“Street”输出为“街道”)?

可以。虽然短语只能对特定语言使用受限制的字符集,但在 DisplayAs 列中允许使用除 \t(TAB)之外的 UTF-8 字符。

问:Transcribe 的批处理和流处理 API 是否都可以使用自动内容修订或个人身份信息(PII)修订?

是的,Amazon Transcribe 支持批处理和流处理 API 的自动内容修订或 PII 修订

问:自动内容修订/PII 识别和修订支持哪些语言?

请参阅 Amazon Transcribe 文档了解有关自动内容修订/PII 修订的语言可用性的信息。

问:自动内容修订功能是否还会修订源音频中的个人敏感信息?

否,此功能不会从源音频中删除个人敏感信息。但是,Amazon Transcribe 呼叫分析会从转录本和源音频中删除敏感的个人信息。访问此链接以了解有关呼叫分析如何修订音频的更多详细信息。您还可以使用开始和结束时间戳自行修订源音频中的个人信息,这些时间戳提供在已识别 PII 语句的每个实例的修订记录中。有关标准 Transcribe API,请参阅此音频修订解决方案

但是,专门的 Amazon Transcribe 呼叫分析 API 会从转录本和源音频中删除敏感的个人信息。要了解更多信息,请查看呼叫分析音频修订文档

问:我能否使用自动内容修订功能修订现有文本转录中的个人信息?

不能,自动内容修订只能用于作为输入的音频。

问:我在使用自动内容修订功能前还应了解什么?

自动内容修订功能旨在识别和删除个人身份信息(PII),但由于机器学习的预测性质,它可能无法识别并删除服务所生成的记录中的所有 PII 实例。您应该查看自动内容修订功能提供的所有输出,以确保它满足您的需求。

问:流处理和批处理 API 的自动内容修订是否有任何差别?

是的,流处理 API 的自动内容修订还支持另外两个功能,而批处理 API 不支持这两项功能。您可以决定在使用流处理 API 的内容修订时仅识别 PII 而不进行修订。同时,您还能够使用流处理 API 识别或修订特定 PII 类型。例如,您可以只修订社会保险号和信用卡信息,保留其他 PII,如姓名和电子邮件地址。

问:在哪些 AWS 区域提供自动内容修订或 PII 修订?

请参阅 Amazon Transcribe 文档了解有关 AWS 区域中批处理和流处理 API 的自动内容修订和 PII 修订可用性的信息。

问:哪些 API 支持自动语言识别?

批处理和流处理 API 当前支持自动语言识别。

问:Amazon Transcribe 可以自动识别哪些语言?

Amazon Transcribe 可以识别批处理和流处理 API 支持的任何语言。单击此处了解有关支持的语言和语言特定功能的详细信息

问:Amazon Transcribe 能否识别同一音频文件中的多种语言?

Amazon Transcribe 支持批处理的多语言 ID。请参阅此链接了解更多信息。

问:对于自动语言识别,是否有任何方法可以限制供选择的语言列表?

是的,您可以指定媒体库中可能存在的语言列表。如果您提供了语言列表,系统将从该列表中选择所识别的语言。如果您未指定任何语言,则系统将根据 Amazon Transcribe 支持的所有语言处理音频文件,然后选择最可能的一种语言。提供可供选择的语言列表时,语言识别的准确性会更高。请参阅此链接了解更多信息。

定价和可用性

问:如何收费?

有关更多信息,请参阅 Amazon Transcribe 定价页面。

问:在哪些 AWS 区域提供 Amazon Transcribe?

请参阅 AWS 全球基础设施区域表。点击此处了解有关 Amazon Transcribe 端点和配额的更多详细信息

数据隐私

问:Amazon Transcribe 是否会存储处理过的语音输入?AWS 如何使用这些输入?

Amazon Transcribe 会存储和使用服务处理过的语音输入,这样做只是为了提供和维护服务以及改进和提高 Amazon Transcribe 和其他亚马逊机器学习/人工智能技术的质量。为了持续改善您的 Amazon Transcribe 客户体验并促进相关技术的开发和训练,我们重视使用您的内容。我们不会根据您的内容中可能包含的任何个人身份信息来向您或您的最终用户推荐产品、服务或进行营销。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当且先进的技术和物理控制措施(包括静态和动态加密)来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/。您可以通过使用 AWS Organizations 退出策略选择不再使用您的内容来改进或提高 Amazon Transcribe 及其他 Amazon 机器学习/人工智能技术的质量。有关如何退出的信息,请参阅 AI 服务退出策略

问:我可否删除与 Amazon Transcribe 存储的转录作业相关的数据和构件?

可以。您可以使用提供的 Delete API 删除与转录任务相关的数据和其他构件。如果在此过程中遇到问题,请联系 AWS Support。

问:谁有权访问 Amazon Transcribe 处理和存储的内容?

只有经过授权的员工才能访问 Amazon Transcribe 处理的内容。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当且先进的技术和物理控制措施(包括静态和动态加密)来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/

问:由 Amazon Transcribe 处理和存储的内容是否仍归我所有?

您始终保留对您的内容的所有权,我们只会在您同意的情况下使用您的内容。

问:在训练自定义语言模型时使用的数据会发生什么变化? 我是否仍能拥有它?

提交用于训练专用模型的文本数据时,您拥有原始文本数据的所有权和生成的自定义模型的所有权。将不会存储文本数据,也不会将其用于改进我们的通用语音识别引擎。使用 CLM 生成的模型是独立模型,并且只能由您访问。

问:由于该服务将不会保留我的训练数据,转录质量或整体服务体验是否存在任何缺点或下降?

我们的服务不会存储您的训练数据,不会导致转录质量下降。使用训练数据实际生成自定义语言模型后,您可以自行决定模型本身是否可以重复使用。您上传的原始训练集将从我们的系统中删除。唯一的缺点是如果您需要技术支持。由于我们不会保留您的原始训练数据,因此如果您要求支持团队调查潜在的服务问题,我们将无法方便地访问这些资产或相关的中间构件。仍将提供支持,但不是很方便,因为我们可能需要您提供其他信息。

问:如何将数据重复用于未来的模型更新或改进?

由于未存储训练数据,因此必须重新上传相同的数据集和所有其他数据才能训练新模型。当 Amazon Transcribe 提供的基本模型有更新时,将通知您。要利用最新的基本模型,您应该提交数据以训练新模型。然后,您将拥有之前生成的原始自定义模型以及要使用的新版本。

问:如何删除模型?

您可以自行决定删除自己生成的任何客户语言模型。

问:Amazon Transcribe 处理的内容是否会移出到我使用 Amazon Transcribe 所在的 AWS 区域之外?

Amazon Transcribe 处理的任何内容都会被加密,并静态存储在您使用 Amazon Transcribe 所在的 AWS 区域中。Amazon Transcribe 处理的部分内容可能存储在另一个 AWS 区域中,仅用于持续改进和开发您的 Amazon Transcribe 客户体验及其他 Amazon 机器学习/人工智能技术。如果您通过联系 AWS Support,选择不再使用您的内容来提高 Amazon Transcribe 及其他 Amazon 机器学习/人工智能技术的质量,您的内容将不会存储在其他 AWS 区域中。您可以联系 AWS Support 请求删除与您的账户相关的语音输入。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当并且先进的技术和物理控制措施 (包括静态和动态加密) 来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/

问:是否可以将 Amazon Transcribe 用于面向不满 13 周岁的儿童并受《儿童网络隐私保护法》(COPPA) 约束的网站、项目或其他应用程序?

可以。但您需要遵守 Amazon Transcribe 服务条款,包括按照 COPPA 的要求提供必要的通知并获得必要的、可验证的家长同意,才能将 Amazon Transcribe 用于全部或部分面向不满 13 周岁儿童的网站、项目或其他应用程序。

问:怎样确定我的网站、项目或应用程序是否受 COPPA 的约束?

要了解 COPPA 的要求并获取关于如何确定您的网站、程序或其他应用程序是否受 COPPA 约束的指南,请直接参阅美国联邦贸易委员会提供并维护的各种资源。该网站还提供有关如何确定某种服务是否全部或部分针对不满 13 岁儿童的信息。

Amazon Transcribe 呼叫分析

问:什么是 Amazon Transcribe 呼叫分析?

Amazon Transcribe 呼叫分析是一种 AI 支持的 API,可提供丰富的通话转录文字和可实施的对话洞察,您可以将其添加到调用应用程序以改善客户体验并提高座席效率。它结合了强大的自定义语音转文本和自然语言处理(NLP)模型,这些模型经过专门训练,可理解客户服务和外拨销售通话。作为 AWS Contact Center Intelligence(CCI)解决方案的一部分,此 API 不受联系中心影响,客户和 ISV 可通过它更轻松地向其应用程序添加呼叫分析功能。

问:Amazon Transcribe 呼叫分析有什么用处?

Amazon Transcribe 呼叫分析可以进行实时和呼叫后分析。通过呼叫分析,开发人员可以快速地添加有价值的情报,例如客户和座席情绪评分、呼叫原因、呼叫类别、呼叫摘要,直接作为入站或出站呼叫应用程序的 API 输出。常见使用案例包括座席辅助、摘要、主管警报和呼叫分析。这里有两个基于 Transribe 呼叫分析的开源示例解决方案:带有座席辅助的实时呼叫分析呼叫后分析

问:如何开始使用 Amazon Transcribe 呼叫分析?

您可以通过 API 和 AWS 管理控制台使用 Transcribe 呼叫分析。分析任务可以通过 API 或控制台创建和监控。在控制台中,您将会看到分析任务列表,以及包含输入参数和 JSON 输出预览的任务详细信息页面。除此之外,您还将能够通过 API 或控制台创建和编辑类别,用于自动联系分类功能。

问:Amazon Transcribe 呼叫分析支持哪些语言?

请参阅 Amazon Transcribe 文档了解有关 Amazon Transcribe 呼叫分析的语言可用性的信息。

问:Amazon Transcribe 呼叫分析在哪些 AWS 区域可用?

请参阅 AWS 区域服务文档,了解 Amazon Transcribe 通话分析功能的 AWS 区域覆盖范围信息。请注意,Amazon Transcribe 通话分析功能生成式通话摘要仅在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)提供。

问:生成式呼叫摘要是否可用于通话后和实时转录呼叫分析 API?

目前,生成式呼叫摘要仅在用于通话后分析的转录呼叫分析 API 中可用。

问:Amazon Transcribe 呼叫分析如何定价?

Amazon Transcribe Call Analytics API 与标准 Amazon Transcribe API 分别定价。有关其他详细信息,请参阅 Amazon Transcribe 定价页面

Amazon Transcribe Medical

问:Amazon Transcribe Medical 是什么?

Amazon Transcribe Medical 是一种自动语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加医疗语音转文本功能。使用 Amazon Transcribe Medical,您可以出于各种目的快速、准确地将医疗诊断和对话性语音转录成文本,例如记录医生笔记或在下游文本分析中进行处理以提取有意义的见解。

问:Amazon Transcribe Medical 有什么用处?

Amazon Transcribe Medical 使用先进的机器学习模型将医学语音准确地转录为文本。Transcribe Medical 可以生成可用于支持各种使用案例的通用文字记录,涵盖从临床文档工作流程和药物安全监控(药物警戒)到远程医疗字幕的使用场景,甚至覆盖医疗保健和生命科学领域的联络中心分析。

问:要使用 Amazon Transcribe Medical,我是否需要成为自动语音识别 (ASR) 方面的专家?

否,您不需要具备任何 ASR 或机器学习专业知识即可使用 Amazon Transcribe Medical。您只需要调用 Transcribe Medical 的 API,该服务即可在后端处理所需的机器学习任务,以将医学语音转录为文本。

问:如何开始使用 Amazon Transcribe Medical?

您可以通过 AWS 管理控制台或开发工具包开始使用 Amazon Transcribe Medical。有关详细信息,请参阅此技术文档页面

Amazon Transcribe Medical 提供了免费套餐以便您试用此服务。有关更多信息,请参阅此定价页面。

问:Amazon Transcribe Medical 支持哪些语言?

Amazon Transcribe Medical 目前支持美国英语的医学转录。

问:Amazon Transcribe Medical 支持哪些医学专业?

Amazon Transcribe Medical 支持初级护理和专科护理专业扩展清单内容的转录。请访问我们的文档以获得可支持医学专业的完整列表。

问:Amazon Transcribe Medical 在哪些 AWS 区域可用?

请参阅 AWS 区域服务文档,了解 Amazon Transcribe Medical 的 AWS 区域覆盖范围信息。

问:Amazon Transcribe Medical 如何定价?

请参阅 Amazon Transcribe Medical 定价页面详细了解定价详情。

问:Amazon Transcribe Medical 是否符合 HIPAA 要求?

是的。

问:除为了提供此服务以外,Amazon Transcribe Medical 处理的内容是否会被用于任何其他目的?

除为了提供和维护此服务外,Amazon Transcribe Medical 不会以任何其他理由使用此服务处理的内容。该服务处理的内容不会用于开发或改善 Amazon Transcribe Medical 或任何其他 Amazon 机器学习/人工智能技术的质量。

问:Amazon Transcribe Medical 是否在不断学习?

是的,Amazon Transcribe Medical 采用机器学习技术,并会不断受到训练,以便在客户使用案例中表现得更出色。Amazon Transcribe Medical 不会存储或利用该服务所用的客户数据来训练模型

问:在使用 Amazon Transcribe Medical 服务之前,我还应具备哪些其他知识?

Amazon Transcribe Medical 并不能代替专业的医学意见、诊断或治疗。您和您的最终用户应依据自己的斟酌、经验和判断来确定 Amazon Transcribe Medical 提供的任何信息的正确性、完整性、及时性和适合性。您与您的最终用户对基于 Amazon Transcribe Medical 的使用,做出的任何决定、建议及行动和/或不作为负全部责任。 

Amazon Transcribe Medical 可能无法在所有情况下准确识别受保护的健康信息,并且不符合根据 HIPAA 取消识别受保护的健康信息的要求。您有责任审核 Amazon Transcribe Medical 提供的任何输出,以确保其符合您的需求。

自定义语言模型

问:自定义语言模型目前提供了哪些功能?

您可以使用自定义语言模型 (CLM) 来训练和开发特定领域的语言模型。CLM 目前支持澳大利亚英语、英国英语、印度语、美国英语和美国西班牙语的批量转录,以及美国英语的流式转录。CLM 支持同时使用自定义词汇进行批量转录。

问:我需要的训练数据量和类型是什么? 如何获取数据? 数据是否需要具有特定的格式?

文本数据应与要使用自定义模型进行转录的音频相关;它应包含尽可能多的特定于域的单词、短语和单词组合。我们建议在运行文本中使用至少 10 万和最多 1000 万个单词。可以从任何内部或公共来源获得文本数据资源(例如,使用来自客户网站的文本)。我们建议每个纯文本文件包含 20 万个单词或更多,但总文件大小不要超过 1 GB。文本应采用 UTF-8 格式,并且每行使用一个句子。每个句子都应包含标点符号。用户负责检查拼写、删除格式字符并验证编码。

问:如何使用自定义语言模型 (CLM)?

要训练自定义语言模型,客户只需在 Amazon S3 存储桶中提供文本数据即可。然后,用户可以使用 Amazon Transcribe 服务控制台加载和处理数据以训练自定义语言模型。训练是全自动化的过程,只需用户最少的干预。当最终自定义模型准备就绪后,将在客户的 AWS 账户中提供,以用于转录特定于域的音频文件。此外,客户可以训练多个自定义模型以用于各种不同的使用案例。

问:是否保证有所改进? 是否值得花精力来收集文本数据?

不能保证有所改进 – 性能的变化将取决于文本数据与音频的匹配程度以及所提供的数据量。通常,数据越多越好,但最重要的是,这些数据应涵盖您打算转录的音频文件中预期出现的单词和单词序列。转录准确性的提高将取决于训练数据量和使用案例。在某些情况下,常规基准测试表明相对准确性会提高 10% 至 15%。

问:模型训练需要多长时间? 何时才能使用它?

模型训练通常需要 6 到 10 个小时。训练时间的长短取决于数据集的大小。完成训练后,将直接提供自定义模型。

问:如何使用模型? 如何知道它是否比 Amazon Transcribe 提供的通用模型更好?

该模型将采用您在训练开始之前指定的模型 ID 在您的账户中提供。为了使用模型,需要将具有模型 ID 的标志添加到转录请求中。您应在音频文件上测试模型,并将输出与从通用引擎获得的结果进行比较。

问:我可以训练多少个自定义语言模型? 是否可以同时为我的账户启用多个模型?

您可以在任何给定的时间为每个 AWS 账户同时训练最多 5 个不同的模型。对于每个账户,默认情况下最多可以存储 10 个模型。如果需要更多模型,可以在此处增加服务限制。

问:是否支持自定义声学模型?

否。不支持自定义声学模型。自定义语言模型是基于与使用案例或域相关的文本数据构建的。

了解有关 Amazon Transcribe 定价的更多信息

访问定价页面
准备好开始使用了吗?
试用 Amazon Transcribe 控制台
还有更多问题?
联系我们