- 机器学习›
- Amazon Polly›
- 常见问题
Amazon Polly 常见问题
一般性问题
什么是 Amazon Polly?
Amazon Polly 是一项将文本转换为逼真语音的服务。Amazon Polly 可以为现有应用程序添加先进的语音功能,支持构建具有语音功能的全新类别产品,从移动应用程序和汽车到设备和家电,均涵盖其中。Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在许多地理位置发布具有语音功能的应用程序。Amazon Polly 简单易用 – 您只需将要转换为语音的文本发送到 Amazon Polly API,Amazon Polly 便会立即将音频流返回到您的应用程序。您可以直接播放该音频流,也可将其存储为 MP3 等标准音频文件格式。Amazon Polly 支持语音合成标记语言 (SSML) 标签(如 prosody),因此您可以调整语速、音调或音量。Amazon Polly 是一种安全的服务,能够大规模地实现以上所有功能,且延迟较低。您可以缓存并重播 Amazon Polly 生成的语音,无需额外付费。注册 Amazon Polly 后,您可在第一年内每月免费转换数百万个字符。Amazon Polly 采用按需付费定价模式,对每条请求收取的费用较低,且对语音输出的存储和重复使用没有太多限制,让您能够经济高效在任何地方实现语音合成。
为什么要使用 Amazon Polly?
您可以使用 Amazon Polly 为您的应用程序提供高质量的语音输出。Amazon Polly 是一款经济高效的服务,可以在极短的时间内做出响应,且几乎适用于各种使用情形,对存储和重复使用生成的语音也没有任何限制。
Amazon Polly 可以提供哪些功能?
您可以使用标准化的语音合成标记语言 (SSML) 控制语音的各个方面,如发音、音量、音调、语速等。您可以使用新闻播音员风格为某些神经语音合成语音,使其听起来像电视或无线电新闻播音员。您可以根据音频流中的元数据,检测用户听到文本中的特定文字或语句的时间。这让开发人员能够将突出显示的图形和动画(例如头像的嘴唇动作)与合成语音同步。您可以使用自定义字典修改公司名称、首字母缩略词、外来词和新词等特定词语的发音,例如“P!nk”、“ROTFL”和“C'est la vie”(使用非法语语音说话时)。
什么是语音标记?
语音标记用于补充从输入文本生成的合成语音。将这一元数据流与合成语音音频流配合使用,客户能够在应用程序中提供增强的视觉体验,例如语音同步动画或者卡拉 ok 式突出提示。
Amazon Polly 使用以下四种元素来生成语音标记:
- 语句,指明要朗读的输入文本中的语句元素;
- 文字,指明文本中的文字元素;
- 视位,描述与发出的声音对应的嘴唇形状;
- SSML,描述文本中使用的 SSML 元素。
语音标记以 JSON 流(具体指一组由新线隔开的独立 JSON 对象)的形式交付,在使用合成语音方法处理语音标记类参数时,涵盖上面一个到全部四个元素中的任何位置。有关更多信息,请参阅《Amazon Polly 开发人员指南》。
Amazon Polly 服务最常见的使用案例有哪些?
借助 Amazon Polly,您可以添加逼真的语音功能,让您的应用程序生动起来。例如,在电子学习和教育中,您可以利用 Amazon Polly 的文本转语音 (TTS) 功能构建应用程序,帮助有阅读障碍的人。Amazon Polly 可以用于帮助盲人和视障人士使用数字内容(例如电子书、新闻等)。Amazon Polly 还可用于公共交通和工业控制系统的通知系统,发布通知和紧急公告。很多设备(如机顶盒、智能手表、平板电脑、智能手机和 IoT 设备)都可以利用 Amazon Polly 来提供音频输出。Amazon Polly 可以用于电话服务解决方案,为交互式语音应答系统提供语音支持。问答游戏、动画、头像或旁白生成等应用程序是 Amazon Polly 等基于云的 TTS 解决方案的常见使用案例。
Amazon Polly 如何与其他 AWS 产品配合使用?
将 Amazon Polly 与 Amazon Lex 结合使用,开发人员可以为应用程序构建功能齐全的语音用户界面。与 Amazon Connect 结合,Amazon Polly 语音可以用于构建基于云的自助呼叫中心服务。此外,移动应用程序和物联网 (IoT) 解决方案的开发人员还可以利用 Amazon Polly 将语音输出添加到自己的系统中。
与安装在设备上的文本转语音解决方案相比,基于云的文本转语音解决方案有哪些优势?
设备上的文本转语音解决方案需要大量的计算资源,因此需要设备提供大量 CPU 功率、RAM 和磁盘空间。这导致开发成本增加以及平板电脑、智能手机等设备的功耗增大。相比之下,在云中完成文本到语音的转换,可以显著减少对本地资源的需求,因此有可能支持以各种可用的语言和声音提供最优质的语音。此外,所有最终用户都可以立即使用语音纠正和语音增强功能,且不需要对任何设备额外进行更新。基于云的文本转语音 (TTS) 是独立于平台的,因此可以最大程度地减少开发时间和工作量。
如何开始使用 Amazon Polly?
您只需登录到您的 AWS 账户,前往 Amazon Polly 控制台(AWS 控制台的一部分),即可开始使用该产品。接下来,您可以使用控制台输入任何文本并收听生成的语音,或将其另存为音频文件。
目前,哪些区域提供 Amazon Polly 服务?
请参阅 AWS 区域服务列表了解支持 Amazon Polly 标准语音的所有区域。这些区域的以下子集支持神经语音:美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、亚太地区(东京)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、欧洲(伦敦)、欧洲(法兰克福)、欧洲(爱尔兰)亚太地区和 AWS GovCloud(美国西部)。
Amazon Polly 支持哪些编程语言?
Amazon Polly 支持 AWS 软件开发工具包中包含的所有编程语言(Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++)以及 AWS 移动软件开发工具包中包含的所有编程语言 (iOS/Android)。Amazon Polly 还支持 HTTP API,因此您可以实施自己的访问层。
Amazon Polly 支持哪些音频格式?
借助 Amazon Polly,您可以近乎实时地将音频流式传输给您的用户。Amazon Polly 还提供多种采样率供您选择,便于您为应用程序优化带宽和音频质量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音频流格式。
支持哪些语言?
请参阅文档,了解 Amazon Polly 支持的语言的完整列表。
Amazon Polly 是否有 AWS 服务限制?
为了帮助保证 AWS 资源的可用性并最大限度降低新客户的账单风险,AWS 对每个账户均设置有服务限制。使用 Amazon Polly 为应用程序提供高质量语音输出功能时,需遵循默认的服务限制,包括对限制设置、操作和语音合成标记语言 (SSML) 的使用的限制。有关详情,请参阅《Amazon Polly 开发人员指南》中的 Limits in Amazon Polly。将 Polly Amazon 与其他 AWS 服务 (例如可以高效进行批处理的 AWS Batch) 结合使用,您可以在这些服务的限制内充分利用 Amazon Polly。
Amazon Polly 是否通过了 HIPAA 认证?
答:Amazon Polly 服务符合 HIPAA 要求,包含在 AWS 商业伙伴协议 (AWS BAA) 中。如果您签订了 AWS BAA,Amazon Polly 将仅根据 AWS BAA 条款使用、披露和维护您的受保护健康信息 (PHI),而不会根据 Amazon Polly 常见问题“数据隐私”部分中的规定。
如何开始使用 Amazon Polly 的“品牌之声”功能?
如果您对使用 Amazon Polly 打造“品牌之声”感兴趣,请联系您的 AWS 客户经理或联系我们了解更多信息。
打造品牌之声的费用和时间表是怎样的?
每种声音都是独一无二的,因此为了准确确定品牌之声的参与度,深入了解您的目标对我们来说非常重要。如果您对使用 Amazon Polly 打造“品牌之声”感兴趣,请联系您的 AWS 客户经理或联系我们了解更多信息。
计费
Amazon Polly 如何收费?
请参阅 Amazon Polly 定价页面,了解最新的定价信息。
是否可以使用 Amazon Polly 生成可多次重播的静态语音提示?
可以。Amazon Polly 对此没有限制,且不会额外收取任何费用。
是否可以将 Amazon Polly 生成的内容用在大规模通知系统(如火车站的通知系统)中?
可以。Amazon Polly 对此没有限制,且不会额外收取任何费用。
如果我请求合成 1000 个字符,并请求对同样的 1000 个字符提供语音标记,那么是否会对我收取 2000 个字符的费用?
符合。您需要按照发送到服务的字符数量,为涉及语音或语音标记的每条请求支付费用。
AWS 免费套餐是否包括 Amazon Polly?
是的,作为 AWS 免费使用套餐的一部分,您可以开始免费使用 Amazon Polly。注册后,Amazon Polly 新客户可以在前 12 个月内免费每月合成数百万个字符。请参阅 Amazon Polly 定价页面,了解最新的定价信息。
定价中包含税费了吗?
有关税费的详细信息,请参阅 Amazon Web Services 税务帮助。
数据隐私
Amazon Polly 是否会存储处理过的文本输入?AWS 如何使用这些输入?
Amazon Polly 可能会存储和使用仅由该服务处理的文本输入,以提供和维护服务,以及改进和提高 Amazon Polly 和其他 Amazon 机器学习/人工智能技术的质量。为了持续改善您的 Amazon Polly 客户体验并促进相关技术的开发和培训,我们有必要使用您的内容。我们不会根据您的内容中可能包含的任何个人身份信息来向您或您的最终用户推荐产品、服务或进行营销。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当并且先进的技术和物理控制措施 (包括静态和动态加密) 来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/。您可以通过使用 AWS Organizations 退出策略,选择不再使用您的内容来改进和提高 Amazon Polly 及其他 Amazon 机器学习/人工智能技术的质量。有关如何退出的信息,请参阅管理 AI 服务退出策略。
谁有权访问 Amazon Polly 处理和存储的内容?
只有经过授权的员工才能访问 Amazon Polly 处理的内容。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当并且先进的技术和物理控制措施 (包括静态和动态加密) 来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/。
由 Amazon Polly 处理和存储的内容是否仍归我所有?
您始终保留对您的内容的所有权,我们只会在您同意的情况下使用您的内容。
Amazon Polly 处理的内容是否会移到我使用 Amazon Polly 所在的 AWS 区域之外?
Amazon Polly 处理的任何内容都会被加密,并静态存储在您使用 Amazon Polly 所在的 AWS 区域中。Amazon Polly 处理的部分内容可能存储在另一个 AWS 区域中,仅用于持续改进和提高您的 Amazon Polly 客户体验及其他 Amazon 机器学习/人工智能技术。如果您通过联系 AWS Support,选择不再使用您的内容来发展 Amazon Polly 和其他 Amazon 机器学习/人工智能技术的质量,您的内容将不会存储在其他 AWS 区域中。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当并且先进的技术和物理控制措施 (包括静态和动态加密) 来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/。
是否可以将 Amazon Polly 用于针对不满 13 岁的儿童并受《儿童网络隐私保护法》(COPPA)约束的网站、项目或其他应用程序?
可以。但您需要遵守 Amazon Polly 服务条款的规定,包括按照 COPPA 的要求来提供任何需要的通知并获得任何需要的、可验证的家长同意,才能将 Amazon Polly 用于全部或部分针对不满 13 岁的儿童的网站、项目或其他应用程序。
Polly 录音由谁拥有?
在您和 AWS 之间,您的 Polly 输出属于您所有。如果您在 Polly 中输入属于第三方所有的文本,则您需要取得相应的权利才能操作。有关更多信息,请参阅我们的客户协议并了解它会如何处理您的“内容”
如何确定我的网站、程序或应用程序是否受 COPPA 的约束?
要了解 COPPA 的要求并获取关于如何确定您的网站、程序或其他应用程序是否受 COPPA 约束的指南,请直接参阅美国联邦贸易委员会提供并维护的各种资源。该网站还提供有关如何确定某种服务是否全部或部分针对不满 13 岁儿童的信息。