Amazon Bedrock 防护机制

实施根据您的应用程序要求和负责任的人工智能政策定制的保障措施

使用 Amazon Bedrock 防护机制构建负责任的人工智能应用程序

除基础模型的原生保护之外,Amazon Bedrock 防护机制还提供额外的可定制保护措施,从而提供业内最佳的安全保护,包括:

  • 阻止高达 85% 的有害内容
  • 过滤超过 75% 的 RAG 和汇总工作负载幻觉响应
  • 支持客户在单个解决方案中自定义和应用安全性、隐私和真实性保护措施

为您的所有应用程序提供一致的 AI 安全级别

Amazon Bedrock 的防护机制会根据特定使用案例的策略评估用户输入和 FM 响应,无论底层 FM 如何,均提供额外的保障措施。 Amazon Bedrock 的防护机制是唯一一个由大型云提供商提供的负责任的人工智能功能,它能帮助客户在单个解决方案中,为自己的生成式人工智能应用程序构建和自定义安全、隐私和真实性保护措施,并兼容 Amazon Bedrock 中的所有大型语言模型(LLM)以及经过微调的模型。 客户可以创建多个防护机制,每个防护机制均配置不同的控件组合,并可以在不同的应用程序和应用场景中使用这些防护机制。 Amazon Bedrock 防护机制还可以与 Amazon Bedrock 代理和 Amazon Bedrock 知识库集成,以构建符合您负责任的人工智能策略的生成式人工智能应用程序。此外,Amazon Bedrock 防护机制还提供 ApplyGuardrail API,用于评估用户输入以及由非 Bedrock 内的任何自定义 FM 或第三方 FM 生成的模型响应。

用户界面截图

在生成式人工智能应用程序中屏蔽不良话题

组织认识到需要管理生成式人工智能应用程序中的交互,以提供有针对性及安全的用户体验。他们希望进一步自定义交互,继续关注与业务相关的话题,并与公司政策保持一致。Amazon Bedrock 防护机制允许您通过简短的自然语言描述在应用程序的上下文中定义一组要避免的主题。 Amazon Bedrock 防护机制可检测并屏蔽属于受限主题的用户输入和 FM 响应。例如,银行助理可以设计成避开与投资建议相关的话题。

Amazon Bedrock 内容筛除条件防护机制

根据您的负责任的 AI 策略筛除有害内容

Amazon Bedrock 防护机制提供带有可配置阈值的内容筛除条件,用于筛除仇恨、侮辱、性、暴力、不当行为(包括犯罪活动)和防护提示攻击(即提示注入和越狱)等有害内容。大多数 FM 已经提供了内置保护措施,以防止产生有害响应。除这些保护措施外,Amazon Bedrock 防护机制还允许您配置不同内容类别的阈值,以筛除有害的交互。增加过滤器的强度会增加筛除的严苛度。它们会自动评估用户输入和模型响应,以检测并帮助阻止属于受限类别的内容。例如,电子商务网站可以设计其在线助手,以避免使用仇恨言论或侮辱等不当语言。

被 Amazon Bedrock 防护机制拒绝的话题

编辑敏感信息(PII)以保护隐私

Amazon Bedrock 防护机制允许您检测用户输入和 FM 响应中的敏感内容,比如个人身份信息 (PII)。您可以从预定义的 PII 列表中进行选择,也可以使用正则表达式(regex)定义敏感信息类型。根据使用案例,您可以选择性地拒绝包含敏感信息的输入或编辑 FM 响应中的敏感信息。例如,在呼叫中心根据客户和座席的对话记录生成摘要时,您可以编辑用户的个人信息。

化名和 gdpr 图标

使用自定义词汇过滤器屏蔽不当内容

Amazon Bedrock 防护机制允许您配置一组自定义词汇或短语,以便在用户与生成式人工智能应用程序的交互中对其进行检测和屏蔽。这也将允许您检测和屏蔽亵渎内容,以及特定的自定义词汇,例如竞争对手的名字或其他令人反感的词汇。

内容过滤器屏幕截图

使用情境化基础检查检测模型响应中的幻觉

组织需要部署真实可信的生成式人工智能应用程序,以保持和增加用户的信任。但是,使用基础模型构建的应用程序可能会由于幻觉而生成不正确的信息。例如,基础模型可能生成偏离源信息的响应、合并多条信息或创造新信息。Amazon Bedrock 防护机制支持情境化基础检查:如果源信息中的响应不合理(例如事实上不准确或新信息)以及与用户查询或指令无关,则可以检测和筛除幻觉。情境化基础检查可用于检测 RAG、摘要和对话应用程序的幻觉,其中源信息可用作验证模型响应的参考。

使用情境化基础检查检测模型响应中的幻觉