使用 AWS 上的 NVIDIA NIM 更快地部署生成式人工智能

大规模释放生成式人工智能和 LLM 的潜力

新增内容

了解如何在 Amazon SageMaker HyperPod 上使用 NVIDIA Nemo 框架扩展 AI 模型训练

NeMo 检索器、Llama 3.2 文本嵌入以及 NVIDIA NIM 微服务重新排序功能现已在 Amazon SageMaker JumpStart 中可用 | Amazon Web Services

概览

NVIDIA NIM 推理微服务与 AWS 托管服务 [例如 Amazon Elastic Compute Cloud（Amazon EC2）、Amazon Elastic Kubernetes Service（Amazon EKS）和 Amazon SageMaker] 紧密集成，支持大规模部署生成式人工智能模型。NVIDIA NIM 是 AWS Marketplace 中提供的 NVIDIA AI Enterprise 的一部分，是一组易于使用的微服务，旨在加速生成式人工智能的部署。这些预构建的容器支持广泛的生成式人工智能模型，从开源社区模型到 NVIDIA AI Foundation 和自定义模型。NIM 微服务通过单个命令部署，使用行业标准 API 和几行代码即可轻松集成到生成式人工智能应用程序中。NIM 旨在促进大规模无缝生成式人工智能推理，确保生成式人工智能应用程序可以在任何地方部署。

优势

强大的安全性和控制力

使用 AWS 上的 NIM 自行托管最新的生成式人工智能模型，并使用 AWS 业界领先的安全功能维护生成式人工智能应用程序和数据的安全性和控制力。

降低成本并缩短上市时间

通过预先构建、持续更新的微服务减少工程工作量并降低其成本，确保采用生成式人工智能推理技术的最新进展。快速部署专门的开箱即用型生成式人工智能应用程序，并支持微调基础模型（FM）。

助力开发人员

通过访问最新的生成式人工智能模型、行业标准 API 和工具，最大限度地降低生成式人工智能模型开发的复杂性。

优化响应时间和吞吐量

通过可在云中无缝扩展的低延迟和高吞吐量生成式人工智能推理来提高令牌生成和响应能力。

企业级软件

NIM 包括专用的功能分支、严格的验证流程、针对常见漏洞和暴露（CVE）的定期安全更新，以及可直接与 NVIDIA AI 专家联系的支持服务。

性能

作为 NVIDIA AI Enterprise 软件套件的一部分，NIM 经过详尽的调校，可确保每个模型的高性能配置。通过使用 NIM，可显著改善吞吐量和延迟。例如，与最佳开源替代方案相比，NVIDIA Llama 3.1 8B Instruct NIM 的吞吐量提高了 2.5 倍，首个令牌生成时间（TTFT）缩短了 4 倍，令牌间延迟（ITL）加快了 2.2 倍。

统计数据

开启 NIM 时 Llama 3.1 8B Instruct 的吞吐量比关闭 NIM 时更高

开启 NIM 时 Llama 3.1 8B Instruct 上的 TTFT 速度比关闭 NIM 时更快

开启 NIM 时 Llama 3.1 8B Instruct 上的 ITL 速度比关闭 NIM 时更快

功能

预先构建的容器

NIM 提供各种预先构建的容器和 Helm 图表，其中包括经过优化的生成式人工智能模型。NIM 与 Amazon EKS 无缝集成，提供高性能且经过成本优化的服务基础设施模型。

标准化 API

通过用于在 AWS 上构建强大的助手、聊天机器人和生成式人工智能助手的行业标准 API，简化基于生成式人工智能的应用程序的开发、部署和扩展。这些 API 与标准部署流程兼容，这意味着团队可以快速轻松地更新应用程序。

模型支持

部署针对特定行业或使用案例进行微调的自定义生成式人工智能模型。NIM 支持多个领域的生成式人工智能使用案例，包括 LLM、视觉语言模型（VLM）以及语音、图像、视频、3D、药物研发、医学成像等模型。

适用于特定领域

NIM 包括适用于特定领域的 NVIDIA CUDA 库和专用代码，涵盖语音、语言和视频处理等领域。

推理引擎

使用 Triton Inference Server、TensorRT、TensorRT-LLM 和 PyTorch NIM 进行优化，可最大限度地提高吞吐量并降低延迟，从而降低扩展推理工作负载时的运行成本。

如何开始使用 AWS 上的 NVIDIA NIM

使用在 AWS 上运行的 NVIDIA AI Enterprise 部署生产级 NIM 微服务

快速简便的生成式人工智能部署

首先，用户可以使用 NVIDIA API 目录（网址：ai.nvidia.com）中的加速生成式人工智能模型，在 AWS 上设置优化的推理工作负载。当准备好部署时，组织可以使用 NVIDIA NIM 自托管模型并在 AWS 上安全地运行它们，从而让他们拥有自己的定制所有权并完全控制他们的知识产权（IP）和生成式人工智能应用程序。

客户可以从 AWS Marketplace 购买 NVIDIA AI Enterprise 许可证，然后前往 NVIDIA NGC 访问 NIM 目录、下载容器并将其带到 AWS。使用 AWS Batch、AWS ParallelCluster、适用于 Lustre 的 Amazon FSx 和 Amazon Simple Storage Service（Amazon S3）在 Amazon Elastic Compute Cloud（Amazon EC2）、Amazon EKS 和 Amazon SageMaker 上部署 NIM。

了解有关 NVIDIA AI 企业版的更多信息

资源

Webinar

NVIDIA NIM 常见问题

如何开始？

在 AWS Marketplace 中访问 NVIDIA AI Enterprise 中的 NVIDIA NIM，以在 AWS 上进行自行托管的部署，包括 Amazon EC2、Amazon EKS、Amazon SageMaker 等。使用 NVIDIA NIM 在由 NVIDIA GPU 加速的优化容器中部署生成式人工智能模型。NIM 为开发人员提供了一种将生成式人工智能集成到助手、聊天机器人等应用程序中的简便方法。

可以免费试用吗？

开发人员可以在 ai.nvidia.com 免费试用 NVIDIA 微服务。对于想要自行托管 NIM 的客户，NVIDIA 提供免费评估许可，可供试用 NVIDIA AI Enterprise 90 天。NVIDIA 还通过 NVIDIA LaunchPad，为想要在没有现有基础设施的情况下试用 NIM 的客户提供免费动手实验室。

如何计费？

在 AWS Marketplace 购买时，您的 AWS 账单将包括 NVIDIA AI Enterprise。客户还可以通过 NVIDIA AI Enterprise AWS Marketplace 列表中的“专属优惠”按钮直接联系 NVIDIA，购买年度许可。

包括哪些支持？

NVIDIA AI Enterprise 支持包括访问 NVIDIA AI 专家、全面的软件补丁、更新、升级和技术支持。还可以通过 NVIDIA AI Enterprise AWS Marketplace 列表中的“专属优惠”按钮获得定制的支持升级选项。

NIM 如何与 AWS 服务集成？

客户可以将 AWS 托管服务与 NIVIDIA NIM 结合使用，以使用 AWS Batch、AWS ParallelCluster、适用于 Lustre 的 Amazon FSx 和 Amazon S3 在 Amazon EC2、Amazon EKS 和 Amazon SageMaker 上快速部署 FM。

立即使用 AWS 上的 NVIDIA NIM 大规模部署加速型生成式人工智能推理

Learn

免费试用 NVIDIA 微服务

了解更多

Guide

在 AWS Marketplace 中获取 NVIDIA NIM