Amazon EC2 P5 实例

适用于深度学习和 HPC 应用程序的基于 GPU 的最高性能实例

Amazon Elastic Compute Cloud(Amazon EC2)P5 实例由 NVIDIA H100 Tensor Core GPU 提供支持,P5e 实例由 NVIDIA H200 Tensor Core GPU 提供支持,在 Amazon EC2 中为深度学习(DL)和高性能计算(HPC)应用程序提供最高性能。与上一代基于 GPU 的 EC2 实例相比,这些实例可帮助您将问题解决时间缩短多达 4 倍,并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案,加快上市速度。您可以使用 P5 和 P5e 实例来训练和部署日益复杂的大型语言模型(LLM)和扩散模型,为要求最苛刻的生成式人工智能(AI)应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和财务建模领域大规模部署要求苛刻的 HPC 应用程序。

为了实现这些性能改进和成本节约,与上一代基于 GPU 的实例相比,P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。这些实例为分布式训练和紧密耦合的 HPC 工作负载提供市场领先的横向扩展功能,使用第二代 Elastic Fabric Adapter(EFAv2)技术实现了高达 3200 Gbps 的网络连接。为了以低延迟提供大规模计算,Amazon EC2 UltraClusters 中部署了 P5 和 P5e 实例,可以纵向扩展到 20000 个 H100 或 H200 GPU。这些实例通过 PB 级的非阻塞网络互连。EC2 UltraClusters 中的 P5 和 P5e 实例可提供高达每秒 20 百万兆级的聚合计算能力,性能相当于一台超级计算机。

Amazon EC2 P5 实例(1:24)

立即保留 P5 实例以备将来使用

使用适用于机器学习的 Amazon EC2 容量块,可以提前八周轻松预留 P5 或 P5e 实例。您可以将这些实例容量预留 1 到 14 天,集群大小为 1 到 64 个实例(512 个 GPU),让您能够灵活地运行各种工作负载。

优势

大规模训练 100B+ 参数模型


P5 和 P5e 实例可以大规模训练超大型生成式人工智能模型,并提供比上一代基于 GPU 的 EC2 实例高出 4 倍的性能。

缩短制定解决方案的时间,加快迭代速度


P5 和 P5e 实例将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您以更快的速度进行迭代,加快上市速度。

降低您的 DL 和 HPC 基础设施成本


与上一代基于 GPU 的 EC2 实例相比,P5 和 P5e 实例在 DL 训练和 HPC 基础设施成本上最高节省了 40%。

以百万兆级计算运行分布式训练和 HPC

P5 和 P5e 实例提供高达 3200 Gbps 的 EFAv2 网络连接。这些实例部署在 EC2 UltraClusters 中,提供每秒 20 百万兆级的聚合计算能力。

功能

NVIDIA H100 和 H200 Tensor Core GPU

P5 实例提供多达 8 个 NVIDIA H100 GPU,每个实例总共提供高达 640GB 的 HBM3 GPU 内存。P5e 实例提供多达 8 个 NVIDIA H200 GPU,每个实例总共提供高达 1128GB 的 HBM3e GPU 内存。两种实例均支持高达 900 GB/s 的 NVSwitch GPU 互连(每个实例中总共为 3.6TB/s 的二分段带宽),因此每个 GPU 可以在单跳延迟的情况下与同一个实例中的每个 GPU 通信。

新的转换器引擎和 DPX 指令

NVIDIA H100 和 H200 GPU 采用了新的转换器引擎,可以智能方式管理并以动态方式选择 FP8 和 16 位计算。与上一代 A100 GPU 相比,此功能有助于在 LLM 上提供更快的 DL 训练加速。对于 HPC 工作负载,与 A100 GPU 相比,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,可以进一步加速动态编程算法。

高性能网络

P5 和 P5e 实例可提供高达 3200 Gbps 的 EFAv2 网络连接。EFAv2 可将分布式训练工作负载的集体通信性能提高多达 50%。EFAv2 还结合 NVIDIA GPUDirect RDMA 以在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

高性能存储

P5 和 P5e 实例支持适用于 Lustre 的 Amazon FSx 文件系统,因此您可以以大规模 DL 和 HPC 工作负载所需的数百 GB/s 吞吐量和数百万 IOPS 访问数据。每个 P5 和 P5e 实例还支持高达 30 TB 的本地 NVMe SSD 存储,以对大型数据集进行快速访问。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。

第二代 EC2 UltraClusters

P5 实例部署在第二代 EC2 UltraClusters 中,与上一代 UltraClusters 相比,第二代 EC2 UltraClusters 提供的网络结构可跨集群实现更大的规模、更少的网络跃点数,并达到更低的延迟。UltraClusters 中的 P5 实例可纵向扩展到 20000 个 H100 GPU,与 PB 级网络互连,并提供每秒 20 百万兆级的聚合计算能力。

与其他 AWS 服务无缝集成

可以使用 AWS Deep Learning AMIs(DLAMI)和 AWS Deep Learning Containers 部署 P5 和 P5e 实例。它们可以通过 Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS Batch 等托管服务获得。

客户案例

Anthropic 构建了可靠、可解释和可操纵的 AI 系统,这些系统将有许多机会创造商业价值并让公众受益。

“在 Anthropic,我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处,但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题,并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些先进模型,我们需要将它们高效地分布在大型 GPU 集群中。目前,我们正在广泛使用 Amazon EC2 P4 实例,我们对 P5 实例的推出感到振奋。我们期望,与 P4d 实例相比,它们能够提供可观的性价比优势,并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。”

Tom Brown,Anthropic 联合创始人

注册 AWS 账户

Cohere 是语言人工智能领域的领先先驱,它使每位开发人员和每个企业都能使用世界领先的自然语言处理(NLP)技术构建令人惊叹的产品,同时保持数据的私密性和安全性

“Cohere 在帮助所有企业利用语言人工智能的力量以自然和直观的方式探索、生成、搜索和处理信息方面处于领先地位,并在最适合每个客户的数据环境中跨多个云平台引领部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将利用其计算能力与 Cohere 最先进的 LLM 和生成式人工智能能力相结合,挖掘企业更快地创建、发展和扩展的能力。”

Aidan Gomez,Cohere 首席执行官

注册 AWS 账户

Hugging Face 的使命是让出色的 ML 大众化。

“作为 ML 领域发展最快的开源社区,我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步,我们正在与 AWS 合作,为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker 在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例,以加快交付适合所有人的新基础人工智能模型。”

Julien Chaumond,Hugging Face 首席技术官兼联合创始人

产品详细信息

实例大小 vCPU 实例内存(TiB) GPU   GPU 内存 网络带宽(Gbps) GPUDirect RDMA GPU 对等 实例存储(TB) EBS 带宽(Gbps)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 80
p5e.48xlarge 192 2 8 H200 1128GB
HBM3e
3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 80

机器学习应用场景入门

使用 SageMaker

SageMaker 是一种完全托管的服务,用于构建、训练和部署 ML 模型。将其与 P5 实例配合使用,您可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道的问题。

使用 DLAMI 或 Deep Learning Containers

DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义机器学习环境的部署。

使用 Amazon EKS 或 Amazon ECS

如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKSAmazon ECS 部署 P5 实例。

HPC 应用场景入门

P5 实例是一个非常适合运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P5 实例支持 EFAv2,令使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。

了解更多 »

开始使用 AWS

注册 AWS 账户

注册 AWS 账户

立即享受 AWS Free Tier

通过简单教程进行学习

通过 10 分钟教程进行学习

通过简单教程进行探讨和学习。

开始在控制台中使用 EC2 构建

开始在控制台中构建

按照可帮助您启动 AWS 项目的分步指南开始构建。