Amazon EC2 UltraClusters

大规模运行 HPC 和 ML 应用程序

为什么选择 Amazon EC2 UltraClusters?

Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster 可以帮助您扩展到数千个 GPU 或专门构建的 ML 加速器(如 AWS Trainium),以按需访问超级计算机。它们通过简单的即用即付使用模式,使更多的机器学习 (ML)、生成式人工智能和高性能计算 (HPC) 开发人员能够获得超级计算级性能,无需任何设置或维护成本。Amazon EC2 P5 实例、Amazon EC2 P4d 实例和 Amazon EC2 Trn1 实例都部署在 Amazon EC2 UltraCluster 中。

EC2 UltraCluster 由数千个加速 EC2 实例组成,这些实例都位于给定的 AWS 可用区内,并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter (EFA) 网络进行互连。EC2 UltraCluster 还提供对适用于 Lustre 的 Amazon FSx 的访问,这是一种完全托管的共享存储,建立在最受欢迎的高性能并行文件系统上,可按需大规模快速处理海量数据集,延迟为亚毫秒。EC2 UltraCluster 为分布式 ML 训练和紧密耦合的 HPC 工作负载提供横向扩展功能。

Amazon EC2 P5 和 Trn1 实例使用第二代 EC2 UltraCluster 架构,该架构提供的网络架构可实现跨集群的更少跳数、更低延迟和更大规模。

优势

EC2 UltraCluster 可帮助您将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您更快地进行迭代,更快地将深度学习 (DL)、生成式人工智能和 HPC 应用程序推向市场。

P5 实例部署在具有多达 20,000 个 H100 GPU 的 EC2 UltraCluster 中,提供超过每秒 20 百万兆级浮点运算的聚合计算能力。同样,Trn1 实例可以扩展到 30,000 个 Trainium 加速器,而 P4 实例可以扩展到 10,000 个 A100 GPU,以按需提供百万兆级计算。

越来越多的 EC2 实例支持 EC2 UltraCluster,使您可以灵活地选择正确的计算选项,以最大限度地提高性能,同时控制工作负载的成本。

功能

高性能网络

EC2 UltraCluster 中部署的 EC2 实例与 EFA 网络互连,以提高分布式训练工作负载和紧密耦合的 HPC 工作负载的性能。P5 实例可提供高达 3,200 Gbps;Trn1 实例可提供高达 1,600 Gbps;P4d 实例可提供高达 400 Gbps 的 EFA 网络连接。EFA 还与 NVIDIA GPUDirect RDMA(P5、P4d)和 NeuronLink (Trn1) 相结合,实现了绕过操作系统的服务器之间的低延迟加速器到加速器通信。

高性能存储

EC2 UltraCluster 使用 FSx for Lustre,这是一种基于最流行的高性能并行文件系统构建的完全托管式共享存储。通过 FSx for Lustre,您可以按需快速大规模处理海量数据集,并提供亚毫秒级的延迟。FSx for Lustre 的低延迟和高吞吐量特性针对 EC2 UltraCluster 上的 DL、生成式人工智能和 HPC 工作负载进行了优化。FSx for Lustre 可为 EC2 UltraCluster 中的 GPU 和 ML 加速器持续提供数据,从而加速最苛刻的工作负载。这些工作负载包括大型语言模型(LLM)训练、生成式人工智能推理、DL、基因组学和金融风险建模。您还可以通过 Amazon Simple Storage Service (Amazon S3) 获得几乎无限且经济实惠的存储。

支持的实例

P5 实例由 NVIDIA H100 Tensor Core GPU 提供支持,在 Amazon EC2 中为 ML 训练和 HPC 应用程序提供最高的性能。

了解详情

P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持,可为 ML 训练和 HPC 应用程序提供高性能。

了解详情

Trn1 实例由 AWS Trainium 加速器提供支持,专为高性能机器学习训练而构建。与同类 EC2 实例相比,它们可节省高达 50% 的训练成本。

了解详情