Amazon EC2 UltraClusters

大规模运行 HPC 和 ML 应用程序

开始使用 P6-B200

开始使用 Trn2

为什么选择 Amazon EC2 UltraClusters？

Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster 可以帮助您扩展到数千个 GPU 或专门构建的 ML AI 芯片（如 AWS Trainium），以按需访问超级计算机。它们通过简单的即用即付使用模式，使更多的机器学习 (ML)、生成式人工智能和高性能计算 (HPC) 开发人员能够获得超级计算级性能，无需任何设置或维护成本。部署在 EC2 UltraClusters 中的 Amazon EC2 实例包括 P6-B200、P5en、P5e、P5、P4d、Trn2 和 Trn1 实例。

EC2 UltraCluster 由数千个加速 EC2 实例组成，这些实例都位于给定的 AWS 可用区内，并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter（EFA）网络进行互连。EC2 UltraCluster 还提供对适用于 Lustre 的 Amazon FSx 的访问，这是一种完全托管的共享存储，建立在最受欢迎的高性能并行文件系统上，可按需大规模快速处理海量数据集，延迟为亚毫秒。EC2 UltraCluster 为分布式 ML 训练和紧密耦合的 HPC 工作负载提供横向扩展功能。

优势

更快地为分布式训练和 HPC 制定解决方案

EC2 UltraCluster 可帮助您将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您更快地进行迭代，更快地将深度学习 (DL)、生成式人工智能和 HPC 应用程序推向市场。

按需访问百万兆级超级计算机

P5 实例部署在具有多达 20,000 个 H100 GPU 的 EC2 UltraCluster 中，提供超过每秒 20 百万兆级浮点运算的聚合计算能力。同样，Trn1 实例可以扩展到 30,000 个 Trainium 加速器，而 P4 实例可以扩展到 10,000 个 A100 GPU，以按需提供百万兆级计算。

灵活地优化性能和成本

越来越多的 EC2 实例支持 EC2 UltraCluster，使您可以灵活地选择正确的计算选项，以最大限度地提高性能，同时控制工作负载的成本。

功能

高性能网络

EC2 UltraCluster 中部署的 EC2 实例与 EFA 网络互连，以提高分布式训练工作负载和紧密耦合的 HPC 工作负载的性能。P6-B200 实例可提供高达每秒 3.2 TB 的 EFAv4 网络速度。Trn2 UltraServers 的 EFAv3 网络速度为每秒 12.8 TB。P5en、P5e、P5 和 Trn2 实例可提供高达 3200 Gbps 的网络带宽；Trn1 实例可提供高达 1600 Gbps 的网络带宽；P4d 实例可提供高达 400 Gbps 的 EFA 网络带宽。EFA 还与 NVIDIA GPUDirect 远程直接内存访问（RDMA）（P6-B200、P5en、P5e、P5、P4d）和 NeuronLink（Trn2、Trn1）相结合，实现了绕过操作系统的服务器之间的低延迟加速器到加速器通信。

高性能存储

EC2 UltraCluster 使用 FSx for Lustre，这是一种基于最流行的高性能并行文件系统构建的完全托管式共享存储。通过 FSx for Lustre，您可以按需快速大规模处理海量数据集，并提供亚毫秒级的延迟。FSx for Lustre 的低延迟和高吞吐量特性针对 EC2 UltraCluster 上的 DL、生成式人工智能和 HPC 工作负载进行了优化。FSx for Lustre 可为 EC2 UltraCluster 中的 GPU 和 ML 加速器持续提供数据，从而加速最苛刻的工作负载。这些工作负载包括大型语言模型（LLM）训练、生成式人工智能推理、DL、基因组学和金融风险建模。您还可以通过 Amazon Simple Storage Service (Amazon S3) 获得几乎无限且经济实惠的存储。