Instances Amazon EC2 P5

Instances basées sur les GPU les plus performantes pour les applications de deep learning et de HPC

Pourquoi choisir les instances Amazon EC2 P5 ?

Les instances Amazon Elastic Compute Cloud (Amazon EC2) P5, optimisées par les GPU NVIDIA H100 Tensor Core, et les instances P5e, optimisées par les GPU NVIDIA H200 Tensor Core, offrent les meilleures performances dans Amazon EC2 pour les applications de deep learning (DL) et de calcul haute performance (HPC). Elles vous permettent d’accélérer votre temps de solution jusqu’à 4 fois par rapport aux instances EC2 basées sur le GPU de la génération précédente, et de réduire le coût d’entraînement des modèles ML jusqu’à 40 %. Ces instances vous permettent d’itérer vos solutions plus rapidement et de les commercialiser plus rapidement. Vous pouvez utiliser les instances P5 et P5e pour l’entraînement et le déploiement des grands modèles de langage (LLM) et modèles de diffusion de plus en plus complexes qui sous-tendent les applications d’intelligence artificielle (IA) générative les plus exigeantes. Ces applications incluent la réponse aux questions, la génération de code, la génération de vidéos et d’images et la reconnaissance vocale. Ces instances vous permettent également de déployer à grande échelle des applications HPC complexes dans les domaines de la découverte pharmaceutique, de l’analyse sismique, des prévisions météorologiques et de la modélisation financière.

Pour améliorer les performances et réduire les coûts, les instances P5 et P5e complètent des GPU NVIDIA H100 et H200 Tensor Core avec des performances de processeur deux fois supérieures, une mémoire système deux fois plus élevée et un stockage local quatre fois plus élevé que les instances basées sur des GPU de génération précédente. Leurs capacités de montée en puissance de pointe sont adaptées à l’entraînement distribué et aux charges de travail HPC étroitement couplées, à travers des performances réseau pouvant atteindre 3 200 Gbit/s grâce à la technologie Elastic Fabric Adapter (EFAv2) de deuxième génération. Pour fournir des calculs à grande échelle avec une faible latence, des instances P5 et P5e sont déployées dans Amazon EC2 UltraClusters, permettant de faire évoluer jusqu’à 20 000 GPU H100 ou H200. Ils sont interconnectés avec un réseau non bloquant à l’échelle du pétabit. Les instances P5 et P5e d’EC2 UltraClusters peuvent fournir jusqu’à 20 exaflops de capacité de calcul globale, soit des performances équivalentes à celles d’un superordinateur.

Instances Amazon EC2 P5

Avantages

Les instances P5 et P5e peuvent entraîner des modèles d’IA générative ultra-larges à grande échelle et offrent des performances jusqu’à 4 fois supérieures à celles des instances EC2 basées sur le GPU de la génération précédente.

Les instances P5 et P5e réduisent les temps d’entraînement et de résolution de plusieurs semaines à quelques jours seulement. Cela vous permet d’itérer à un rythme plus rapide et d’accéder au marché plus rapidement.

Les instances P5 et P5e permettent de réaliser jusqu’à 40 % d’économies sur les coûts d’entraînement DL et d’infrastructure HPC par rapport aux instances EC2 basées sur des GPU de génération précédente.

Les instances P5 et P5e fournissent jusqu’à 3 200 Gbit/s de bande passante du réseau EFAv2. Ces instances sont déployées dans EC2 UltraClusters et fournissent 20 exaflops de capacité de calcul agrégée.

Caractéristiques

Les instances P5 fournissent jusqu’à 8 GPU NVIDIA H100 avec un total de 640 Go de mémoire GPU HBM3 par instance. Les instances P5e fournissent jusqu’à 8 GPU NVIDIA H200 avec un total de 1128 Go de mémoire GPU HBM3e par instance. Les deux instances prennent en charge jusqu’à 900 Go/s d’interconnexion GPU NVSwitch (un total de 3,6 To/s de bande passante bisectionnelle dans chaque instance), de sorte que chaque GPU peut communiquer avec tous les autres GPU de la même instance avec une latence à saut unique.

Les GPU NVIDIA H100 et H200 sont dotés d’un nouveau moteur de transformation qui gère intelligemment et choisit dynamiquement entre les calculs FP8 et 16 bits. Cette fonctionnalité permet d’accélérer l’entraînement DL sur les LLM par rapport aux GPU A100 de génération précédente. Pour les charges de travail HPC, les GPU NVIDIA H100 et H200 disposent de nouvelles instructions DPX qui accélèrent davantage les algorithmes de programmation dynamique par rapport aux GPU A100.

Les instances P5 et P5e fournissent jusqu’à 3 200 Gbit/s de bande passante du réseau EFAv2. L’EFAv2 améliore jusqu’à 50 % les performances des communications collectives pour les charges de travail d’entraînement distribué. L’EFAv2 est également couplé à NVIDIA GPUDirect RDMA pour permettre une communication GPU à GPU à faible latence entre les serveurs avec contournement du système d'exploitation.

Les instances P5 et P5e prennent en charge les systèmes de fichiers Amazon FSx pour Lustre pour que vous puissiez accéder aux données avec un débit de plusieurs centaines de Go/s et des millions d’IOPS requis pour les charges de travail DL et HPC à grande échelle. Chaque instance P5 et P5e prend également en charge jusqu’à 30 To de stockage SSD NVMe local pour un accès rapide à de grands jeux de données. Vous pouvez également utiliser un stockage rentable pratiquement illimité avec Amazon Simple Storage Service (Amazon S3).

Témoignages de clients

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciaux grâce aux instances Amazon EC2 P4.

  • Anthropic

    Anthropic construit des systèmes d'IA fiables, interprétables et orientables qui offriront de nombreuses opportunités de créer de la valeur commerciale et dans l'intérêt public.

    Chez Anthropic, nous nous efforçons de créer des systèmes d'IA fiables, interprétables et orientables. Bien que les grands systèmes généraux d'IA d'aujourd'hui puissent présenter des avantages importants, ils peuvent également être imprévisibles, peu fiables et opaques. Notre objectif est de progresser sur ces questions et de déployer des systèmes que les gens trouvent utiles. Notre entreprise est l'une des rares au monde à élaborer des modèles fondamentaux dans le domaine de la recherche sur le DL. Ces modèles sont très complexes, et pour développer et entraîner ces modèles de pointe, nous devons les distribuer efficacement sur de grands clusters de GPU. Nous utilisons largement les instances Amazon EC2 P4 aujourd'hui, et nous sommes enthousiastes à l'idée de lancer des instances P5. Nous nous attendons à ce qu'elles offrent des avantages substantiels en termes de rapport prix/performances par rapport aux instances P4d, et elles seront disponibles à l'échelle massive requise pour créer des LLM de nouvelle génération et des produits connexes.

    Tom Brown, cofondateur d'Anthropic
  • Cohere

    Cohere, l'un des principaux pionniers de l'IA linguistique, permet à chaque développeur et à chaque entreprise de créer des produits incroyables grâce à une technologie de traitement du langage naturel (NLP) de pointe tout en préservant la confidentialité et la sécurité de leurs données.

    Cohere joue un rôle de premier plan en aidant chaque entreprise à exploiter la puissance de l'IA linguistique pour explorer, générer, rechercher et exploiter des informations de manière naturelle et intuitive, en la déployant sur de multiples plateformes cloud dans l'environnement de données le mieux adapté à chaque client. Les instances Amazon EC2 P5 alimentées par NVIDIA H100 permettront aux entreprises de créer, de croître et d'évoluer plus rapidement grâce à leur puissance de calcul combinée aux capacités de pointe de Cohere en matière de LLM et d'IA générative.

    Aidan Gomez, PDG de Cohere
  • Hugging Face

    Hugging Face a pour mission de démocratiser le bon ML.

    En tant que communauté open source pour le ML qui connaît la croissance la plus rapide, nous proposons désormais plus de 150 000 modèles pré-entraînés et 25 000 jeux de données sur notre plateforme pour la PNL, la vision par ordinateur, la biologie, l'apprentissage par renforcement, etc. Grâce aux avancées significatives en matière de LLM et d'IA générative, nous travaillons avec AWS pour créer et contribuer aux modèles open source de demain. Nous sommes impatients d'utiliser les instances Amazon EC2 P5 via Amazon SageMaker à grande échelle dans UltraClusters avec EFA afin d'accélérer la mise à disposition de nouveaux modèles d'IA de base pour tous.

    Julien Chaumond, directeur technique et cofondateur de Hugging Face

Informations sur le produit

Taille de l'instance Processeurs virtuels Mémoire d’instance (Tio) GPU   Mémoire de GPU Bande passante du réseau (Gbit/s) GPUDirect RDMA Pair à pair GPU Storage d'instance (To) Bande passante EBS (Gbit/s)
p5.48xlarge 192 2 8 H100 640 Go
HBM3
EFA à 3200 Gbit/s Oui NVSwitch 900 Go/s 8 x 3.84 (SSD NVMe) 80
p5e.48xlarge 192 2 8 H200 1128 Go
HBM3e
EFA à 3200 Gbit/s Oui NVSwitch 900 Go/s 8 x 3.84 (SSD NVMe) 80

Premiers pas avec les cas d’utilisation du ML

SageMaker est un service entièrement géré pour créer, entraîner et déployer des modèles de ML. Lorsque ces derniers sont utilisés avec les instances P5, vous pouvez facilement mettre à l'échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n'importe quelle échelle sans se soucier de la mise en place de clusters et de pipelines de données.

DLAMI fournit aux praticiens et chercheurs en ML l’infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n’importe quelle échelle. Les Deep Learning Containers sont des images Docker comportant des cadres de DL préinstallés qui rationalisent le déploiement d’environnements de ML personnalisés en vous permettant d’éliminer les tâches complexes de création et d’optimisation de vos environnements de A à Z.

Si vous préférez gérer vos propres charges de travail conteneurisées via des services d’orchestration de conteneurs, vous pouvez déployer des instances P5 avec Amazon EKS ou Amazon ECS.

Premiers pas avec les cas d’utilisation du HPC

Les instances P5 sont une plateforme idéale pour exécuter des simulations d’ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d’autres charges de travail HPC basées sur des GPU. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les instances P5 sont compatibles avec EFAv2 qui permet aux applications HPC utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS Batch et AWS ParallelCluster aident les développeurs HPC à créer et mettre à l'échelle rapidement des applications HPC distribuées.

En savoir plus