Amazon EC2 P4 インスタンス

クラウドでの機械学習トレーニングと HPC アプリケーションの最高のパフォーマンス

Amazon EC2 P4 インスタンスを使用すべき理由

Amazon Elastic Compute Cloud (Amazon EC2) P4d インスタンスは、クラウドでの機械学習 (ML) トレーニングとハイパフォーマンスコンピューティング (HPC) アプリケーションのために最高のパフォーマンスを実現します。P4d インスタンスは最新の NVIDIA A100 Tensor Core GPU を搭載しており、業界トップクラスの高スループットかつ低レイテンシーのネットワークを実現します。これらのインスタンスは 400 Gbps のインスタンスネットワーキングをサポートします。P4d インスタンスは、機械学習モデルのトレーニングのコストを最大 60% 削減します。また、前世代の P3 および P3dn インスタンスと比較して深層学習モデルのパフォーマンスが平均 2.5 倍向上します。

Amazon EC2 P4d インスタンスは、クラウドで最高のパフォーマンスのコンピューティング、ネットワーキング、ストレージで構成される EC2 UltraClusters と呼ばれるハイパースケールクラスターにデプロイされます。各 EC2 UltraCluster は、世界で最も強力なスーパーコンピューターの 1 つです。これにより、お客様は最も複雑なマルチノード機械学習トレーニングと分散型 HPC ワークロードを実行できます。お客様は、機械学習または HPC プロジェクトのニーズに基づいて、EC2 UltraClusters で数個から数千個の NVIDIA A100 GPU に簡単にスケールできます。

研究者、データサイエンティスト、開発者は P4d インスタンスを使用して、自然言語処理、オブジェクトの検出と分類、レコメンデーションエンジンなどのユースケース向けに ML モデルをトレーニングできます。また、創薬、耐震分析、財務モデリングなどの HPC アプリケーションの実行にも使用できます。オンプレミスシステムとは異なり、お客様は、セットアップやメンテナンスに費用をかけずに、実質的に無制限のコンピューティングおよびストレージ容量にアクセスし、ビジネスニーズに基づいてインフラストラクチャをスケールし、マルチノード機械学習トレーニングジョブまたは緊密に結合された分散型 HPC アプリケーションを数分で起動できます。

新しい Amazon EC2 P4d インスタンスの発表

利点

最新世代の NVIDIA A100 Tensor Core GPU を使用すると、各 Amazon EC2 P4d インスタンスは、前世代の P3 インスタンスと比較して平均 2.5 倍優れた深層学習パフォーマンスを実現します。P4d インスタンスの EC2 UltraClusters により、デベロッパー、データサイエンティスト、研究者は、初期費用や長期的なコミットメントなしでスーパーコンピューティングクラスのパフォーマンスを日常的に利用して、最も複雑な機械学習および HPC ワークロードを実行できます。P4d インスタンスによるトレーニング時間の短縮により生産性が向上し、デベロッパーは機械学習インテリジェンスをビジネスアプリケーションに組み込むというコアミッションに集中できます。

デベロッパーは、P4d インスタンスの EC2 UltraClusters を使用して、最大数千の GPU にシームレスに拡張できます。400 Gbps インスタンスネットワーキング、Elastic Fabric Adapter (EFA)、および GPUDirect RDMA テクノロジーをサポートする高スループット、低レイテンシーのネットワーキングは、スケールアウト/分散技術を使用して機械学習モデルを迅速にトレーニングするのに役立ちます。Elastic Fabric Adapter (EFA) は、NVIDIA Collective Communications Library (NCCL) を使用して数千の GPU に拡張し、GPUDirect RDMA テクノロジーにより、P4d インスタンス間の低レイテンシー GPU 間通信が可能になります。

Amazon EC2 P4d インスタンスは、P3 インスタンスと比較して機械学習モデルのトレーニングコストを最大 60% 削減します。さらに、P4d インスタンスはスポットインスタンスとして購入できます。スポットインスタンスは、未使用の EC2 インスタンスの容量を活用することで、Amazon EC2 のコストをオンデマンド料金の最大 90% まで節約できます。P4d インスタンスでの機械学習トレーニングのコストが低いため、予算を再割り当てして、より多くの機械学習インテリジェンスをビジネスアプリケーションに組み込むことができます。

AWS Deep Learning AMI (DLAMI)と Deep Learning コンテナには、必要な深層学習フレームワークライブラリとツールが含まれているため、P4d 深層学習環境を数分で簡単にデプロイできます。画像に独自のライブラリやツールを簡単に追加することもできます。P4d インスタンスは、TensorFlow、PyTorch、MXNet などの一般的な機械学習フレームワークをサポートしています。さらに、P4d インスタンスは、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch、AWS ParallelCluster など、機械学習、管理、オーケストレーション向けの主要な AWS のサービスでサポートされています。

特徴

NVIDIA A100 Tensor Core GPU は、機械学習およびハイパフォーマンスコンピューティング (HPC) 向けの高速化を前例のない規模で実現しています。NVIDIA A100 の第 3 世代 Tensor Core は、あらゆる精密ワークロードを加速し、インサイトを取得するまでの時間と市場投入までの時間を短縮します。各 A100 GPU は、前世代の V100 GPU と比較して 2.5 倍を超えるコンピューティングパフォーマンスを実現し、40GB HBM2 (P4d インスタンス) または 80GB HBM2e (P4de インスタンス) の高性能 GPU メモリを搭載しています。より高い GPU メモリは、高解像度の大規模なデータセットでトレーニングするワークロードに特に利点があります。NVIDIA A100 GPU は、NVSwitch GPU 相互接続スループットを活用するため、各 GPU は、同じ 600GB/秒の双方向スループットとシングルホップレイテンシーで同じインスタンス内の他のすべての GPU と通信できます。

P4d インスタンスは 400 Gbps ネットワーキングを提供し、P4d インスタンス間、および P4d インスタンスと Amazon Simple Storage Service (Amazon S3) や FSx for Lustre などのストレージサービス間のハイスループットネットワーキングにより、マルチノードトレーニングなどの分散型ワークロードをより効率的にスケールアウトできるようにします。Elastic Fabric Adapter (EFA) は、AWS が設計したカスタムネットワークインターフェイスであり、機械学習および HPC アプリケーションを数千の GPU に拡張するのに役立ちます。レイテンシーをさらに削減するために、EFA は NVIDIA GPUDirect RDMA と組み合わせて、OS バイパスを使用してサーバー間の低レイテンシーの GPU 間通信を可能にします。

お客様は、FSx for Lustre による PetaByte スケールの高スループット、低レイテンシーのストレージ、または 400 Gbps の速度で Amazon S3 を使用した実質的に無制限の費用効果の高いストレージにアクセスできます。大規模なデータセットへの高速アクセスが必要なワークロードの場合、各 P4d インスタンスには、16 ギガバイト/秒の読み取りスループットを備えた 8 TB NVMe ベースの SSD ストレージも含まれています。

P4d インスタンスは AWS Nitro System 上で構築されています。これは構築ブロックを豊富に取り揃えており、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高いパフォーマンス、可用性、セキュリティを実現します。

お客様の声

お客様とパートナーが Amazon EC2 P4 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。

  • Toyota Research Institute (TRI)

    2015 年に設立されたトヨタ・リサーチ・インスティチュート (TRI) は、トヨタ向けの自動運転、ロボット工学、その他の知能増幅技術の開発に取り組んでいます。

    TRI では、誰もが自由に移動できる未来を築くために取り組んでいます。前世代の P3 インスタンスは、ML モデルのトレーニング時間を数日から数時間に短縮するのに役立ちました。追加の GPU メモリとより効率的なフロートフォーマットにより、機械学習チームはより複雑なモデルをさらに高速にトレーニングできるため、P4d インスタンスを利用するのを楽しみにしています。

    TRI インフラストラクチャエンジニアリング担当テクニカルリード、マイク・ギャリソン
  • TRI-AD

    TRI-AD では、アダプティブドライビングとスマートシティを利用して、車両の負傷者と死亡者を減らすことに重点を置き、誰もが自由に移動して探索できる未来を築くために取り組んでいます。Amazon EC2 P4d インスタンスを使用することで、既存のコードを変更することなく、オブジェクト認識のトレーニング時間を前世代の GPU インスタンスと比較して 40% 短縮できました。

    TRI-AD 自動運転 (認識) 担当ディレクター稲田純也氏
  • TRI-AD

    Amazon EC2 P4d インスタンスを使用することで、前世代の GPU インスタンスと比較してトレーニングのコストを即座に削減でき、モデルトレーニングに取り組むチームの数を増やすことができました。P4d のネットワークの改善により、数十のインスタンスに効率的にスケールできるようになりました。これにより、俊敏性が大幅に向上し、テストカーやシミュレーション環境でモデルを迅速に最適化、再トレーニング、デプロイして、さらなるテストを実施できるようになりました。

    TRI-AD インフラストラクチャエンジニアリング担当シニアディレクター、ジャック・ヤン氏
  • GE Healthcare

    GE Healthcare は、世界をリードする医療技術およびデジタルソリューションの革新者です。GE Healthcare により、臨床医は、Edison インテリジェンスプラットフォームでサポートされているインテリジェントデバイス、データ分析、アプリケーション、およびサービスを利用して、より迅速で情報に基づいた意思決定を行うことができます。

    GE Healthcare では、データを集約し、AI と分析をそのデータに適用して、患者の転帰を改善し、効率を高め、エラーをなくすインサイトを発見するのに役立つツールを臨床医に提供しています。「当社の医用画像装置は大量のデータを生成し、データサイエンティストによる処理が必要です。以前の GPU クラスターでは、Progressive GAN などの複雑な AI モデルをシミュレーション用にトレーニングし、結果を確認するのに数日かかりました。新しい P4d インスタンスを使用すると、処理時間が数日から数時間に短縮されました。さまざまな画像サイズを使用したモデルのトレーニングが 2〜3 倍高速になり、バッチサイズが大きくなってパフォーマンスが改善され、モデル開発サイクルのスピードが上がって生産性が高まりました。

    カーリー・ヨーダー、GM ヘルスケア人工知能担当副社長兼ゼネラルマネージャー
  • HEAVY.AI

    HEAVY.AI は、高速分析のパイオニアです。HEAVY.AI プラットフォームは、主流の分析ツールの限界を超えてデータのインサイトを見つけるために、企業や政府で利用されています。

    HEAVY.AI では、データサイエンスと分析が交わり、データサイロを解体して融合する未来を築くために取り組んでいます。顧客は、場所や時間を含む膨大な量のデータを活用して、何が起こっているのかだけでなく、時空間データの詳細な視覚化を通じて、いつ、どこで起こっているのかを完全に把握できます。私たちの技術は森と木の両方を見ることを可能にします。「Amazon EC2 P4d インスタンスを使用することで、前世代の GPU インスタンスと比較して、プラットフォームをデプロイするためのコストを大幅に削減できたため、大規模なデータセットをコスト効率よくスケーリングできました。A100 のネットワークの改善により、数十億行のデータにスケールする方法の効率が高まり、お客様はインサイトをさらに迅速に収集できるようになりました。

    レイ・ファルシオーネ、米国公共部門担当副社長、HEAVY.AI
  • Zenotech Ltd.

    Zenotech Ltd は、HPC クラウドを使用してエンジニアリングをオンラインで再定義し、GPU を活用することで、オンデマンドのライセンスモデルを実現し、パフォーマンスを大幅に向上させています。

    Zenotech では、設計者がより効率的で環境に優しい製品を作成できるようにするツールを開発しています。当社はさまざまな業界で働いており、当社のツールは大規模なシミュレーションを使用することで、より優れた製品パフォーマンスのインサイトを提供しています」と Zenotech のディレクターである Jamil Appa 氏は言います。「AWS P4d インスタンスを使用することで、前世代の GPU と比較して 3.5 倍高速にシミュレーションを実行できます。このスピードアップにより、解決にかかる時間が大幅に短縮され、お客様は以前よりも早く設計を市場に投入したり、より忠実なシミュレーションを実行したりできるようになります。

    Zenotech、Director 兼共同創業者、Jamil Appa 氏
  • Aon

    Aon は、幅広いリスク、退職、健康ソリューションを提供する世界有数の専門サービス会社です。Aon PathWise は、GPU ベースのスケーラブルな HPC リスク管理ソリューションです。保険会社と再保険会社、銀行、年金基金はこのソリューションを利用して、ヘッジ戦略のテスト、規制と経済の予測、予算編成などの今日直面している主要な課題に対処できます。 

    PathWise Solutions Group LLC の製品により、保険会社、再保険会社、年金基金は次世代テクノロジーにアクセスして、機械学習、ヘッジ戦略テスト、規制および財務報告、事業計画、経済予測、新製品の開発、料金設定など、今日直面している主要な保険の課題を迅速に解決できます。「Amazon EC2 P4d インスタンスを使用することで、前世代の GPU インスタンスと比較して、最も要求の厳しい計算において単精度および倍精度の計算速度が驚くほど向上しました。これにより、クライアントは新しい範囲の計算と予測を初めて実行できるようになりました。スピードが重要です。AWS からの新しいインスタンスのおかげで、当社はお客様に有意義な価値と最新のテクノロジーを提供し続けています。

    Aon Pathwise Strategy and Technology Group、Global Head of Life Solutions、Van Beach 氏
  • Rad AI

    放射線科と AI 専門家で構成される Rad AI は、放射線科医の生産性を最大化する製品を構築することで、最終的に医療をより広く利用可能にし、患者の転帰を改善しています。 詳細については、導入事例をお読みください

    Rad AI のミッションは、すべての人のために、医療へのアクセスと質を高めることです。医用画像ワークフローに重点を置くことで、Rad AI は放射線科医の時間を節約し、疲弊を減らし、精度を高めています」と Rad AI の共同創設者である Doktor Gurson 氏は述べています。「当社は、AI を使用して放射線医療のワークフローを自動化し、放射線医療に関するレポートの合理化を支援しています。新しい EC2 P4d インスタンスでは、前世代の P3 インスタンスよりも高い精度で、推論が高速になり、モデルを 2.4 倍高速にトレーニングできるようになりました。これにより、より速く、より正確な診断が可能になり、米国全土のお客様が提供する質の高い放射線サービスが利用しやすくなります。

    Rad AI、共同創業者、Doktor Gurson 氏

製品の詳細

インスタンスサイズ vCPU インスタンスメモリ (GiB) GPU – A100 GPU メモリ ネットワーク帯域幅 (Gbps) GPUDirect RDMA GPU ピアツーピア インスタンスストレージ (GB) EBS 帯域幅 (Gbps) オンデマンド料金/時間 1 年間のリザーブドインスタンスの実質的時間単価 * 3 年間のリザーブドインスタンスの実質的時間単価 *
p4d.24xlarge 96 1152 8 320 GB
HBM2
400 ENA および EFA はい 600GB/秒 NVSwitch 8 × 1000 NVMe SSD 19 32.77 USD 19.22 USD 11.57 USD
p4de.24xlarge (プレビュー) 96 1152 8 640 GB
HBM2e
400 ENA および EFA はい 600GB/秒 NVSwitch 8 × 1000 NVMe SSD 19 40.96 USD 24.01 USD 14.46 USD
* – 提示されている料金は、米国東部 (バージニア北部) AWS リージョン内で使用される Linux/Unix に対する料金で、1 セント未満は四捨五入しています。すべての価格詳細を確認するには、 Amazon EC2 料金ページを参照してください。

P4d インスタンスは、AWS の米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ、東京)、欧州 (フランクフルト、アイルランド) の各リージョンでご利用いただけるようになりました。P4de インスタンスが、AWS 米国東部 (バージニア北部) および米国西部 (オレゴン) リージョンでご利用いただけるようになりました。

P4d インスタンスおよび P4de インスタンスは、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンス、専有ホスト、または Savings Plan の一部としてご購入いただけます。

ML 用 P4d インスタンス入門

Amazon SageMaker は、ML モデルを構築、トレーニング、デプロイするフルマネージドサービスです。Amazon EC2 P4d インスタンスと一緒に使用することで、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。クラスターやデータパイプラインを設定する必要はありません。

DLAMI は、その規模を問わず、クラウドで DL を加速するためのインフラストラクチャとツールを ML の実践者と研究者に提供します。 AWS 深層学習コンテナは、DL フレームワークが事前インストールされた Docker イメージです。これを使用することで、環境の構築と最適化をゼロから行う面倒なプロセスをスキップして、カスタム ML 環境を迅速にデプロイするのがより容易になります。

コンテナオーケストレーションサービスを通じて独自のコンテナ化されたワークロードを管理したい場合は、Amazon EKS または Amazon ECSを使用して P4d インスタンスをデプロイできます。

HPC 用 P4d インスタンス入門

P4d インスタンスは、エンジニアリングシミュレーション、金融工学、地震分析、分子モデリング、ゲノミクス、レンダリングやその他の GPU ベースの HPC コンピューティングワークロードを実行するための理想的なプラットフォームです。HPC アプリケーションでは、通常、高いネットワークパフォーマンス、高速ストレージ、大容量メモリ、高いコンピューティング性能が必要になります。P4d インスタンスは EFA をサポートしています。これにより、Message Passing Interface (MPI) を使用する HPC アプリケーションを数千の GPU にスケールできます。AWS Batch と AWS ParallelCluster により、HPC デベロッパーは分散型 HPC アプリケーションを迅速に構築およびスケールできます。

詳細を確認する