Amazon SageMaker HyperPod

数千の AI アクセラレーターで生成 AI モデル開発をスケールおよび加速する

SageMaker HyperPod とは?

Amazon SageMaker HyperPod は、生成 AI モデルの構築に伴う、差別化につながらない手間のかかる作業をなくします。数百または数千の AI アクセラレーターのクラスター全体で、トレーニング、ファインチューニング、推論などのモデル開発タスクを迅速にスケールするのに役立ちます。SageMaker HyperPod は、すべてのモデル開発タスクを一元的に管理できるようにします。これにより、さまざまなタスクの優先順位付け方法や各タスクへのコンピューティングリソースの割り当て方法に対する完全な可視性とコントロールが得られ、クラスターによる GPU および AWS Trainium の利用率を最大化し、イノベーションを加速するのに役立ちます。

SageMaker HyperPod を使用すると、すべてのアクセラレーター間でトレーニングワークロードを効率的に分散および並列化できます。SageMaker HyperPod は、最適なパフォーマンスを迅速に実現するのに役立つよう、公開されている人気のモデルのために最適なトレーニング設定を自動的に適用します。また、クラスターでインフラストラクチャ障害が発生していないかを継続的にモニタリングし、問題を自動的に修復して、人間の介入なしにワークロードを回復します。これらすべてにより、トレーニング時間を最大 40% 節約できます。

SageMaker ハイパーポッドのメリット

すべてのモデル開発タスクに対する一元的なガバナンスを使用してコストを削減する

SageMaker HyperPod タスクガバナンスイノベーションは、トレーニングや推論などの生成 AI モデル開発タスク全体におけるコンピューティングリソースの割り当てに対する完全な可視性とコントロールを提供します。SageMaker HyperPod はタスクキューを自動的に管理し、極めて重要なタスクが優先され、スケジュールどおりに、かつ、予算内で完了するようにするとともに、コンピューティングリソースをより効率的に使用してモデル開発コストを最大 40% 削減します。

レシピとツールを使用して最先端のパフォーマンスを実現する

SageMaker HyperPod のレシピを使用すると、あらゆるスキルセットのデータサイエンティストやデベロッパーは、最新のパフォーマンスの恩恵を受けながら、公開されている生成 AI モデルのトレーニングとファインチューニングを数分で開始できます。また、SageMaker HyperPod は、モデルのパフォーマンスを改善するのに役立つ、実験およびオブザーバビリティの組み込みツールも提供します。

何千もの AI アクセラレーターでモデルトレーニングを効率的にスケールおよび並列化する

SageMaker HyperPod を使用すると、トレーニングワークロードを効率的にスケールするのに役立つよう、モデルとトレーニングデータセットを AWS クラスターインスタンス間で自動的に分割できます。AWS ネットワークインフラストラクチャとクラスタートポロジ向けにトレーニングジョブを最適化するのに役立ちます。また、チェックポイントの保存頻度を最適化することでレシピを通じてモデルチェックポイントを合理化し、トレーニング中のオーバーヘッドが最小限に抑えられるようにします。