AWS Trainium

以较低的成本获得深度学习和生成式人工智能训练所需的高性能

为什么选择 Trainium?

AWS Trainium 是 AWS 专门为超过 1,000 亿个参数模型的深度学习训练打造的机器学习 (ML) 芯片。每个 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 实例部署多达 16 个 Trainium 加速器,为云中的深度学习培训提供高性能、低成本的解决方案。尽管深度学习和生成式人工智能的使用正在加速,但许多开发团队的预算是固定的,这限制了改进模型和应用程序所需的训练范围和频率。基于 Trainium 的 Amazon EC2 Trn1 实例通过提供更快的训练时间解决了这一挑战,同时与同类 Amazon EC2 实例相比,可节省高达 50% 的训练成本。Trainium 已针对训练自然语言处理、计算机视觉和推荐器模型进行了优化,这些模型用于文本摘要、代码生成、问题解答、图像和视频生成、推荐和欺诈检测等各种应用程序。

AWS Neuron SDK 可以帮助开发人员在 Trainium 加速器上训练模型,并且可以在 AWS Inferentia 加速器上训练它们。它与 PyTorch 和 TensorFlow 等热门框架原生集成,让您可以继续在 Trainium 加速器上训练,并且使用现有的代码和工作流。

Trainium 的优势

由 Trainium 驱动的 Trn1 实例可提供高性能,同时与其他同类 Amazon EC2 实例相比,可节省高达 50% 的训练成本。每个 Trainium 加速器都包含两个专为深度学习(DL)算法而构建的第二代 NeuronCore。为了支持高效的数据和模型并行,每个 Trainium 加速器具有 32GB 的高带宽内存,提供高达 190 TFLOPS 的 FP16/BF16 计算能力,并采用 NeuronLink,这是一种实例内、超高速非阻塞互连技术。

支持 Trainium 的 AWS Neuron SDK 与 PyTorch 和 TensorFlow 原生集成。这确保您可以继续在这些热门的框架中使用现有的工作流程,并且只需更改几行代码即可开始使用 Trainium。对于分布式模型训练,Neuron SDK 支持诸如 Megatron-LM 和 PyTorch 全分片数据并行(FSDP)等库。要快速开始使用基于 Trainium 的 Amazon EC2 Trn1 实例,请参阅 Neuron 文档中的热门模型示例。

为了在实现精度目标的同时提供高性能,Trainium 实例针对 FP32、TF32、BF16、FP16、UINT8 和新的可配置 FP8(cFP8)数据类型进行了优化。
为了支持快速发展的深度学习创新和生成式人工智能,Trainium 采用了多项创新,使其灵活且可扩展,可以训练不断演变的深度学习模型。Trainium 具有针对动态输入形状的硬件优化和软件支持。为了在将来支持新的运算符,它支持用 C++ 编写的自定义运算符。它还支持随机舍入,这是一种概率舍入方式,与传统舍入模式相比可实现高性能和更高的精度。
由 Trainium 提供支持的 Trn1 实例在深度学习(DL)训练方面的能效比同类加速计算 EC2 实例高出 25%。Trn1 实例可帮助您在训练超大型模型时实现可持续发展目标。

视频

探秘 Amazon 的生成式人工智能基础设施
使用 AWS Trainium 加速推进深度学习并加快创新速度
介绍由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例