Amazon EC2 Trn1 实例

对生成式 AI 模型进行高性能、经济高效的训练

为什么选择 Amazon EC2 Trn1 实例?

Amazon Elastic Compute Cloud(EC2)Trn1 实例由 AWS Trainium 芯片提供支持,专为生成式人工智能模型[包括大型语言模型(LLM)和潜在扩散模型]的高性能深度学习(DL)训练而构建。与其他同类 Amazon EC2 实例相比,Trn1 实例可节省高达 50% 的训练成本。 您可以使用 Trn1 实例在广泛的应用程序中训练 100B 以上的参数 DL 和生成式人工智能模型,例如文本摘要、代码生成、问答、图像和视频生成、推荐和欺诈检测。

AWS Neuron SDK 可帮助开发人员在 AWS Trainium 上训练模型,以及在 AWS Inferentia 芯片上部署模型。它与 PyTorch 和 TensorFlow 等框架原生集成,让您可以继续使用现有的代码和工作流程在 Trn1 实例上训练模型。要了解当前 Neuron 对机器学习(ML)框架和库、模型架构和硬件优化的支持,请参阅 Neuron 文档

介绍由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例

优势

Trn1 实例专为高性能深度学习打造,可将训练时间从数月缩短到数周甚至数天。通过减少训练时间,您可以加快迭代速度、构建更多创新模型并提高生产力。 对于受益于网络带宽增加的模型,Trn1n 实例的训练速度比 Trn1 实例快多达 20%。

Trn1 实例提供高性能,同时与其他同类 Amazon EC2 实例相比,可节省高达 50% 的训练成本。

使用 AWS Neuron SDK 提取 Trn1 实例的全部性能。通过 Neuron,您可以使用 PyTorch 和 TensorFlow 等流行的机器学习框架,并继续使用现有代码和工作流程在 Trn1 实例上训练模型。要快速开始使用 Trn1 实例,请参阅 Neuron 文档中的热门模型示例

Trn1 实例支持高达 800 Gbps 的第二代 Elastic Fabric Adapter (EFAv2) 网络带宽。Trn1n 实例支持高达 1600 Gbps 的 EFAv2 网络带宽,为网络密集型模型提供更高的性能。这两种实例都部署在 EC2 UltraCluster 中,可扩展至多达 3 万个 Trainium 芯片,这些芯片与非阻塞 PB 级网络互连,提供 6 exaflops 的计算性能。

功能

Trn1 实例由多达 16 个 AWS Trainium 芯片提供支持,旨在加速深度学习训练,并可提供高达每秒 3 千万亿次浮点运算的 FP16/BF16 计算能力。每个芯片包括两个第二代 NeuronCore。

为了支持高效的数据和模型并行性,每个 Trn1 实例都有 512GB 的共享加速器内存 (HBM),总内存带宽为 9.8TB/s。

为了支持专家混合模型 (MoE) 和生成式预训练转换器 (GPT) 等网络密集型模型的训练,每个 Trn1n 实例均可提供高达 1600 Gbps 的 EFAv2 网络带宽。每个 Trn1 实例均可支持高达 800 Gbps 的 EFAv2 带宽。 与第一代 EFA 相比,EFAv2 可将集体通信性能提高多达 50%,从而加快分布式训练。这些实例还支持高达 80 Gbps 的 Amazon Elastic Block Store (EBS) 带宽和高达 8TB 的本地 NVMe 固态驱动器 (SSD) 存储,以实现对大型数据集的快速工作负载访问。

为了实现 Trainium 芯片之间的快速连接并简化集体通信,Trn1 实例支持高达 768Gb/s 的 NeuronLink,这是一种高速、无阻塞的互连。

为了在实现精度目标的同时提供高性能,Trn1 实例针对 FP32、TF32、BF16、FP16、UINT8 和新的可配置 FP8 (cFP8) 数据类型进行了优化。为了支持快节奏的深度学习创新和生成式 AI,Trn1 实例采用了多项创新,使其灵活且可扩展,可以训练不断演变的深度学习模型。Trn1 实例具有针对动态输入形状的硬件优化和软件支持。为了在将来支持新的运算符,该实例支持用 C++ 编写的自定义运算符。它们还支持随机舍入,这是一种概率舍入方式,与传统舍入模式相比可实现高性能和更高的精度。

客户和合作伙伴评价

以下是客户和合作伙伴如何利用 Amazon EC2 Trn1 实例实现业务目标的一些示例。

  • Databricks

    全球超过 10000 家组织(包括 Comcast、Condé Nast 以及超过 50% 的财富 500 强企业)依靠 Databricks 来统一其数据、分析和人工智能。

    成千上万的客户已经在 AWS 上实施了 Databricks,使他们能够使用 MosaicML 为各种用例预训练、微调和服务基础模型。AWS Trainium 为我们提供了训练 Mosaic MPT 模型所需的规模和高性能,并且成本低廉。当我们训练下一代 Mosaic MPT 模型时,Trainium2 将能够更快地构建模型,使我们能够为客户提供前所未有的规模和性能,进而使他们能够更快地将自己的生成式人工智能应用程序推向市场。

    Naveen Rao,Databricks 生成式人工智能副总裁
  • Stockmark Co., Ltd

    Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。

    借助由 AWS Trainium 芯片提供支持的 16 个 Amazon EC2 Trn1 实例节点,我们开发并发布了 stockmark-13b,这是一个具有 130 亿个参数的大型语言模型,在包含 2200 亿个令牌的日语语料库上从头开始进行了预训练。该语料库包含截至 2023 年 9 月的最新商业领域文本。与其他同等模型相比,该模型在 JGLUE(日语通用语言理解评估)基准上获得了最高的 JSQuAD 分数(0.813)。它可以在 Hugging Face Hub 上找到,并且可以在 MIT 许可下用于商业用途。与同等 GPU 实例相比,Trn1 实例帮助我们将训练成本降低了 20%。

    Kosuke Arima,Stockmark Co., Ltd. 首席技术官
  • RICOH

    RICOH 提供工作场所解决方案和数字化转型服务,旨在管理和优化企业间的信息流。

    迁移到 Trn1 实例非常简单。我们在短短 8 天内就完成了 13B 参数模型的训练。基于这一成功,我们期待在 Trainium 上开发并训练我们的 70B 参数模型,并对这些实例在更快、更具成本效益地训练我们的模型方面的潜力感到兴奋。

    Yoshiaki Umetsu,RICOH 数字技术开发中心主任
  • HeliXon

    在 HeliXon,我们为基于蛋白质的疗法构建了下一代 AI 解决方案。我们的目标是开发人工智能工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。今天,我们使用像 FSDP 这样的训练分发库在许多基于 GPU 的服务器上并行化模型训练,但这仍然需要我们花费数周时间来训练一个模型。我们很高兴能够利用 Amazon EC2 Trn1 实例,它具有 AWS 中可用的最高网络带宽(800 Gbps),可提高我们分布式训练作业的性能并减少我们的模型训练时间,同时降低我们的训练成本。

    Helixon 首席执行官 Jian Peng
  • Money Forward, Inc.

    Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。

    我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了 97%,同时还降低了成本。由于我们会定期对定制的 NLP 模型进行微调,因此减少模型训练时间和成本也很重要。根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于 AWS Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端 ML 性能和成本方面提供额外价值。

    Money Forward, Inc. 首席技术官 Takuya Nakade
  • Magic

    Magic 是一家综合产品和研究公司,开发如同事一般的 AI,让世界变得更有效率。

    训练基于 Transformer 的大型自回归模型是我们工作的重要组成部分。AWS Trainium 支持的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速的节点间网络以及对 16 位和 8 位数据类型的高级支持。Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 中对 BF16 随机舍入的原生支持让我们感到十分兴奋,它提高了性能,同时数值准确度与全精度没有区别。

    Magic 联合创始人兼首席执行官 Eric Steinberger
  • Cactus Communications

    CACTUS 为研究人员和组织提供了一套产品和解决方案,以改善研究的资助、出版、交流和发现方式。

    在 Cactus Labs,我们利用 AI 的力量,重点研究自然语言处理、排名和推荐、对话式 AI、大型语言模型、计算机视觉、AR/VR 和 XAI。为了实现更快地训练机器学习模型以及使我们的研究人员能够在管理基础设施成本的同时进行更多实验,我们很高兴评估 AWS Trainium。AWS Trainium 的开箱即用功能,例如 XLA 优化、多工作人员数据并行训练和图形缓存,对我们减少训练时间非常有用,并且可以帮助我们更快、更便宜地运行更多实验。

    Cactus Communication 首席技术官兼新兴产品负责人 Nishchay Shah
  • Watashiha

    Watashiha 提供了一种创新的交互式 AI 聊天机器人服务 “OGIRI AI”,它融入了幽默感,可以当场为问题提供有趣的答案。

    我们使用大语言模型来增添幽默感,并在我们的 AI 服务上为客户提供更具相关性的对话式体验。这要求我们经常对这些模型进行预先训练和微调。我们利用张量和数据并行性在 EC2 Trn1.32xlarge 实例上预先训练了基于 GPT 的日语模型。训练在 28 天内完成,与之前基于 GPU 的基础设施相比,成本降低了 33%。随着我们模型的复杂性不断快速增长,我们期待使用网络带宽是 Trn1 两倍的 Trn1n 实例来加快较大模型的训练速度。

    Yohei Kobashi,Watashiha, K.K. 首席技术官
  • PyTorch

    在 PyTorch,我们加快了将机器学习从研究原型设计到为客户准备好生产环境的速度。我们与 AWS 团队广泛合作,为新的 AWS Trainium 驱动的 Amazon EC2 Trn1 实例提供原生 PyTorch 支持,这些实例专为训练深度学习模型而构建。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练。此外,我们与 OpenXLA 社区合作,启用 PyTorch 分布式库,以便轻松将模型从基于 GPU 的实例迁移到 Trn1 实例。我们对 Trn1 实例为 PyTorch 社区带来的创新感到兴奋,包括更高效的数据类型、动态形状、自定义运算符、硬件优化的随机舍入和紧急调试模式。所有这些使 Trn1 非常适合 PyTorch 开发人员的广泛采用,我们期待未来共同为 PyTorch 做出贡献,以进一步优化训练性能。

    Geeta Chauhan,PyTorch 应用 AI 工程经理
  • Hugging Face

    Hugging Face 的使命是普及优秀的机器学习技术,帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习芯片上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式人工智能模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助 Inferentia2,我们的社区将能够轻松地将这种性能扩展到 100B+ 参数规模的 LLM,也可以扩展到最新的扩散和计算机视觉模型。

  • Amazon

    我们正在训练多模式(文本 + 图像)、多语言、多语言环境、针对多个任务进行预训练并跨越多个实体(产品、查询、品牌、评论等)的大型语言模型(LLM),以改善客户的购物体验。与其他加速机器学习解决方案相比,Trn1 实例提供了一种更可持续的方式来训练 LLM,它提供了最佳的性能功耗比,并以最低的成本为我们提供了高性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。

    Trishul Chilimbi,Amazon Search 副总裁

入门

您可以使用 Amazon SageMaker 在 Trn1 实例上轻松训练模型。显著减少训练和调整 ML 模型的时间和成本,而无需管理基础设施。借助 SageMaker,您可以使用内置工具来管理和跟踪训练实验、自动选择最佳超参数、调试训练作业以及监控系统资源的使用情况。

AWS Deep Learning AMI(DLAMI)可以为深度学习(DL)从业人员和研究人员提供基础设施和各种工具,从而加快在 AWS 上进行任意规模的深度学习的速度。AWS Neuron 驱动程序已在 DLAMI 中预先配置,可在 Trn1 实例上以最佳方式训练您的深度学习模型。

您现在可以在完全托管的 Kubernetes 服务 Amazon Elastic Kubernetes Service(EKS)和完全托管的容器编排服务 Amazon Elastic Container Service(ECS)中部署 Trn1 实例。AWS Deep Learning Containers 中还预装了 Neuron。要了解有关在 Trn1 实例上运行容器的更多信息,请参阅 Neuron 容器教程

产品详细信息

实例大小 Trainium 芯片
加速器
内存
(GB)
vCPU 实例
内存
(GiB)
本地
NVMe
存储
(TB)
网络
带宽
(Gbps)
EFA 和
RDMA
支持
EBS
带宽
(Gbps)
按需
每小时价格
1 年
预留
实例
高效
每小时*
3 年
预留
实例
高效
每小时*
trn1.2xlarge 1 32 8 32 0.5 最高 12.5 最高 20 1.34 USD 0.79 USD 0.4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21.50 USD 12.60 USD 7.59 USD

trn1n.32xlarge

16 512 128 512 8 1600 80 24.78 USD 14.52 USD 8.59 USD