为什么选择 Amazon EC2 Trn1 实例?
Amazon Elastic Compute Cloud(EC2)Trn1 实例由 AWS Trainium 芯片提供支持,专为生成式人工智能模型[包括大型语言模型(LLM)和潜在扩散模型]的高性能深度学习(DL)训练而构建。与其他同类 Amazon EC2 实例相比,Trn1 实例可节省高达 50% 的训练成本。 您可以使用 Trn1 实例在广泛的应用程序中训练 100B 以上的参数 DL 和生成式人工智能模型,例如文本摘要、代码生成、问答、图像和视频生成、推荐和欺诈检测。
AWS Neuron SDK 可帮助开发人员在 AWS Trainium 上训练模型,以及在 AWS Inferentia 芯片上部署模型。它与 PyTorch 和 TensorFlow 等框架原生集成,让您可以继续使用现有的代码和工作流程在 Trn1 实例上训练模型。要了解当前 Neuron 对机器学习(ML)框架和库、模型架构和硬件优化的支持,请参阅 Neuron 文档。
介绍由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例
优势
功能
客户和合作伙伴评价
以下是客户和合作伙伴如何利用 Amazon EC2 Trn1 实例实现业务目标的一些示例。
-
Databricks
全球超过 10000 家组织(包括 Comcast、Condé Nast 以及超过 50% 的财富 500 强企业)依靠 Databricks 来统一其数据、分析和人工智能。
成千上万的客户已经在 AWS 上实施了 Databricks,使他们能够使用 MosaicML 为各种用例预训练、微调和服务基础模型。AWS Trainium 为我们提供了训练 Mosaic MPT 模型所需的规模和高性能,并且成本低廉。当我们训练下一代 Mosaic MPT 模型时,Trainium2 将能够更快地构建模型,使我们能够为客户提供前所未有的规模和性能,进而使他们能够更快地将自己的生成式人工智能应用程序推向市场。
Naveen Rao,Databricks 生成式人工智能副总裁 -
Stockmark Co., Ltd
Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。
借助由 AWS Trainium 芯片提供支持的 16 个 Amazon EC2 Trn1 实例节点,我们开发并发布了 stockmark-13b,这是一个具有 130 亿个参数的大型语言模型,在包含 2200 亿个令牌的日语语料库上从头开始进行了预训练。该语料库包含截至 2023 年 9 月的最新商业领域文本。与其他同等模型相比,该模型在 JGLUE(日语通用语言理解评估)基准上获得了最高的 JSQuAD 分数(0.813)。它可以在 Hugging Face Hub 上找到,并且可以在 MIT 许可下用于商业用途。与同等 GPU 实例相比,Trn1 实例帮助我们将训练成本降低了 20%。
Kosuke Arima,Stockmark Co., Ltd. 首席技术官 -
RICOH
RICOH 提供工作场所解决方案和数字化转型服务,旨在管理和优化企业间的信息流。
迁移到 Trn1 实例非常简单。我们在短短 8 天内就完成了 13B 参数模型的训练。基于这一成功,我们期待在 Trainium 上开发并训练我们的 70B 参数模型,并对这些实例在更快、更具成本效益地训练我们的模型方面的潜力感到兴奋。
Yoshiaki Umetsu,RICOH 数字技术开发中心主任 -
HeliXon
在 HeliXon,我们为基于蛋白质的疗法构建了下一代 AI 解决方案。我们的目标是开发人工智能工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。今天,我们使用像 FSDP 这样的训练分发库在许多基于 GPU 的服务器上并行化模型训练,但这仍然需要我们花费数周时间来训练一个模型。我们很高兴能够利用 Amazon EC2 Trn1 实例,它具有 AWS 中可用的最高网络带宽(800 Gbps),可提高我们分布式训练作业的性能并减少我们的模型训练时间,同时降低我们的训练成本。
Helixon 首席执行官 Jian Peng -
Money Forward, Inc.
Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。
我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了 97%,同时还降低了成本。由于我们会定期对定制的 NLP 模型进行微调,因此减少模型训练时间和成本也很重要。根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于 AWS Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端 ML 性能和成本方面提供额外价值。
Money Forward, Inc. 首席技术官 Takuya Nakade -
Magic
Magic 是一家综合产品和研究公司,开发如同事一般的 AI,让世界变得更有效率。
训练基于 Transformer 的大型自回归模型是我们工作的重要组成部分。AWS Trainium 支持的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速的节点间网络以及对 16 位和 8 位数据类型的高级支持。Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 中对 BF16 随机舍入的原生支持让我们感到十分兴奋,它提高了性能,同时数值准确度与全精度没有区别。
Magic 联合创始人兼首席执行官 Eric Steinberger -
Cactus Communications
CACTUS 为研究人员和组织提供了一套产品和解决方案,以改善研究的资助、出版、交流和发现方式。
在 Cactus Labs,我们利用 AI 的力量,重点研究自然语言处理、排名和推荐、对话式 AI、大型语言模型、计算机视觉、AR/VR 和 XAI。为了实现更快地训练机器学习模型以及使我们的研究人员能够在管理基础设施成本的同时进行更多实验,我们很高兴评估 AWS Trainium。AWS Trainium 的开箱即用功能,例如 XLA 优化、多工作人员数据并行训练和图形缓存,对我们减少训练时间非常有用,并且可以帮助我们更快、更便宜地运行更多实验。
Cactus Communication 首席技术官兼新兴产品负责人 Nishchay Shah -
Watashiha
Watashiha 提供了一种创新的交互式 AI 聊天机器人服务 “OGIRI AI”,它融入了幽默感,可以当场为问题提供有趣的答案。
我们使用大语言模型来增添幽默感,并在我们的 AI 服务上为客户提供更具相关性的对话式体验。这要求我们经常对这些模型进行预先训练和微调。我们利用张量和数据并行性在 EC2 Trn1.32xlarge 实例上预先训练了基于 GPT 的日语模型。训练在 28 天内完成,与之前基于 GPU 的基础设施相比,成本降低了 33%。随着我们模型的复杂性不断快速增长,我们期待使用网络带宽是 Trn1 两倍的 Trn1n 实例来加快较大模型的训练速度。
Yohei Kobashi,Watashiha, K.K. 首席技术官
-
PyTorch
在 PyTorch,我们加快了将机器学习从研究原型设计到为客户准备好生产环境的速度。我们与 AWS 团队广泛合作,为新的 AWS Trainium 驱动的 Amazon EC2 Trn1 实例提供原生 PyTorch 支持,这些实例专为训练深度学习模型而构建。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练。此外,我们与 OpenXLA 社区合作,启用 PyTorch 分布式库,以便轻松将模型从基于 GPU 的实例迁移到 Trn1 实例。我们对 Trn1 实例为 PyTorch 社区带来的创新感到兴奋,包括更高效的数据类型、动态形状、自定义运算符、硬件优化的随机舍入和紧急调试模式。所有这些使 Trn1 非常适合 PyTorch 开发人员的广泛采用,我们期待未来共同为 PyTorch 做出贡献,以进一步优化训练性能。
Geeta Chauhan,PyTorch 应用 AI 工程经理 -
Hugging Face
Hugging Face 的使命是普及优秀的机器学习技术,帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习芯片上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式人工智能模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助 Inferentia2,我们的社区将能够轻松地将这种性能扩展到 100B+ 参数规模的 LLM,也可以扩展到最新的扩散和计算机视觉模型。
-
Amazon
我们正在训练多模式(文本 + 图像)、多语言、多语言环境、针对多个任务进行预训练并跨越多个实体(产品、查询、品牌、评论等)的大型语言模型(LLM),以改善客户的购物体验。与其他加速机器学习解决方案相比,Trn1 实例提供了一种更可持续的方式来训练 LLM,它提供了最佳的性能功耗比,并以最低的成本为我们提供了高性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。
Trishul Chilimbi,Amazon Search 副总裁
入门
产品详细信息
实例大小 | Trainium 芯片 |
加速器 内存 (GB) |
vCPU | 实例 内存 (GiB) |
本地 NVMe 存储 (TB) |
网络 带宽 (Gbps) |
EFA 和 RDMA 支持 |
EBS 带宽 (Gbps) |
按需 每小时价格 |
1 年 预留 实例 高效 每小时* |
3 年 预留 实例 高效 每小时* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0.5 | 最高 12.5 | 否 | 最高 20 | 1.34 USD | 0.79 USD | 0.4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | 是 | 80 | 21.50 USD | 12.60 USD | 7.59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1600 | 是 | 80 | 24.78 USD | 14.52 USD | 8.59 USD |