AWS Inferentia

在 Amazon EC2 中以最低的成本获得深度学习和生成式人工智能推理所需的高性能

为什么选择 Inferentia?

AWS Inferentia 加速器由 AWS 设计,旨在在 Amazon EC2 中以最低的成本为您的深度学习(DL)和生成式人工智能推理应用程序提供高性能。 

第一代 AWS Inferentia 加速器为 Amazon Elastic Compute Cloud(Amazon EC2)Inf1 实例提供支持,与同类 Amazon EC2 实例相比,该实例的吞吐量可提高多达 2.3 倍,每次推理的成本可降低多达 70%。许多客户,包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa,都采用了 Inf1 实例并实现了其性能和成本优势。

与 Inferentia 相比,AWS Inferentia2 加速器的吞吐量提高了 4 倍,延迟低至前者的 1/10。基于 Inferentia2 的 Amazon EC2 Inf2 实例经过优化,可以大规模部署日益复杂的模型,例如大型语言模型(LLM)和潜在扩散模型。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过加速器之间的超高速连接支持横向扩展分布式推理。包括 Leonardo.ai、德国电信和 Qualtrics 在内许多客户已在其深度学习和生成式人工智能应用程序中采用了 Inf2 实例。 

AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 加速器上部署模型,并且可以在 AWS Trainium 加速器上训练它们。 它与 PyTorch 和 TensorFlow 等热门框架原生集成,让您可以继续使用现有的代码和工作流,并且在 Inferentia 加速器上运行。

Inferentia 的优势

每个第一代 Inferentia 加速器都搭载了四个第一代 NeuronCore,每个 EC2 Inf1 实例最多有 16 个 Inferentia 加速器。每个 Inferentia2 加速器都搭载了两个第二代 NeuronCore,每个 EC2 Inf2 实例最多有 12 个 Inferentia2 加速器。每个 Inferentia2 加速器支持高达每秒 190 万亿次浮点运算(TFLOPS)的 FP16 性能。第一代 Inferentia 每个加速器都有8 GB 的 DDR4 内存,并且还具有大容量芯片内存。Inferentia2 为每个加速器提供 32GB 的 HBM,与 Inferentia 相比,总内存增加了 4 倍,内存带宽增加了 10 倍。
AWS Neuron SDK 与 PyTorch 和 TensorFlow 等流行的 ML 框架原生集成。借助 AWS Neuron,您可以使用这些框架在两个 AWS Inferentia 加速器上以最佳方式部署 DL 模型,并且 Neuron 设计为最大程度地减少代码更改以及与特定于供应商的解决方案的绑定。 Neuron 可帮助您在 Inferentia 加速器上运行推理应用程序,以实现自然语言处理(NLP)/理解、语言翻译、文本摘要、视频和图像生成、语音识别、个性化、欺诈检测等。
第一代 Inferentia 支持 FP16、BF16 和 INT8 数据类型。Inferentia2 添加了对 FP32、TF32 和新的可配置 FP8(cFP8)数据类型的额外支持,为开发人员提供了更大的灵活性,可以优化性能和准确性。AWS Neuron 采用高精度 FP32 模型,并自动将它们转换为精度较低的数据类型,同时优化了准确性和性能。Autocasting 通过消除对低精度再培训的需求来缩短上市时间。
Inferentia2 为动态输入大小和用 C++ 编写的自定义运算符添加了硬件优化。它还支持随机舍入,这是一种概率舍入方式,与传统舍入模式相比可实现高性能和更高的精度。
与同类的 Amazon EC2 实例相比,Inf2 实例可实现高达 50% 的性能功耗比提升,因为它们和底层 Inferentia2 加速器专为大规模运行 DL 模型而构建。Inf2 实例可帮助您在部署超大型模型时实现可持续发展目标。

视频

探秘 Amazon 的生成式人工智能基础设施
介绍由 AWS Inferentia2 提供支持的 Amazon EC2 Inf2 实例
四位 AWS 客户如何使用 AWS Inferentia 降低 ML 成本并推动创新