为什么选择 Inferentia?
AWS Inferentia 加速器由 AWS 设计,旨在在 Amazon EC2 中以最低的成本为您的深度学习(DL)和生成式人工智能推理应用程序提供高性能。
第一代 AWS Inferentia 加速器为 Amazon Elastic Compute Cloud(Amazon EC2)Inf1 实例提供支持,与同类 Amazon EC2 实例相比,该实例的吞吐量可提高多达 2.3 倍,每次推理的成本可降低多达 70%。许多客户,包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa,都采用了 Inf1 实例并实现了其性能和成本优势。
与 Inferentia 相比,AWS Inferentia2 加速器的吞吐量提高了 4 倍,延迟低至前者的 1/10。基于 Inferentia2 的 Amazon EC2 Inf2 实例经过优化,可以大规模部署日益复杂的模型,例如大型语言模型(LLM)和潜在扩散模型。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过加速器之间的超高速连接支持横向扩展分布式推理。包括 Leonardo.ai、德国电信和 Qualtrics 在内许多客户已在其深度学习和生成式人工智能应用程序中采用了 Inf2 实例。
AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 加速器上部署模型,并且可以在 AWS Trainium 加速器上训练它们。 它与 PyTorch 和 TensorFlow 等热门框架原生集成,让您可以继续使用现有的代码和工作流,并且在 Inferentia 加速器上运行。