Amazon Elastic Compute Cloud(Amazon EC2)Inf2 实例专为深度学习(DL)推理而构建。它们在 Amazon EC2 中以最低的成本为生成式人工智能(AI)模型(包括大型语言模型(LLM)和视觉转换器)提供高性能。您可以使用 Inf2 实例来运行推理应用程序,以实现文本摘要、代码生成、视频和图像生成、语音识别、个性化、欺诈检测等等。
Inf2 实例由 AWS Inferentia2(第二代 AWS Inferentia 芯片)提供支持。Inf2 实例的性能较 Inf1 实例有所提升:计算性能提高了 3 倍,加速器总内存扩大了 4 倍,吞吐量提高了 4 倍,延迟降低到 1/10。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过 Inferentia 芯片之间的超高速连接支持横向扩展分布式推理。您现在可以在 Inf2 实例上跨多个芯片经济高效地部署具有数千亿个参数的模型。
AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 芯片上部署模型,并且可以在 AWS Trainium 芯片上训练它们。它与 PyTorch 和 TensorFlow 等框架原生集成,让您可以继续使用现有的工作流程和应用程序代码,并且可以在 Inf2 实例上运行。
优势
大规模部署 100B+ 参数的生成式人工智能模型
Inf2 实例是 Amazon EC2 中首个支持大规模分布式推理的推理优化实例。您现在可以使用 Inferentia 芯片之间的超高速连接,在 Inf2 实例上跨多个芯片高效部署具有数千亿个参数的模型。
大幅降低推理成本的同时提高性能
Inf2 实例旨在以最低的成本在 Amazon EC2 中为您的 DL 部署提供高性能。与 Amazon EC2 Inf1 实例相比,它们提供高达 4 倍的吞吐量,并将延迟降低到 1/10。 与其他同类的 Amazon EC2 实例相比,Inf2 实例的性价比提高了多达 40%。
使用现有的 ML 框架和库
使用 AWS Neuron SDK 提取 Inf2 实例的全部性能。借助 Neuron,您可以使用 PyTorch 和 TensorFlow 等现有框架,并为 Hugging Face 等热门存储库中的模型实现开箱即用的性能优化。Neuron 支持与 TorchServe 和 TensorFlow Serving 等服务工具的运行时系统集成。它还可以通过内置配置文件和调试工具(如 Neuron-Top)帮助优化性能,并集成到 TensorBoard 等热门的可视化工具中。
使用节能解决方案满足您的可持续发展目标
与其他同类的 Amazon EC2 实例相比,Inf2 实例的性能功耗比提高了多达 50%。这些实例和底层 Inferentia2 芯片使用先进的硅芯片工艺以及硬件和软件优化,在大规模运行深度学习模型时提供高能效。 使用 Inf2 实例帮助您在部署超大型模型时实现可持续发展目标。
功能
使用 AWS Inferentia2 实现每秒 2.3 千万亿次浮点运算
Inf2 实例由多达 12 种 AWS Inferentia2 芯片提供支持,这些芯片与超高速 NeuronLink 连接,以进行简化的集体通信。与 Inf1 实例相比,它们可提供每秒高达 2.3 千万亿次浮点运算,高达 4 倍的吞吐量,并将延迟降低到 1/10。
高达 384GB 的高带宽加速器内存
为了容纳较大深度学习模型,Inf2 实例提供高达 384GB 的共享加速器内存(每个 Inferentia2 芯片 32GB HBM,比第一代 Inferentia 大 4 倍),总内存带宽为 9.8Tb/s(比第一代 Inferentia 快 10 倍)。
NeuronLink 互连
对于 Inferentia2 芯片之间的快速通信,Inf2 实例支持 192GB/s 的 NeuronLink,这是一种高速、非阻塞互连。Inf2 是唯一提供此互连的推理优化实例,该功能仅在更昂贵的训练实例中可用。对于不适合单个芯片的超大型模型,数据通过 NeuronLink 直接在芯片之间流动,完全绕过 CPU。借助 NeuronLink,Inf2 支持更快的分布式推理,提高了吞吐量并降低了延迟。
针对具有自动转换功能的新数据类型进行了优化
Inferentia2 支持 FP32、TF32、BF16、FP16、UINT8 和新的可配置 FP8 (cFP8) 数据类型。AWS Neuron 可以采用高精度 FP32 和 FP16 模型,并将它们自动转换为精度较低的数据类型,同时优化准确性和性能。自动转换无需进行低精度再训练,并且可以使用更小的数据类型实现更高性能的推理,从而缩短上市时间。
先进的深度学习优化
为了支持快节奏的深度学习创新,Inf2 实例采用了多项创新,使其灵活且可扩展,可以部署不断演变的深度学习模型。Inf2 实例具有针对动态输入形状的硬件优化和软件支持。为了在将来支持新的运算符,该实例支持用 C++ 编写的自定义运算符。它们还支持随机舍入,这是一种概率舍入方式,与传统舍入模式相比可实现高性能和更高的精度。
产品详细信息
实例大小 | Inferentia2 芯片 | 加速器 内存 (GB) |
vCPU | 内存 (GiB) |
本地 存储 |
芯片间 互连 |
网络 带宽 (Gbps) |
EBS 带宽 (Gbps) |
按需价格 | 1 年期限预留实例 | 3 年期限预留实例 |
inf2.xlarge | 1 | 32 | 4 | 16 | 仅限 EBS | 不适用 | 最高 15 | 最高 10 | 0.76 USD | 0.45 USD | 0.30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | 仅限 EBS | 不适用 | 最高 25 | 10 | 1.97 USD | 1.81 USD | 0.79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | 仅限 EBS | 是 | 50 | 30 | 6.49 USD | 3.89 USD | 2.60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | 仅限 EBS | 是 | 100 | 60 | 12.98 USD | 7.79 USD | 5.19 USD |
客户评价
“我们的 Leonardo 团队利用生成式人工智能,使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。AWS Inf2 的性价比 通过使用 AWS Inf2,我们能够在不牺牲性能的情况下将成本降低 80%,从根本上改变我们可以为客户提供的价值主张,从而以更实惠的价格实现我们最先进的功能。它还减轻了人们对辅助人工智能服务的成本和容量可用性的担忧,随着我们的发展和规模扩大,这些服务变得越来越重要。对于我们来说,这是一项关键的支持技术,我们将继续挑战生成式人工智能的极限,为我们的用户开启创造力和表达力的新时代。”
Pete Werner,Leonardo.ai 人工智能主管
“在 Runway,我们的 AI Magic Tools 套件使我们的用户能够以前所未有的方式生成和编辑内容。我们不断突破 AI 支持的内容创建的可能性,随着我们的 AI 模型变得越来越复杂,大规模运行这些模型的底层基础设施成本可能会变得昂贵。通过与由 AWS Inferentia 提供支持的 Amazon EC2 Inf2 实例合作,我们能够以比基于 GPU 的同类实例高出 2 倍的吞吐量来运行我们的一些模型。这种高性能、低成本的推理使我们能够引入更多功能,部署更复杂的模型,并最终为使用 Runway 的数百万创作者提供更好的体验。”
Cristóbal Valenzuela,Runway 联合创始人兼首席执行官
Qualtrics 设计和开发体验管理软件。
“在 Qualtrics,我们的工作重点是构建技术,以缩小客户、员工、品牌和产品的体验差距。为实现这一目标,我们正在开发复杂的多任务、多模式 DL 模型以推出新功能,例如文本分类、序列标记、话语分析、关键短语提取、主题提取、集群和端到端对话理解。随着我们在更多应用中使用这些更复杂的模型,非结构化数据量不断增长,我们需要更高性能的推理优化优化解决方案(例如 Inf2 实例)来满足这些需求,为我们的客户提供最佳体验。我们对新的 Inf2 实例感到兴奋,因为它不仅可以让我们实现更高的吞吐量,同时显著降低延迟,而且还引入了分布式推理和增强的动态输入形状支持等功能,这将有助于进行扩展,从而在向更大、更复杂的大型模型发展时满足部署需求。”
Aaron Colak,Qualtrics 核心机器学习主管
Finch Computing 是一家自然语言技术公司,为政府、金融服务和数据集成商客户提供人工智能应用程序。
“为了满足客户对实时自然语言处理的需求,我们开发了可扩展到大型生产工作负载的先进深度学习模型。我们必须提供低延迟事务处理并实现高吞吐量,以处理全球数据馈送。我们已经将许多生产工作负载迁移到 Inf1 实例,并且实现了与 GPU 相比 80% 的成本节约。现在,我们正在开发更大、更复杂的模型,以便从书面文本中获得更深刻、更有洞察力的意义。我们的许多客户需要实时访问这些洞察,Inf2 实例的性能将帮助我们提供比 Inf1 实例更低的延迟和更高的吞吐量。随着 Inf2 性能改进和新的 Inf2 功能,例如支持动态输入大小,我们正在改善我们的成本效率,提升实时客户体验,并帮助我们的客户从他们的数据中收集新的洞察。”
Franz Weckesser,Finch Computing 首席架构师
Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。作为该平台的一部分,Money Forward 集团旗下公司 HiTTO Inc. 提供 AI 聊天机器人服务,该服务会使用定制的自然语言处理 (NLP) 模型,满足其企业客户的多元化需求。
“我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了 97%,同时还降低了成本。我们很高兴在 Amazon EC2 Inf2 实例的初步测试结果中看到性能进一步提升。使用相同的自定义 NLP 模型,AWS Inf2 能够将延迟进一步减少到 Inf1 的 1/10。随着我们转向更大的、数十亿个参数的模型,Inf2 让我们有信心继续为客户提供卓越的端到端用户体验。”
Takuya Nakade,Money Forward, Inc. 首席技术官
“在 Fileread.ai,我们正致力于构建解决方案,让文档交互像提问一样简单,使用户能够从所有文档中找到他们想要的内容并更快地获得正确的信息。自从切换到新的 Inf2 EC2 实例以来,我们看到我们的 NLP 推理能力有了显著提升。单单成本节省就对我们产生了巨大的影响,使我们能够在不牺牲质量的情况下更有效地分配资源。我们将推理延迟减少了 33%,同时将吞吐量提高了 50%,提供令客户满意的周转速度。我们的团队对 Inf2 相较于早期 G5 实例的速度和性能提升感到震惊,很明显,这是未来部署 NLP 模型的方法。”
Daniel Hu,Fileread 首席执行官
“在 Yaraku,我们的使命是建立基础设施,帮助人们跨越语言障碍进行沟通。任何人,从专业翻译人员到单语人士,都可以通过我们的旗舰产品 YarakuZen 自信地翻译和编辑文本和文档。为了支持这一过程,我们提供了一系列基于深度学习模型的复杂工具,涵盖翻译、双文本单词对齐、句子分割、语言建模等任务。通过使用 Inf1 实例,我们能够加快服务速度以满足不断增长的需求,同时与基于 GPU 的实例相比,推理成本降低了 50% 以上。我们目前正在着手开发下一代更大型的模型,这些模型将需要 Inf2 实例的增强功能,以便在满足需求的同时保持低延迟。有了 Inf2,我们将能够将模型纵向扩展 10 倍,同时保持相似的吞吐量,使我们能够为客户提供更高的质量水准。”
Giovanni Giacomo,Yaraku NLP 负责人
AWS 合作伙伴评价
“Hugging Face 的使命是普及优秀的机器学习技术,帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习芯片上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式人工智能模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助 Inferentia2,我们的社区将能够轻松地将这种性能扩展到 100B+ 参数规模的 LLM,也可以扩展到最新的扩散和计算机视觉模型。”
“PyTorch 加快了机器学习开发人员从研究原型设计到生产部署的过程。我们已经与 AWS 团队合作,为由 AWS Inferentia2 提供支持的新 Amazon EC2 Inf2 实例提供原生 PyTorch 支持。随着希望部署大型生成式人工智能模型的社区成员日益增多,我们很高兴与 AWS 团队合作,通过芯片之间的高速 NeuronLink 连接,优化 Inf2 实例上的分布式推理。借助 Inf2,使用 PyTorch 的开发人员现在可以轻松部署超大型 LLM 和视觉转换器模型。此外,Inf2 实例还为 PyTorch 开发人员带来了其他创新功能,包括高效的数据类型、动态形状、自定义运算符和经过硬件优化的随机舍入,使其非常适合 PyTorch 社区广泛采用。”
“Weights & Biases (W&B) 为机器学习工程师和数据科学家提供了开发工具,帮助他们更快地构建更好的模型。W&B 平台为机器学习从业者提供了各种各样的见解,以提高模型的性能,包括底层计算基础设施的利用率。我们与 AWS 团队合作,在我们的系统指标控制面板中增加了对 Amazon Trainium 和 Inferentia2 的支持,从而提供模型实验和训练期间急需的宝贵数据。这使机器学习从业者能够优化他们的模型,充分利用 AWS 的专用硬件,以更低的成本更快地训练他们的模型。”
Phil Gurbacki,Weights & Biases 产品副总裁
“OctoML 通过打包其深度学习模型,使其在高性能硬件上运行,帮助开发人员降低成本并构建可扩展的人工智能应用程序。在过去的几年中,我们一直在积累最佳软件和硬件解决方案方面的专业知识,并将其集成到我们的平台中。我们作为芯片设计师和系统黑客的出身,使得 AWS Trainium 和 Inferentia 对于我们来说更加令人兴奋。我们将这些芯片视为未来云端 AI 创新的关键驱动因素。Inf2 实例的正式发布尤其及时,因为我们看到热门的 LLM 已成为下一代 AI 应用程序的关键组成部分。我们很高兴在我们的平台上提供这些实例,帮助开发人员轻松利用其高性能和节省成本的优势。”
Jared Roesch,OctoML 首席技术官兼联合创始人
“LLM 以及更广泛的企业级生成式人工智能应用程序面临的历史性挑战是与训练和运行高性能深度学习模型相关的成本。AWS Inferentia2 与 AWS Trainium 相结合,使我们的客户在需要高性能训练时无需在财务上作出妥协。现在,寻求训练和推理优势的客户可以用更少的资金取得更好的成效。Trainium 和 Inferentia 加速了规模扩展,甚至可以满足当今最大型企业最严苛的深度学习要求。许多运行大型 AI 工作负载的 Nextira 客户将直接受益于这些新芯片组,加快实现成本节约和性能提升,从而更快在市场上取得成效。“
Jason Cutrer,Nextira 创始人兼首席执行官
Amazon 服务使用 Amazon EC2 Inf2 实例
Amazon CodeWhisperer 是一款 AI 编码伴侣,可在您的集成式开发环境(IDE)中生成实时单行或全功能代码建议,以帮助您快速构建软件。
“我们借助 CodeWhisperer,通过使用生成式 AI 模型提供代码推荐来提高软件开发人员的生产力。为了开发高效的代码推荐,我们将深度学习网络扩展到了数十亿个参数。我们的客户需要在键入内容时获得实时代码推荐,因此低延迟响应至关重要。大型生成式 AI 模型需要高性能计算来实现几分之一秒的响应速度。使用 Inf2 的延迟与在针对大型输入和输出序列训练优化的 GPU 实例上运行 CodeWhisperer 的延迟相同。因此,Inf2 实例可以帮助我们节省成本和功耗,同时为开发人员提供最佳体验。”
Doug Seven,Amazon CodeWhisperer 总经理
Amazon 的产品搜索引擎为数十亿种产品编制了索引,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。
“我对 Inf2 正式发布感到非常兴奋。Inf2 的卓越性能,加上处理具有数十亿参数的大型模型的能力,使其成为我们服务的理想选择,并使我们能够在模型复杂性和准确性方面解锁新的可能性。Inf2 可实现显著的加速和成本效益,将它们集成到 Amazon Search 服务基础设施可以帮助我们满足客户不断增长的需求。我们计划使用使用 Inf2 的生成式 LLM 来为我们的新购物体验提供动力。”
Trishul Chilimbi,Amazon Search 副总裁
开始使用
使用 Amazon SageMaker
使用 Amazon SageMaker 更轻松地在 Inf2 实例上部署模型,显著降低部署 ML 模型的成本并提高性能,而无需管理基础设施。SageMaker 是一项完全托管的服务,与 MLOps 工具集成。因此,您可以扩展模型部署、在生产环境中更有效地管理模型并减轻运营负担。
使用 AWS Deep Learning AMI
AWS Deep Learning AMI (DLAMI) 可以为深度学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。AWS Neuron 驱动程序已在 DLAMI 中预先配置,可在 Inf2 实例上以最佳方式部署您的深度学习模型。
使用 AWS Deep Learning Containers
您现在可以在完全托管的 Kubernetes 服务 Amazon Elastic Kubernetes Service(Amazon EKS)和完全托管的容器编排服务 Amazon Elastic Container Service(Amazon ECS)中部署 Inf2 实例。AWS Deep Learning Containers 中还预装了 Neuron。要了解有关在 Inf2 实例上运行容器的更多信息,请参阅 Neuron 容器教程。