AWS Inferentia 客户
了解客户如何使用 AWS Inferentia 部署深度学习模型。客户评价
“我们的 Leonardo 团队利用生成式人工智能,使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。通过使用 AWS Inferentia2,我们能够在不牺牲性能的情况下将成本降低 80%,从根本上改变我们可以为客户提供的价值主张,从而以更实惠的价格实现我们最先进的功能。它还减轻了人们对辅助人工智能服务的成本和容量可用性的担忧,随着我们的发展和规模扩大,这些服务变得越来越重要。对于我们来说,这是一项关键的支持技术,我们将继续挑战生成式人工智能的极限,为我们的用户开启创造力和表达力的新时代。”
Pete Werner,Leonardo.ai 人工智能主管
“在 Runway,我们的 AI Magic Tools 套件使我们的用户能够以前所未有的方式生成和编辑内容。我们不断突破 AI 支持的内容创建的可能性,随着我们的 AI 模型变得越来越复杂,大规模运行这些模型的底层基础设施成本可能会变得昂贵。通过与由 AWS Inferentia 提供支持的 Amazon EC2 Inf2 实例合作,我们能够以比基于 GPU 的同类实例高出 2 倍的吞吐量来运行我们的一些模型。这种高性能、低成本的推理使我们能够引入更多功能,部署更复杂的模型,并最终为使用 Runway 的数百万创作者提供更好的体验。”
Cristóbal Valenzuela,Runway 联合创始人兼首席执行官
Qualtrics 设计和开发体验管理软件。
“在 Qualtrics,我们的工作重点是构建技术,以缩小客户、员工、品牌和产品的体验差距。为实现这一目标,我们正在开发复杂的多任务、多模式 DL 模型以推出新功能,例如文本分类、序列标记、话语分析、关键短语提取、主题提取、集群和端到端对话理解。随着我们在更多应用中使用这些更复杂的模型,非结构化数据量不断增长,我们需要更高性能的推理优化优化解决方案(例如 Inf2 实例)来满足这些需求,为我们的客户提供最佳体验。我们对新的 Inf2 实例感到兴奋,因为它不仅可以让我们实现更高的吞吐量,同时显著降低延迟,而且还引入了分布式推理和增强的动态输入形状支持等功能,这将有助于进行扩展,从而在向更大、更复杂的大型模型发展时满足部署需求。”
Aaron Colak,Qualtrics 核心机器学习主管
Finch Computing 是一家自然语言技术公司,为政府、金融服务和数据集成商客户提供人工智能应用程序。
“为了满足客户对实时 NLP 的需求,我们开发了可扩展到大型生产工作负载的先进 DL 模型。我们必须提供低延迟事务处理并实现高吞吐量,以处理全球数据馈送。我们已经将许多生产工作负载迁移到 Inf1 实例,并且实现了与 GPU 相比 80% 的成本节约。现在,我们正在开发更大、更复杂的模型,以便从书面文本中获得更深刻、更有洞察力的意义。我们的许多客户需要实时访问这些洞察,Inf2 实例的性能将帮助我们提供比 Inf1 实例更低的延迟和更高的吞吐量。随着 Inf2 性能改进和新的 Inf2 功能,例如支持动态输入大小,我们正在改善我们的成本效率,提升实时客户体验,并帮助我们的客户从他们的数据中收集新的洞察。”
Franz Weckesser,Finch Computing 首席架构师
“我们以多种语言、不同的格式(图像、视频、音频、文本传感器、所有这些类型的组合)对世界各地成千上万个来源的多种类型的事件发布提醒。考虑到这种规模,优化速度和成本对我们的业务至关重要。借助 AWS Inferentia,我们降低了模型延迟,使每美元吞吐量提高了 9 倍。这使我们能够部署更复杂的 DL 模型,在控制成本的同时,使处理的数据量增加 5 倍,从而提高模型的准确性并增强平台的功能。”
Alex Jaimes,Dataminr 首席科学家兼人工智能高级副总裁
“我们将机器学习融入 Snapchat 的很多方面,在此领域探索创新是重中之重。我们一听说 Inferentia 就开始与 AWS 合作采用 Inf1/Inferentia 实例来帮助我们进行 ML 部署,包括性能和成本方面。我们用自己的推荐模型开始,并期待未来将更多模型用于 Inf1 实例。”
Nima Khajehnouri,Snap Inc. 工程副总裁
“通过 Sprinklr 的 AI 驱动型统一客户体验管理(统一 CXM)平台,公司能够收集多个渠道中的实时客户反馈,并将其转化为可实施的洞察 – 从而形成主动的问题解决方法、增强的产品开发、改进的内容营销、更好的客户体验,等等。使用 Amazon EC2 Inf1,我们能够显著地提高我们的 NLP 模型之一的性能,还能提高我们的计算机视觉模型之一的性能。我们期待继续使用 Amazon EC2 Inf1 更好地为全球客户服务。”
Vasant Srinivasan,Sprinklr 产品工程高级副总裁
“Autodesk 正在通过使用 Inferentia 来推进我们的人工智能虚拟助手 — Autodesk 虚拟代理(AVA)的认知技术。AVA 通过应用自然语言理解(NLU)和 DL 技术来提取查询背后的上下文、意图和意义,每月解答超过 10 万个客户问题。试用 Inferentia 后,对于 NLU 模型,我们能够获得比 G4dn 高 4.9 倍的吞吐量,并期望在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。”
inghui Ouyang,Autodesk 高级数据科学家
AWS 合作伙伴评价
“Hugging Face 的使命是普及优秀的机器学习技术,帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习加速器上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式 AI 模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助 Inferentia2,我们的社区将能够轻松地将这种性能扩展到 100B+ 参数规模的 LLM,也可以扩展到最新的扩散和计算机视觉模型。”
“PyTorch 加快了机器学习开发人员从研究原型设计到生产部署的过程。我们已经与 AWS 团队合作,为由 AWS Inferentia2 提供支持的新 Amazon EC2 Inf2 实例提供原生 PyTorch 支持。随着希望部署大型生成式 AI 模型的社区成员日益增多,我们很高兴与 AWS 团队合作,通过加速器之间的高速 NeuronLink 连接,优化 Inf2 实例上的分布式推理。借助 Inf2,使用 PyTorch 的开发人员现在可以轻松部署超大型 LLM 和视觉转换器模型。此外,Inf2 实例还为 PyTorch 开发人员带来了其他创新功能,包括高效的数据类型、动态形状、自定义运算符和经过硬件优化的随机舍入,使其非常适合 PyTorch 社区广泛采用。”
“Weights & Biases (W&B) 为机器学习工程师和数据科学家提供了开发工具,帮助他们更快地构建更好的模型。W&B 平台为机器学习从业者提供了各种各样的见解,以提高模型的性能,包括底层计算基础设施的利用率。我们与 AWS 团队合作,在我们的系统指标控制面板中增加了对 Amazon Trainium 和 Inferentia2 的支持,从而提供模型实验和训练期间急需的宝贵数据。这使机器学习从业者能够优化他们的模型,充分利用 AWS 的专用硬件,以更低的成本更快地训练他们的模型。”
Phil Gurbacki,Weights & Biases 产品副总裁
“OctoML 通过打包其深度学习模型,使其在高性能硬件上运行,帮助开发人员降低成本并构建可扩展的人工智能应用程序。在过去的几年中,我们一直在积累最佳软件和硬件解决方案方面的专业知识,并将其集成到我们的平台中。我们作为芯片设计师和系统黑客的出身,使得 AWS Trainium 和 Inferentia 对于我们来说更加令人兴奋。我们将这些加速器视为未来云端 AI 创新的关键驱动因素。Inf2 实例的正式发布尤其及时,因为我们看到热门的 LLM 已成为下一代 AI 应用程序的关键组成部分。我们很高兴在我们的平台上提供这些实例,帮助开发人员轻松利用其高性能和节省成本的优势。”
Jared Roesch,OctoML 首席技术官兼联合创始人
“LLM 以及更广泛的企业级生成式人工智能应用程序面临的历史性挑战是与训练和运行高性能深度学习模型相关的成本。AWS Inferentia2 与 AWS Trainium 相结合,使我们的客户在需要高性能训练时无需在财务上作出妥协。现在,寻求训练和推理优势的客户可以用更少的资金取得更好的成效。Trainium 和 Inferentia 加速了规模扩展,甚至可以满足当今最大型企业最严苛的深度学习要求。许多运行大型 AI 工作负载的 Nextira 客户将直接受益于这些新芯片组,加快实现成本节约和性能提升,从而更快在市场上取得成效。“
Jason Cutrer,Nextira 创始人兼首席执行官
使用 AWS Inferentia2 的 Amazon 服务
Amazon CodeWhisperer 是一款人工智能编码伴侣,可在您的集成式开发环境(IDE)中生成实时单行或全功能代码建议,以帮助您快速构建软件。
“我们借助 CodeWhisperer,通过使用生成式 AI 模型提供代码推荐来提高软件开发人员的生产力。为了开发高效的代码推荐,我们将深度学习网络扩展到了数十亿个参数。我们的客户需要在键入内容时获得实时代码推荐,因此低延迟响应至关重要。大型生成式 AI 模型需要高性能计算来实现几分之一秒的响应速度。使用 Inf2 的延迟与在针对大型输入和输出序列训练优化的 GPU 实例上运行 CodeWhisperer 的延迟相同。因此,Inf2 实例可以帮助我们节省成本和功耗,同时为开发人员提供最佳体验。”
Doug Seven,Amazon CodeWhisperer 总经理
Amazon 的产品搜索引擎为数十亿种产品编制了索引,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。
“我对 Inf2 正式发布感到非常兴奋。Inf2 的卓越性能,加上处理具有数十亿参数的大型模型的能力,使其成为我们服务的理想选择,并使我们能够在模型复杂性和准确性方面解锁新的可能性。Inf2 可实现显著的加速和成本效益,将它们集成到 Amazon Search 服务基础设施可以帮助我们满足客户不断增长的需求。我们计划使用使用 Inf2 的生成式 LLM 来为我们的新购物体验提供动力。”
Trishul Chilimbi,Amazon Search 副总裁
使用 AWS Inferentia 的 Amazon 服务
Amazon Advertising 可帮助各种规模的企业在客户购物过程的每个阶段与其建立联系。每天都有数以百万计的文本和图像广告经过审核和分类,以确保提供最佳的客户体验。
“对于我们的文本广告处理,我们在基于 AWS Inferentia 的 Inf1 实例上全局部署了基于 PyTorch 的 BERT 模型。通过从 GPU 迁移到 Inferentia,我们能够在获得近似性能的前提下将成本降低 69%。为 AWS Inferentia 编译和测试我们的模型只用了不到三周的时间。使用 Amazon SageMaker 将我们的模型部署到 Inf1 实例可确保我们的部署具有可扩展性且易于管理。当我第一次分析编译的模型时,AWS Inferentia 的性能令人印象深刻,我实际上不得不重新运行基准测试以确保它们是正确的! 我们计划未来将我们的图像广告处理模型迁移到 Inferentia。我们已经对这些模型的基于 GPU 的可比较实例进行了基准测试,其延迟降低了 30%,成本节省了 71%。”
Yashal Kanungo,Amazon Advertising 应用科学家
阅读新闻博客 »
“Amazon Alexa 的 AI 和基于机器学习的智能技术由 AWS 提供支持,目前已在 1 亿多台设备上可用。我们向客户承诺,Alexa 将始终致力于变得更智能、更对话化、更主动、更令人满意。实现这一承诺需要持续改进响应时间和机器学习基础设施成本,因此我们很高兴使用 Amazon EC2 Inf1 实例来降低 Alexa 文字转语音的推理延迟和每次推理成本。借助 Amazon EC2 Inf1 实例,我们将能够为每月使用 Alexa 的数千万客户提供更好的服务。”
Tom Taylor,Amazon Alexa 高级副总裁
“我们持续地创新,以进一步改善客户体验并压低我们的基础设施成本。将基于 Web 的问答(WBQA)工作负载从基于 GPU 的 P3 实例迁移到基于 AWS Inferentia 的 Inf1 实例不仅帮助我们将推理成本降低了 60%,还将端到端延迟减少了超过 40%,由此通过 Alexa 增强了客户的问答体验。在将 Amazon SageMaker 用于我们基于 TensorFlow 的模型后,切换到 Inf1 实例的流程变得更加直接和易于管理。现在,我们在全球使用 Inf1 实例运行这些 WBQA 工作负载,并持续优化其用在 AWS Inferentia 中的性能以进一步降低成本,减少延迟。”
Eric Lind,Alexa AI 软件开发工程师
“Amazon Prime Video 使用计算机视觉 ML 模型分析直播活动的视频质量,以确保 Prime Video 会员获得最佳观看体验。我们在 EC2 Inf1 实例上部署了我们的图像分类 ML 模型,并能够获得 4 倍的性能改进和高达 40% 的成本节省。我们现在希望利用这些节省的成本来创新和构建先进的模型,以便检测更复杂的缺陷,如音频和视频文件之间的同步差距,从而为 Prime Video 会员提供更强的观看体验。”
Victor Antonino,Amazon Prime Video 解决方案架构师
“Amazon Rekognition 是一种简单的图像和视频分析应用程序,可帮助客户识别物体、人、文本和活动。Amazon Rekognition 需要高性能的深度学习基础设施,以便可以每天为客户分析数十亿图像和视频。使用基于 AWS Inferentia 的 Inf1 实例运行对象分类之类的 Amazon Rekognition 模型,与在 GPU 上运行这些模型相比,可将延迟降低 8 倍,将吞吐量提高 2 倍。根据这些结果,我们将 Amazon Rekognition 移动到 Inf1,从而使我们的客户能够更快地获取准确结果。”
Rajneesh Singh,Amazon Rekognition 和视频软件工程总监