Amazon EC2 DL1 实例由 Habana Labs(Intel 公司)的 Gaudi 加速器提供支持,可以为自然语言处理、对象检测和图像识别使用案例提供低训练成本的深度学习模型。与当前一代基于 GPU 的 EC2 实例相比,DL1 实例为训练深度学习模型提供多达 40% 的性价比。
Amazon EC2 DL1 实例具有 8 个 Gaudi 加速器,每个加速器搭载 32 GiB 的高带宽内存 (HBM),此外还配备 768GiB 的系统内存、定制的第二代英特尔至强可扩展处理器、400Gbps 的联网吞吐量以及 4TB 的本地 NVMe 存储。
DL1 实例包括 Habana SynapseAI® SDK,集成先进的机器学习框架,例如 TensorFlow 和 PyTorch。
借助 AWS Deep Learning AMI 或 AWS Deep Learning Containers,或者适用于容器化应用程序的 Amazon EKS 和 ECS,您可以轻松开始使用 DL1 实例。Amazon SageMaker 中即将推出对 DL1 实例的支持
优势
降低深度学习模型的训练成本
与基于 GPU 的近期 EC2 实例相比,DL1 实例为训练深度学习模型提供多达 40% 的性价比。这些实例配备专为训练深度学习模型设计的 Gaudi 加速器。您还可以使用 EC2 Savings Plan 显著降低深度学习模型的训练成本,从而进一步节省成本。
易用性和代码可移植性
各专业级别的开发人员均可轻松开始使用 DL1 实例。他们可以借助 AWS DL AMI 和 DL Containers 开始使用 DL1 实例,从而继续使用他们自己的工作流管理服务。高级用户还可以使用 Gaudi 的可编程 Tensor Processing Core(TPC)构建自定义内核,优化他们的模型性能。借助 Habana SynapseAI® 工具,他们只需进行很少的代码更改,即可将基于 GPU 或 CPU 的实例上运行的现有模型无缝迁移到 DL1 实例。
支持先进的 ML 框架和模型
DL1 实例支持先进的 ML 框架(例如 TensorFlow 和 PyTorch),允许您继续使用自己首选的 ML 工作流。您可以访问 Habana 的 GitHub 存储库上经过优化的模型(例如适用于对象检测的 Mask R-CNN、适用于自然语言处理的 BERT),快速构建、训练和部署您自己的模型。SynapseAI 的丰富 Tensor Processing Core(TPC)内核库支持广泛运算符和多种数据类型,可以满足一系列模型和性能需求。
功能
由 Habana Labs 的 Gaudi 加速器提供支持
DL1 实例由 Habana Labs(Intel 公司)的 Gaudi 加速器提供支持,配备八个完全可编程的 TPC,并且每个加速器搭载 32 GiB 的高带宽内存。这些实例具有可更大限度地提高训练效率的异构计算架构,以及用于矩阵数据运营的可配置集中式引擎。它们还具有行业的唯一原生集成,每个 Gaudi 加速器配备十个 100GB 以太网端口,从而在加速器之间实现低延迟通信。
Habana SynapseAI® SDK
SynapseAI® SDK 包括图形编译器和运行时、TPC 内核库、固件、驱动程序和工具。它集成了先进框架,例如 TensorFlow 和 PyTorch。 它的通信库有助于快速纵向扩展到多个加速器,而使用的操作与您现在使用的基于 GPU 的实例相同。这种确定性扩展可以跨各种神经网络拓扑提高利用率和效率。 借助 SynapseAI® 工具,您只需进行很少的代码更改,即可将您的现有模型集成到 DL1 实例并在上面运行。
高性能联网和存储
对于需要访问高速联网的应用程序,DL1 实例提供 400Gbps 的联网吞吐量,并且支持连接 Amazon Elastic Fabric Adapter(EFA)和 Amazon Elastic Network Adapter(ENA)。为快速访问大型数据集,DL1 实例还包括 4TB 的本地 NVMe 存储,并提供 8GB/秒的读取吞吐量。
依托 AWS Nitro 系统构建
DL1 实例依托 AWS Nitro 系统构建,该系统是丰富的构建数据块集合,可将许多传统虚拟化功能卸载到专用硬件和软件,实现高性能、高可用性和高安全性,同时还可降低虚拟化开销。
产品详细信息
实例大小 |
vCPU |
实例内存(GiB) |
Gaudi 加速器 |
网络带宽(Gbps) |
加速器对等双向 (Gbps) |
实例存储 (GB) | EBS 带宽 (Gbps) | 按需(价格/小时) | 1 年期预留实例的有效小时* | 3 年期预留实例的有效小时* |
dl1.24xlarge |
96 |
768 |
8 |
400 |
100 |
4 x 1000 NVMe SSD |
19 | 13.11 美元 | 7.87 美元 | 5.24 美元 |
*显示的价格适用于美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域。
客户评价
40 多年来,Seagate Technology 在提供数据存储和管理解决方案领域一直是全球领先公司。Seagate 的数据科学和机器学习工程师已经构建先进的深度学习(DL)缺陷检测系统,并且将其部署于公司的全球制造设施。 在近期的概念验证项目中,Habana Gaudi 超额完成了 Seagate 生产环境中当前所用的其中一个 DL 语义分割模型的训练性能目标。
“我们希望 Amazon EC2 DL1 实例(由 Habana Gaudi 加速器提供支持)的显著性价比优势可以成为 AWS 计算集群的进一步有力补充。随着 Habana Labs 持续发展并且支持覆盖更广泛的运算符,有可能扩展到其他企业使用案例,从而节省更多成本。”
Darrell Louder,Seagate 运营、技术和高级分析的高级工程总监
Leidos 是公认的十大健康领域 IT 提供商,为医院和健康系统、生物医学组织以及每个专注于健康的美国联邦机构提供广泛的可定制、可扩展的解决方案。
“今天,我们借助众多技术推动医护发展,其中一项技术是利用机器学习和深度学习,基于医疗影像数据进行疾病诊断。我们需要及时有效地训练海量数据集,才能帮助研究人员解决一些非常紧迫的医疗谜团。鉴于 Leidos 及其客户要求以快速、简单且经济高效的方式训练深度学习模型,我们很高兴能够与 Intel 和 AWS 一起开始基于 Habana Gaudi AI 处理器使用 Amazon EC2 DL1 实例。借助 DL1 实例,我们希望提高模型的训练速度和效率,从而降低研究和开发的风险和成本。”
Chetan Paul,Leidos 健康与公众服务领域 CTO
Intel 开发了 3D 运动员追踪技术,可以实时分析运动员行动视频,指导性能训练流程,并且提高比赛期间的观众体验。
“基于 Amazon EC2 DL1 实例(由 Habana Labs 的 Gaudi 加速器提供支持)训练我们的模型,这样可以助力我们准确可靠地处理数千个视频并生成相关的性能数据,同时降低训练成本。借助 DL1 实例,我们现在可以按所需的速度和成本进行训练,从而在各种体育运动中为所有级别的运动员、团队和广播员提供服务。
Rick Echevarria,Intel 销售和营销部的副总裁
RiskFuel 为管理金融投资组合的公司提供实时估值和风险敏感度,帮助他们提高交易准确性和绩效。
“有两个因素推动我们使用基于 Habana Gaudi AI 加速器的 Amazon EC2 DL1 实例。第一,我们希望确保我们的银行和保险客户能够运行利用新硬件的 Riskfuel 模型。幸运的是,我们发现将模型迁移到 DL1 实例非常简单明了 – 实际上,只需更改几行代码即可。第二,训练成本是我们的主要支出,而高达 40% 的性价比提升承诺可以潜在地实质性提高我们的利润。”
Ryan Ferguson,Riskfuel 首席执行官(CEO)
Fractal 是人工智能和分析领域的全球领先公司,为财富 500 强公司提供决策支持。
“AI 和深度学习是我们的机器视觉功能的核心,支持客户在我们服务的行业中做出更好的决策。为提高准确度,数据集变得更大、更复杂,需要更大、更复杂的模型。这就需要改进计算价格性能。新 Amazon EC2 DL1 实例相较于基于 GPU 的 EC2 实例,保证可以显著降低训练成本。我们希望,借此提高基于云的 AI 模型训练的成本竞争力,并且比以往适用于更广泛的客户。”
Srikanth Velamakanni,Fractal 集团首席执行官(CEO)
入门
AWS Deep Learning AMIs(DLAMI)和 AWS Deep Learning Containers(DLC)
AWS Deep Learning AMIs(DLAMI)和 AWS Deep Learning Containers(DLC)为数据科学家、ML 从业者和研究人员提供预先通过深度学习框架安装的机器和容器映像,让您可以跳过从头构建和优化软件环境的复杂流程,从而轻松入门。适用于 Gaudi 加速器的 SynapseAI SDK 已集成到 AWS DL AMI 和 DLC,支持您快速开始使用 DL1 实例。
Amazon Elastic Kubernetes Service(EKS)或 Elastic Container Service(ECS)
首选通过容器编排服务管理其容器化工作负载的客户可以使用 Amazon EKS 或 ECS 部署 DL1 实例。