将分布式机器学习(ML)训练扩展到数千个加速实例,并在生产环境中无缝部署模型以进行推理。
利用最新的驱动程序、框架、库和工具开发加速器,包括 AWS Trainium、AWS Inferentia 和 NVIDIA GPU。
通过定期修补的自定义的稳定系统映像解决安全漏洞,从而降低风险。
工作原理
AWS Deep Learning AMI(DLAMI)为机器学习从业者和研究人员提供一组精心策划的安全框架、依赖项和工具,以加速 Amazon EC2 中的深度学习。亚马逊机器映像(AMI)专为 Amazon Linux 和 Ubuntu 构建,预配置了 TensorFlow、PyTorch、NVIDIA CUDA 驱动程序和库、Intel MKL、Elastic Fabric Adapter(EFA)和 AWS OFI NCCL 插件,让您可以快速地大规模部署和运行这些框架和工具。
使用案例
无人驾驶汽车开发
大规模开发高级 ML 模型,通过使用数百万受支持的虚拟测试验证模型,安全地开无人驾驶汽车 (AV) 技术。
自然语言处理
使用最新的框架和库(包括 Hugging Face Transformers)加快 AWS 实例的安装与配置,同时加快实验和评估流程。
医疗保健数据分析
使用高级分析、ML 和深度学习功能识别趋势,并且根据不同的原始运行状况数据进行预测。
加速模型训练
DLAMI 通过预配置的驱动程序、Intel Math Kernel Library (MKL)、Python 程序包和 Anaconda Platform 包括最新的 NVIDIA GPU 加速。
客户成功案例
Cimpress 长期投资和建立以客户为中心的创业型印刷大规模定制业务。Cimpress 让客户能以轻松且经济实惠的方式给客户、组织或亲人留下深刻的印象。无论是扩大企业品牌的宣传材料还是庆祝出生的公告,Cimpress 都能将客户想要的个性化需求与实物产品的切实影响完美融合。
“Cimpress 使用 AWS Deep Learning AMI 来快速设置和部署我们的机器学习环境。DLAMI 减少了我们的运营开销,通过专注于训练和部署用于计算机视觉和生成式人工智能的深度学习模型的核心工作,我们能够更快地将产品推向市场。”
Ajay Joshi,Cimpress 首席软件工程师
Flip AI 是第一个不受数据和平台限制的 GenAI 原生可观测性平台,了解所有可观察性模式(包括指标、事件、日志和跟踪),并可在几秒钟内生成预测和事件根本原因分析。
“在 Flip AI,我们训练了自己的 DevOps LLM 来调试生产事件,以帮助企业达到最高水平的客户体验。此训练需要易于定制的高性能设置。有了 DLAMI,我们不需要与 CUDA 驱动程序或 Pytorch 相关优化进行斗争。它的确很棒!提高 GPU 利用率意味着我们能够更有效地训练模型,并将推理时间缩短 10 毫秒。”
Sunil Mallya,Flip AI 首席技术官