适用于 Lustre 的 Amazon FSx 客户
-
Adobe
Adobe 成立于 40 年前,公司理念简单纯粹,即创造改变世界的创新产品。Adobe 提供突破性技术,让世界各地的每个人都能够想象、创造数字化体验,并将数字化体验融入日常生活。
挑战:Adobe 决定训练自己的基础生成式人工智能模型,而非依赖开源模型,为创造性使用案例提供量身定制的服务。
解决方案:Adobe 在 AWS 创建了人工智能高速公路,用于构建 AI 训练平台和数据管道,以快速迭代模型。Adobe 使用Amazon Elastic Compute Cloud (Amazon EC2) P5 和 P4d 实例构建解决方案,由 NVIDIA GPUs、Amazon Elastic Kubernetes Service (Amazon EKS)、 Amazon Elastic Block Store (Amazon EBS)和 Amazon Elastic Fabric Adapter (EFA)提供支持。Adobe 还使用Amazon Simple Storage Service (Amazon S3) 作为数据湖和海量数据的主存储库。Adobe 使用适用于 Lustre 的 Amazon FSx 高性能文件存储、快速访问数据并确保 GPU 资源永不闲置。
-
LG AI Research
LG AI Research LG AI Research 与世界领先的人工智能专家一起,旨在通过提供最佳研究环境和利用最先进的人工智能技术,引领人工智能的下一个时代,与您一起共创充满希望的未来。
挑战:LG AI Research 需要在一年内将其基础模型 EXAONE 部署到生产中。EXAONE 代表“expert AI for everyone”(面向所有人的专家级人工智能),是一个具有 3000 亿参数的多模式模型,同时使用图像和文本数据。
解决方案:LG AI Research 使用 Amazon SageMaker 来训练其大规模基础模型,同时使用适用于 Lustre 的 Amazon FSx 将数据分发到实例中以加快模型训练。LG AI Research 需要在一年内将其基础模型 EXAONE 部署到生产中。LG AI Research 在一年内成功部署了 EXAONE,不再需要单独的基础设施管理团队,从而将成本降低了大约 35%。
-
Paige
Paige 是领先的数字病理学转型提供商,提供全面、支持人工智能、基于 Web 的解决方案,为癌症诊断带来了效率和信心。
挑战:Paige 的本地解决方案已达到最大限度。他们的目标是训练人工智能和机器学习模型来帮助癌症病理学。Paige 发现,他们拥有的计算能力越强,他们训练模型和帮助解决诊断问题的速度就越快。
解决方案:为了运行机器学习训练工作负载,Paige 选择了由 NVIDIA A100 Tensor Core GPU 提供支持的 Amazon EC2 P4d 实例,这些实例为云端的机器学习训练和 HPC 应用程序提供高性能。Paige 使用适用于 Lustre 的 Amazon FSx,这是一种基于常用的高性能文件系统构建的完全托管式共享存储。该公司将这项服务与其一些 Amazon S3 存储桶连接起来,这可以帮助其开发团队处理 PB 级的机器学习输入数据,而无需在高性能文件系统上手动预存数据。AWS 解决方案的结果是,使用适用于机器学习的 AWS 基础设施,Paige 可以训练本地数据量 10 倍的数据。 Paige 还使用 Amazon EC2 和适用于 Lustre 的 Amazon FSx 将内部工作流的速度提高了 72%。
-
Toyota
Toyota Research Institute 选用 FSx for Lustre 来缩短对象识别机器学习训练时间。
Toyota Research Institute(TRI)收集并处理来自其自动驾驶汽车(AV)试驾的大量传感器数据。每个训练数据集暂存于本地 NAS 设备并传输到 Amazon Simple Storage Service(Amazon S3),然后在强大的 GPU 计算集群上进行处理。TRI 需要高性能文件系统,来匹配他们的计算资源,加快机器学习模型训练速度,并推动数据科学家快速获得见解。
-
Shell
Shell 提供动态的能源选择组合,从石油、天然气和石化产品到风能、太阳能和氢,Shell 很自豪能够为客户提供生活所需的能源。
挑战:Shell 依靠 HPC 进行模型构建、测试和验证。从 2020 年到 2022 年,GPU 利用率平均不到 90%,这导致了项目延迟而且限制了新算法实验的效果。
解决方案:Shell 通过将 Amazon EC2 集群和适用于 Lustre 的 Amazon FSx 扩展到云端,从而增强其本地计算容量。该解决方案使 Shell 能够快速扩缩,并且仅在需要时才购买额外的计算容量。Shell 的 GPU 现已得到充分利用,从而降低了计算成本并加快了机器学习模型的测试。
-
Storengy
ENGIE Group 的子公司 Storengy 是出色的天然气供应商。该公司为全球企业提供天然气储存、地热解决方案、无碳能源生产和储存技术。
为确保正确储存其产品,Storengy 使用高科技模拟器来评估地下天然气储存情况,该过程需要大量使用高性能计算(HPC)工作负载。该公司还使用 HPC 技术开展天然气发现和勘探工作。
-
Smartronix
Smartronix 利用 FSx for Lustre 为其 SAS Grid 部署提供可靠的高性能。
Smartronix 为世界上许多知名的商业和联邦组织提供云解决方案、网络安全、系统集成、全球 C5ISR 和数据分析,以及以任务为中心的工程。Smartronix 依靠 SAS Grid 来分析和提供全美范围内的新冠每日统计数据,发现他们自主管理的并行文件系统难以管理和保护。
-
Netflix
Netflix 是一项流式传输服务,提供各种屡获殊荣的电视节目、电影、动画、纪录片等。
挑战:Netflix 对媒体机器学习模型、后期制作缩略图、视觉特效和成千上万个视频和数百万个片段的预告片生成使用大规模分布式训练。由于跨节点复制和 40% 的 GPU 空闲时间,Netflix 的等待时间很长。
解决方案:Netflix 重新设计了其数据加载管道,并通过预先计算所有视频/音频片段来提高效率。Netflix 还选择 Amazon UltraClusters(EC2 P4d 实例)来提高计算性能。通过适用于 Lustre 的 Amazon FSx 性能,Netflix 能够让 GPU 饱和,几乎消除 GPU 的空闲时间。现在,使用预计算和适用于 Lustre 的 FSx,Netflix 的性能提高了 3-4 倍,将模型训练时间从一周缩短到 1-2 天。
-
Hyundai
Hyundai Motor Company 已发展成为全球知名的汽车制造商,其品牌汽车出口到 200 多个国家/地区。
挑战:自动驾驶中经常使用的算法之一是语义分割,这是一项使用对象类对图像的每个像素进行注释的任务。这些类可以是道路、人、汽车、建筑、植被、天空等。Hyundai 测试准确度,并收集其他图像以纠正特定情况下预测性能不足的问题。但是,这可能是一个挑战,因为通常没有足够的时间来准备所有新数据,同时留出足够的时间来训练模型并在预定的截止日期之前完成任务。
解决方案:Hyundai 选择 Amazon SageMaker 自动进行模型训练,选择 Amazon SageMaker 库进行数据并行处理,以便从单个 GPU 转移到分布式训练。他们选择适用于 Lustre 的 Amazon FSx 来训练模型,无需等待数据副本。他们还选择 Amazon S3 进行永久数据存储。Hyundai 通过 8 个 GPU 实例(总共 64 个 GPU)实现了高达 93% 的扩展效率。通过适用于 Lustre 的 FSx,Hyundai 能够在零等待时间的情况下针对相同的数据运行多个训练作业和实验。
-
Rivian
Rivian 的使命是让世界永远充满刺激。我们相信,我们能以更负责任的方式来探索世界,并决心使向可持续交通的过渡成为令人振奋之举。
为了按计划加快工程工作并降低开发物理原型的必要性,电动汽车制造商 Rivian 采用高级建模和模拟技术。利用高计算容量,模拟使工程师能够测试新的概念,并将他们的设计快速投入到市场。
-
DENSO
Denso 为高级驾驶辅助系统(ADAS)开发图像传感器,可帮助驾驶员使用停车和变道等功能。
挑战:为了开发用于 ADAS 图像识别的必要机器学习模型,DENSO 在其本地环境中构建了 GPU 集群。但是,多名机器学习工程师共享有限的 GPU 资源,这影响了工作效率,尤其是在新产品发布前的繁忙时期。
解决方案:通过采用 Amazon SageMaker 和适用于 Lustre 的 Amazon FSx,Denso 能够缩短数据采集、模型开发、学习和评估时间,从而加快 ADAS 图像识别模型的创建。
-
Joby Aviation
Joby Aviation 使用 AWS 革新交通方式。
挑战:Joby 工程师依靠高性能计算(HPC)进行数千次复杂的计算密集型计算流体动力学(CFD)模拟,每次使用数百个 CPU 内核,可能需要数小时才能完成。
解决方案:与本地高性能计算基础设施相比,通过使用 Amazon Elastic Compute Cloud(Amazon EC2)和 Amazon FSx for Lustre,Joby 能够更快地从 CFD 工作负载中获得结果。
-
T-Mobile
借助 Amazon FSx for Lustre,T-Mobile 每年可节省 150 万美元,并将 SAS Grid 工作负载的速度提高一倍。
挑战:T-Mobile 因自主管理的 SAS Grid 工作负载而遇到了高管理开销和性能问题。
解决方案:T-Mobile 部署了 Amazon FSx for Lustre,这是完全托管的高性能文件系统,用于迁移和扩展其 SAS Grid 基础设施。T-Mobile 利用 Amazon FSx 与 S3 的紧密集成来减少存储开销并优化运营。
-
Netflix
Netflix 的剧集《王冠》第四季的制作面临着意想不到的挑战,因为新型冠状病毒感染疫情,世界进入了封锁状态,而当时正值后期特效工作开始的时候。通过在 AWS 上采用基于云的工作流程,包括适用于增强吞吐量的 Amazon FSx Lustre 文件服务器,Netflix 内部视觉特效团队的 10 名艺术家在短短 8 个月内就完成了该季 10 集剧集的 600 多个视觉特效镜头,这些工作全部都在远程完成。
-
Maxar
Maxar 使用 AWS 提供预测的速度比其天气超级计算机快 58%。
挑战:Maxar Technologies 是地球情报和太空基础设施领域值得信赖的合作伙伴和创新者,需要以比其本地超级计算机更快的速度预测天气。
解决方案:Maxar 与 AWS 合作,使用关键技术创建了 HPC 解决方案,包括用于安全且高度可靠的计算资源的 Amazon Elastic Compute Cloud(Amazon EC2)、用于加速其应用程序读取/写入吞吐量的 Amazon FSx for Lustre,以及用于在 AWS 上快速构建 HPC 计算环境的 AWS ParallelCluster。
-
INEOS TEAM UK
INEOS TEAM UK 使用 AWS 加速面向美洲杯帆船赛的帆船设计。
挑战:INEOS TEAM UK 成立于 2018 年,旨在将美洲杯帆船赛(世界上最古老的国际体育奖杯)引入英国。美洲杯帆船赛将水上测试时间限定在赛事开始前 150 天内,因此对单体船和翼板进行高性能计算流体力学(CFD)模拟是帆船设计获奖的关键。
解决方案:借助 AWS,INEOS TEAM UK 可在一周内为其面向美洲杯帆船赛的帆船执行数千次的设计模拟,而使用本地环境则需要一个多月。INEOS TEAM UK 在 2021 年参加了第 36 届美洲杯帆船赛。该帆船队使用基于 Amazon EC2 竞价型实例运行的 HPC 环境。 为确保快速的磁盘性能以支持每周数千次的模拟需求,该帆船队还使用了 Amazon FSx for Lustre 来提供基于 Amazon Simple Storage Service(S3)的快速、可扩展、安全的高性能文件系统。
-
Hive VFX
Hive VFX 削减了前期工作室成本,在 AWS 上运行云视觉特效工作室。
挑战:Hive 需要使用高性能基础设施来启动小型的独立云工作室,以便世界各地的远程艺术家创作高质量的内容。
解决方案:完全托管的 Amazon FSx for Lustre 与 Amazon S3 集成,让您无需大量前期投资或内部 IT 团队专业知识,即可快速访问 AWS 计算资源。FSx Lustre 与 S3 之间文件数据和文件权限的无缝同步使 Hive VFX 能够存储大量图像并在各大洲共享项目数据。
-
Lyell
Lyell 使用 Amazon FSx for Lustre 加速了他们基于细胞的癌症治疗研究。
挑战:Lyell 提供基于细胞的有效癌症治疗手段,需要运行大规模的蛋白质计算设计。传统上,这些工作负载在本地运行,但该公司需要更具可扩展性、更具成本效益的解决方案,因为他们每月只能运行一次实验。
解决方案:自从将文件系统迁移到 FSx for Lustre 后,数据科学家可以启动和关闭数千个 HPC 集群(包括 EC2 实例和 Amazon FSx 文件系统),从而能够快速运行处理密集型实验,并且只需为工作负载期间的计算和存储付费。
-
BlackThorn Therapeutics
BlackThorn Therapeutics 借助 FSx for Lustre 缩短获得见解的时间。
挑战:使用标准 DiY 云文件系统处理磁共振成像(MRI)数据时需要大量资源和时间。BlackThorn 需要一种计算密集型共享文件存储解决方案,以帮助简化他们的数据科学和机器学习工作流程。
解决方案:Amazon FSx for Lustre 与 Amazon S3 和 Amazon SageMaker 集成,帮助他们快速处理机器学习训练数据集,并使用 Amazon EC2 实例无缝访问计算。
-
Qubole
Qubole 使用 Amazon FSx for Lustre 提高了数据持久性,同时降低了成本。
挑战:Qubole 想要寻找高性能存储解决方案,为其客户处理分析工作负载和 AI/ML 工作负载。他们需要轻松存储和处理其 EC2 竞价型实例集中的中间数据。
解决方案:Qubole 使用 Amazon FSx for Lustre,通过并行、高速文件系统来存储和处理中间数据。