适用于 Lustre 的 Amazon FSx 客户

  • Adobe

    Adobe 成立于 40 年前,公司理念简单纯粹,即创造改变世界的创新产品。Adobe 提供突破性技术,让世界各地的每个人都能够想象、创造数字化体验,并将数字化体验融入日常生活。

    挑战:Adobe 决定训练自己的基础生成式人工智能模型,而非依赖开源模型,为创造性使用案例提供量身定制的服务。

    解决方案:Adobe 在 AWS 创建了人工智能高速公路,用于构建 AI 训练平台和数据管道,以快速迭代模型。Adobe 使用Amazon Elastic Compute Cloud (Amazon EC2) P5P4d 实例构建解决方案,由 NVIDIA GPUs、Amazon Elastic Kubernetes Service (Amazon EKS)、 Amazon Elastic Block Store (Amazon EBS)Amazon Elastic Fabric Adapter (EFA)提供支持。Adobe 还使用Amazon Simple Storage Service (Amazon S3) 作为数据湖和海量数据的主存储库。Adobe 使用适用于 Lustre 的 Amazon FSx 高性能文件存储、快速访问数据并确保 GPU 资源永不闲置。

    我很容易想到我们要创建自己的 AI 云,但是与 AWS 合作让我们能够专注于我们的差异化优势

    Alexandru Costin,Adobe 生成式人工智能和 Sensei 副总裁
    阅读 Adobe 案例研究。 »
  • LG AI Research

    LG AI Research LG AI Research 与世界领先的人工智能专家一起,旨在通过提供最佳研究环境和利用最先进的人工智能技术,引领人工智能的下一个时代,与您一起共创充满希望的未来。

    挑战:LG AI Research 需要在一年内将其基础模型 EXAONE 部署到生产中。EXAONE 代表“expert AI for everyone”(面向所有人的专家级人工智能),是一个具有 3000 亿参数的多模式模型,同时使用图像和文本数据。

    解决方案:LG AI Research 使用 Amazon SageMaker 来训练其大规模基础模型,同时使用适用于 Lustre 的 Amazon FSx 将数据分发到实例中以加快模型训练。LG AI Research 需要在一年内将其基础模型 EXAONE 部署到生产中。LG AI Research 在一年内成功部署了 EXAONE,不再需要单独的基础设施管理团队,从而将成本降低了大约 35%。

    阅读 LG AI Research 案例研究。 »
  • Paige

    Paige 是领先的数字病理学转型提供商,提供全面、支持人工智能、基于 Web 的解决方案,为癌症诊断带来了效率和信心。

    挑战:Paige 的本地解决方案已达到最大限度。他们的目标是训练人工智能和机器学习模型来帮助癌症病理学。Paige 发现,他们拥有的计算能力越强,他们训练模型和帮助解决诊断问题的速度就越快。

    解决方案:为了运行机器学习训练工作负载,Paige 选择了由 NVIDIA A100 Tensor Core GPU 提供支持的 Amazon EC2 P4d 实例,这些实例为云端的机器学习训练和 HPC 应用程序提供高性能。Paige 使用适用于 Lustre 的 Amazon FSx,这是一种基于常用的高性能文件系统构建的完全托管式共享存储。该公司将这项服务与其一些 Amazon S3 存储桶连接起来,这可以帮助其开发团队处理 PB 级的机器学习输入数据,而无需在高性能文件系统上手动预存数据。AWS 解决方案的结果是,使用适用于机器学习的 AWS 基础设施,Paige 可以训练本地数据量 10 倍的数据。  Paige 还使用 Amazon EC2 和适用于 Lustre 的 Amazon FSx 将内部工作流的速度提高了 72%。 

    通过将适用于 Lustre 的 Amazon FSx 连接到 Amazon S3,我们可以毫不费力地使用本地基础设施中尝试过的数据量的 10 倍进行训练。

    Alexander van Eck,Paige staff AI engineer
    阅读案例研究《Paige 使用通过 Amazon EC2 P4d 实例构建的混合机器学习工作流推进癌症治疗》。 »
  • Toyota

    Toyota Research Institute 选用 FSx for Lustre 来缩短对象识别机器学习训练时间。

    Toyota Research Institute(TRI)收集并处理来自其自动驾驶汽车(AV)试驾的大量传感器数据。每个训练数据集暂存于本地 NAS 设备并传输到 Amazon Simple Storage Service(Amazon S3),然后在强大的 GPU 计算集群上进行处理。TRI 需要高性能文件系统,来匹配他们的计算资源,加快机器学习模型训练速度,并推动数据科学家快速获得见解。

    我们需要适用于机器学习训练数据集的并行文件系统,与我们的传统文件系统产品相比,Amazon FSx for Lustre 具有更高的可用性和持久性,因此我们选择了此产品。此外,它与 AWS 服务(包括 S3)集成,这也使其成为我们高性能文件存储的首选。

    David Fluck,软件工程师 – Toyota Research Institute
  • Shell

    Shell 提供动态的能源选择组合,从石油、天然气和石化产品到风能、太阳能和氢,Shell 很自豪能够为客户提供生活所需的能源。 

    挑战:Shell 依靠 HPC 进行模型构建、测试和验证。从 2020 年到 2022 年,GPU 利用率平均不到 90%,这导致了项目延迟而且限制了新算法实验的效果。

    解决方案:Shell 通过将 Amazon EC2 集群和适用于 Lustre 的 Amazon FSx 扩展到云端,从而增强其本地计算容量。该解决方案使 Shell 能够快速扩缩,并且仅在需要时才购买额外的计算容量。Shell 的 GPU 现已得到充分利用,从而降低了计算成本并加快了机器学习模型的测试。

  • Storengy

    ENGIE Group 的子公司 Storengy 是出色的天然气供应商。该公司为全球企业提供天然气储存、地热解决方案、无碳能源生产和储存技术。

    为确保正确储存其产品,Storengy 使用高科技模拟器来评估地下天然气储存情况,该过程需要大量使用高性能计算(HPC)工作负载。该公司还使用 HPC 技术开展天然气发现和勘探工作。

    得益于 AWS,我们获得了可扩展性和高可用性,可以一次执行数百次模拟。此外,该解决方案会自动扩缩以支持我们的高峰工作负载时段,这意味着我们的 HPC 环境不会发生任何意外。

    Jean-Frederic Thebault – Storengy 工程师
  • Smartronix

    Smartronix 利用 FSx for Lustre 为其 SAS Grid 部署提供可靠的高性能。

    Smartronix 为世界上许多知名的商业和联邦组织提供云解决方案、网络安全、系统集成、全球 C5ISR 和数据分析,以及以任务为中心的工程。Smartronix 依靠 SAS Grid 来分析和提供全美范围内的新冠每日统计数据,发现他们自主管理的并行文件系统难以管理和保护。

    通过与 AWS 合作并利用他们的托管解决方案(例如 FSx for Lustre),我们能够更好地为客户提供服务 – 与自主管理的文件系统相比,可用性更高,成本降低了 29%。

    Rob Mounier – Smartronix 高级解决方案架构师
  • Netflix

    Netflix 是一项流式传输服务,提供各种屡获殊荣的电视节目、电影、动画、纪录片等。

    挑战:Netflix 对媒体机器学习模型、后期制作缩略图、视觉特效和成千上万个视频和数百万个片段的预告片生成使用大规模分布式训练。由于跨节点复制和 40% 的 GPU 空闲时间,Netflix 的等待时间很长。

    解决方案:Netflix 重新设计了其数据加载管道,并通过预先计算所有视频/音频片段来提高效率。Netflix 还选择 Amazon UltraClusters(EC2 P4d 实例)来提高计算性能。通过适用于 Lustre 的 Amazon FSx 性能,Netflix 能够让 GPU 饱和,几乎消除 GPU 的空闲时间。现在,使用预计算和适用于 Lustre 的 FSx,Netflix 的性能提高了 3-4 倍,将模型训练时间从一周缩短到 1-2 天。

    观看视频:通过适用于 Lustre 的 Amazon FSx 对媒体机器学习模型进行大规模分布式训练。 »
  • Hyundai

    Hyundai Motor Company 已发展成为全球知名的汽车制造商,其品牌汽车出口到 200 多个国家/地区。

    挑战:自动驾驶中经常使用的算法之一是语义分割,这是一项使用对象类对图像的每个像素进行注释的任务。这些类可以是道路、人、汽车、建筑、植被、天空等。Hyundai 测试准确度,并收集其他图像以纠正特定情况下预测性能不足的问题。但是,这可能是一个挑战,因为通常没有足够的时间来准备所有新数据,同时留出足够的时间来训练模型并在预定的截止日期之前完成任务。

    解决方案:Hyundai 选择 Amazon SageMaker 自动进行模型训练,选择 Amazon SageMaker 库进行数据并行处理,以便从单个 GPU 转移到分布式训练。他们选择适用于 Lustre 的 Amazon FSx 来训练模型,无需等待数据副本。他们还选择 Amazon S3 进行永久数据存储。Hyundai 通过 8 个 GPU 实例(总共 64 个 GPU)实现了高达 93% 的扩展效率。通过适用于 Lustre 的 FSx,Hyundai 能够在零等待时间的情况下针对相同的数据运行多个训练作业和实验。

    阅读客户博客文章 »
  • Rivian

    Rivian 的使命是让世界永远充满刺激。我们相信,我们能以更负责任的方式来探索世界,并决心使向可持续交通的过渡成为令人振奋之举。

    为了按计划加快工程工作并降低开发物理原型的必要性,电动汽车制造商 Rivian 采用高级建模和模拟技术。利用高计算容量,模拟使工程师能够测试新的概念,并将他们的设计快速投入到市场。

    通过与 Amazon 合作,Rivian 可以专注于可持续的汽车开发和交付(而非 IT)。通过 Amazon,我们运行关键开发应用程序的速度比本地更快,包括:在 Elements 上提高了 56%,在 Siemens 上提高了 35%,以及在 Ansys 上提高了 20%。

    Madhavi Osanaka,Rivian CIO
    阅读 Rivian 案例研究 »
  • DENSO

    Denso 为高级驾驶辅助系统(ADAS)开发图像传感器,可帮助驾驶员使用停车和变道等功能。

    挑战:为了开发用于 ADAS 图像识别的必要机器学习模型,DENSO 在其本地环境中构建了 GPU 集群。但是,多名机器学习工程师共享有限的 GPU 资源,这影响了工作效率,尤其是在新产品发布前的繁忙时期。

    解决方案:通过采用 Amazon SageMaker 和适用于 Lustre 的 Amazon FSx,Denso 能够缩短数据采集、模型开发、学习和评估时间,从而加快 ADAS 图像识别模型的创建。

    “在人工智能和机器学习领域,向云端转移的实践将继续加速。我相信,随着我们继续增加功能,AWS 将继续为我们提供支持。”

    Kensuke Yokoi,DENSO general manager
    阅读 Denso 案例研究。 »
  • Joby Aviation

    Joby Aviation 使用 AWS 革新交通方式。

    挑战:Joby 工程师依靠高性能计算(HPC)进行数千次复杂的计算密集型计算流体动力学(CFD)模拟,每次使用数百个 CPU 内核,可能需要数小时才能完成。

    解决方案:与本地高性能计算基础设施相比,通过使用 Amazon Elastic Compute Cloud(Amazon EC2)和 Amazon FSx for Lustre,Joby 能够更快地从 CFD 工作负载中获得结果。

    在尝试同时运行数十次模拟时,我们一次只能读取和写入几千兆字节的数据,这减慢了一切的速度。FSx for Lustre 消除了这些容量问题。我们现在可以轻松地增加硬盘的大小。

    Alex Stoll,Joby Aviation 航空力学主管
    阅读 Joby Aviation 案例研究 »
  • T-Mobile

    借助 Amazon FSx for Lustre,T-Mobile 每年可节省 150 万美元,并将 SAS Grid 工作负载的速度提高一倍。

    挑战:T-Mobile 因自主管理的 SAS Grid 工作负载而遇到了高管理开销和性能问题。

    解决方案:T-Mobile 部署了 Amazon FSx for Lustre,这是完全托管的高性能文件系统,用于迁移和扩展其 SAS Grid 基础设施。T-Mobile 利用 Amazon FSx 与 S3 的紧密集成来减少存储开销并优化运营。

    Amazon FSx for Lustre 帮助我们将 SAS Grid 工作负载的处理速度提高了一倍,将总拥有成本降低了 83%,并完全消除了我们的运营负担。通过与 AWS 合作,我们能够专注于我们最擅长的事情,为客户开发创新产品,同时使用 FSx 的先进存储功能和 AWS 的出色托管能力。

    Dinesh Korde,软件开发高级经理 – T-Mobile
  • Netflix

    Netflix 的剧集《王冠》第四季的制作面临着意想不到的挑战,因为新型冠状病毒感染疫情,世界进入了封锁状态,而当时正值后期特效工作开始的时候。通过在 AWS 上采用基于云的工作流程,包括适用于增强吞吐量的 Amazon FSx Lustre 文件服务器,Netflix 内部视觉特效团队的 10 名艺术家在短短 8 个月内就完成了该季 10 集剧集的 600 多个视觉特效镜头,这些工作全部都在远程完成。 

    阅读“The Crown' in the Cloud”博客文章 »
  • Maxar

    Maxar 使用 AWS 提供预测的速度比其天气超级计算机快 58%。

    挑战:Maxar Technologies 是地球情报和太空基础设施领域值得信赖的合作伙伴和创新者,需要以比其本地超级计算机更快的速度预测天气。

    解决方案:Maxar 与 AWS 合作,使用关键技术创建了 HPC 解决方案,包括用于安全且高度可靠的计算资源的 Amazon Elastic Compute Cloud(Amazon EC2)、用于加速其应用程序读取/写入吞吐量的 Amazon FSx for Lustre,以及用于在 AWS 上快速构建 HPC 计算环境的 AWS ParallelCluster

    Maxar 使用我们 AWS HPC 解决方案中的 Amazon FSx for Lustre 来运行 NOAA 的数值天气预报模型。这使我们可以将计算时间缩短 58%,在大约 45 分钟内生成预测,从而实现更具成本效益的价格点。对我们来说,最大限度地利用我们的 AWS 计算资源意味着令人惊叹的性能提升。

    Stefan Cecelski,博士、高级数据科学家兼工程师 – Maxar Technologies
    阅读 Maxar 案例研究 »
  • INEOS TEAM UK

    INEOS TEAM UK 使用 AWS 加速面向美洲杯帆船赛的帆船设计。

    挑战:INEOS TEAM UK 成立于 2018 年,旨在将美洲杯帆船赛(世界上最古老的国际体育奖杯)引入英国。美洲杯帆船赛将水上测试时间限定在赛事开始前 150 天内,因此对单体船和翼板进行高性能计算流体力学(CFD)模拟是帆船设计获奖的关键。 

    解决方案:借助 AWS,INEOS TEAM UK 可在一周内为其面向美洲杯帆船赛的帆船执行数千次的设计模拟,而使用本地环境则需要一个多月。INEOS TEAM UK 在 2021 年参加了第 36 届美洲杯帆船赛。该帆船队使用基于 Amazon EC2 竞价型实例运行的 HPC 环境。  为确保快速的磁盘性能以支持每周数千次的模拟需求,该帆船队还使用了 Amazon FSx for Lustre 来提供基于 Amazon Simple Storage Service(S3)的快速、可扩展、安全的高性能文件系统。

    在 AWS 的帮助下,我们能够采取更大的设计步骤,这仅仅因为我们有更多时间来了解我们的结果。

    Nick Holroyd,设计主管 – INEOS TEAM UK
    阅读 INEOS TEAM UK 案例研究 »
  • Hive VFX

    Hive VFX 削减了前期工作室成本,在 AWS 上运行云视觉特效工作室。

    挑战:Hive 需要使用高性能基础设施来启动小型的独立云工作室,以便世界各地的远程艺术家创作高质量的内容。

    解决方案:完全托管的 Amazon FSx for Lustre 与 Amazon S3 集成,让您无需大量前期投资或内部 IT 团队专业知识,即可快速访问 AWS 计算资源。FSx Lustre 与 S3 之间文件数据和文件权限的无缝同步使 Hive VFX 能够存储大量图像并在各大洲共享项目数据。

    我可以在 5 分钟内启动适用于 Lustre 的 Amazon FSx 文件系统,该系统全部由 AWS 管理。

    Bernie Kimbacher,创始人 – Hive VFX
    阅读 Hive VFX 案例研究 »
  • Lyell

    Lyell 使用 Amazon FSx for Lustre 加速了他们基于细胞的癌症治疗研究。

    挑战:Lyell 提供基于细胞的有效癌症治疗手段,需要运行大规模的蛋白质计算设计。传统上,这些工作负载在本地运行,但该公司需要更具可扩展性、更具成本效益的解决方案,因为他们每月只能运行一次实验。

    解决方案:自从将文件系统迁移到 FSx for Lustre 后,数据科学家可以启动和关闭数千个 HPC 集群(包括 EC2 实例和 Amazon FSx 文件系统),从而能够快速运行处理密集型实验,并且只需为工作负载期间的计算和存储付费。

    Amazon for FSx Lustre 加快了我们在下一代癌症治疗方法方面的研究速度。使用 FSx,我们将实验的执行时间从数周缩短到了数小时,并使科学家能够检验比以前更多的假设。现在,我们在成千上万个计算节点上运行的工作负载可以使用 FSx 访问超高集合的 S3 数据。

    Anish Kejariwal,数据分析工程主管 – Lyell Immunopharma
  • BlackThorn Therapeutics

    BlackThorn Therapeutics 借助 FSx for Lustre 缩短获得见解的时间。

    挑战:使用标准 DiY 云文件系统处理磁共振成像(MRI)数据时需要大量资源和时间。BlackThorn 需要一种计算密集型共享文件存储解决方案,以帮助简化他们的数据科学和机器学习工作流程。

    解决方案:Amazon FSx for Lustre 与 Amazon S3 和 Amazon SageMaker 集成,帮助他们快速处理机器学习训练数据集,并使用 Amazon EC2 实例无缝访问计算。

    FSx for Lustre 使我们能够创建高性能 MRI 数据处理管线。我们基于机器学习的工作流程的数据处理时间缩减到几分钟,而不是几天和几周。

    Oscar Rodriguez,创新与技术高级总监 – BlackThorn Therapeutics
  • Qubole

    Qubole 使用 Amazon FSx for Lustre 提高了数据持久性,同时降低了成本。

    挑战:Qubole 想要寻找高性能存储解决方案,为其客户处理分析工作负载和 AI/ML 工作负载。他们需要轻松存储和处理其 EC2 竞价型实例集中的中间数据。

    解决方案:Qubole 使用 Amazon FSx for Lustre,通过并行、高速文件系统来存储和处理中间数据。

    我们的用户面临的两大问题是高成本和中间数据丢失,这源于使用闲置的 EC2 实例和 EC2 竞价型实例来处理和存储由 Hive 和 Spark 等分布式处理框架生成的中间数据。通过使用 Amazon FSx for Lustre(一种高性能文件系统)来卸载中间数据,我们成功解决了这个问题。现在,我们的用户不必为维护闲置实例付费,也不会受到中断的 EC2 竞价型节点的影响。Amazon FSx 帮助我们的用户将总成本降低了 30%。

    Joydeep Sen Sarma,首席技术官 – Qubole