客户案例 / 生命科学

2022 年
Vertex 徽标

Vertex Pharmaceuticals 通过使用 AWS,将 Cryo-EM 的数据存储和处理成本降低了 50%

了解 Vertex Pharmaceuticals 如何通过在 AWS 上运行其 cryo-EM 工作流来加速药物研发。

2 倍

性能提升

>50%

成本减少

若干天

数据处理时间改进

3 个月

完成新架构的原型

增强

可扩展性和提高了的生产力

概览

Vertex Pharmaceuticals(Vertex)是一家全球生物技术公司,投资于科学创新,为患有严重疾病的人创造变革性药物。Vertex 使用低温电子显微镜(cryo-EM)生成复杂的图像,以此深入了解蛋白质的 3D 结构和潜在药物靶点的结构。通过这一过程,该公司的化学家可以通过优化药物分子的结构来设计更好的药物分子,使其与靶点结合。
 
但是,cryo-EM 工作流程需要大量的计算和存储资源。科学家需要在多个研究地点进行分析,产生 PB 级的数据。Vertex 需要使其基础设施可扩展,以支持其不断增长的需求,同时提供足够的处理能力来加速研究。
 
Vertex 将其数据存储和处理迁移到 Amazon Web Services(AWS)。该公司使用了多种 AWS 服务,包括 Amazon Elastic Compute Cloud(Amazon EC2),以提供安全且可调整大小的计算容量,支持几乎所有工作负载。Vertex 提升了其高性能计算(HPC)工作负载的性能,加快了数据分析,并使其系统可扩展,同时将总体存储和计算成本降低了 50% 以上。
在实验室工作的科学家

机会 | 加快 Cryo-EM 工作流的处理性能以更快地生成洞察 

Vertex 使用 cryo-EM,通过分析潜在药物靶点的分子结构,发现疾病的治疗方法。Vertex Pharmaceuticals 首席研究科学家 David Posson 表示:“Cryo-EM 使我们能够取得足够高的分辨率,以便深入了解蛋白质结构,而我们在几年前还不能进行这样的研究。”
 
然而,尽管这项先进技术释放了新发现和治疗的潜力,但对存储和计算容量的需求也在增加。“运行 cryo-EM 显微镜每天会产生数 TB 的数据。”Vertex Pharmaceuticals 软件工程高级主管 Roberto Iturralde 表示,“1 年内生成 1 PB 的数据很常见。” 此外,科学家还需要快速获得洞察。Vertex 用于运行 cryo-EM 工作负载的本地基础设施难以跟上其快速增长的计算和存储需求。
 
Vertex 最初不得不使用硬盘将所有数据从外部设备中的显微镜传输到其数据中心,耗时数周。当新数据出现时,该公司的本地 HPC 集群无法有效地处理突发的活动。在低活动期,也无法缩减规模。
 
如何长期存储数据是另一个挑战。科学家在几周后就很少会访问旧的显微镜数据。然而,Vertex 的本地环境并没有根据使用和访问模式进行优化,以节省成本。随着该领域的快速发展,为了跟上本地管理 cryo-EM 基础设施所需的持续硬件、软件、网络和安全升级,成本正变得越来越高昂。2022 年初,Vertex 意识到它需要一种更具弹性、性能更高的解决方案。
 
自 2015 年以来,Vertex 一直在使用 AWS 来处理不同的工作负载。受 AWS re:Invent 2021 推出的新功能的启发,Vertex 重新设计了其整个 cryo-EM 工作负载,并将其迁移到 AWS。该公司在短短 3 个月内就完成了新架构的原型设计。“AWS 拥有最为广泛、深入的一整套云原生技术,我们希望在 Vertex 使用。”Iturralde 表示,“使用 AWS 后,我们很快转向了一种新设计,以更好地满足科学家不断发展的需求。”
kr_quotemark

通过与 AWS 合作,我们能够花更多的时间关注如何创新。我们可以发挥创造力,利用云来加速我们的科学发展。”

Roberto Iturralde
Vertex Pharmaceuticals 软件工程高级主管

解决方案 | 使用 AWS ParallelCluster 降低数据存储成本并加快处理 

迁移到 AWS 后,Vertex 可以将其工作负载迁移到更接近数据到达 Amazon Simple Storage Service(Amazon S3)的位置,Amazon Simple Storage Service(Amazon S3)是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。Vertex 还使用了 Amazon FSx for Lustre,这是一种完全托管的共享存储,基于世界上最受欢迎的一套高性能文件系统构建,为科学家提供在主动分析过程中所需的存储资源。

处理后,Vertex 会将数据发送回 Amazon S3。该公司使用 Amazon S3 生命周期策略(一组规则,定义了将 Amazon S3 应用于一组对象的操作)高效地对数据进行排序。Iturralde 表示:“使用 Amazon S3 生命周期策略,我们可以将数据分为不同的级别,以降低存储成本。”该公司还可以无缝扩展其存储,从而限制数据中心开销。

为了管理数据处理的计算,Vertex 使用了 AWS ParallelCluster,这是一种开源的集群管理工具,可以直接在 AWS 上部署和管理弹性 HPC 集群。该工具将根据分析软件的需求随时运行和停止 HPC 节点。“完成后,我们可以把成本重新降为接近零的水平。”Iturralde 表示,“我们不必担心科学的发展速度会压垮我们的资源,或者将我们的注意力转移到维护基础设施上。”

通过将计算成本与工作负载需求相匹配,Vertex 将成本降低了 50%。此外,其性能比以前的架构提高了两倍。Vertex 还消除了其 cryo-EM 团队在与其他团队共享资源时(这种情况经常发生)面临的本地环境瓶颈。“以前,即使没有其他人使用资源,分析 cryo-EM 数据也要花费几周时间。”Posson 表示,“现在,使用 AWS,我们可以在 1 周内可靠地交付数据。”

Vertex 使用 Amazon Cognito 添加了原生单点登录支持,企业可以使用该功能快速轻松地向 Web 和移动应用程序添加注册、登录和访问控制。Iturralde 表示:“使用 Amazon Cognito 后,只有适当的员工才能访问该软件,这给我们带来了额外的安心。”除此之外,Vertex 还使用了应用程序负载均衡器(通过针对现代应用程序交付的高级请求路由来使 HTTP 和 HTTPS 流量负载均衡),以确保其网络安全。

通过 AWS,Vertex 在减少人工维护的同时,还使其流程高效、可扩展、经济高效。在 AWS 上进行构建也意味着该公司可以使用最新的计算和 GPU 资源,而无需花费数月的时间来采购数据中心硬件。例如,Vertex 正在运行 Amazon EC2 G5 实例,这些实例提供了 CPU、主机内存和 GPU 容量的强大组合。通过在云中执行 cryo-EM 处理,科学家可以近乎实时进行分析。Vertex 可以更有效地使用昂贵的显微镜时间,并促进科学突破。

结果 | 使用 Amazon EC2 加快数据处理以加速研究 

Vertex 已经缩短了交付分析结果所需的时间,但还希望进一步加快。“通过实时处理,我们可以从显微镜中导出数据后立即开始分析。”Posson 表示,“我们或许可以将原本 1 周的时间线缩短一半。”
 
Vertex 还计划继续提高其 HPC 基础设施的弹性和云原生性,以节省成本。“通过与 AWS 合作,我们能够花更多的时间关注如何创新。”Iturralde 表示,“我们可以发挥创造力,利用云来加速我们的科学发展。”

关于 Vertex Pharmaceuticals

Vertex 是一家总部位于波士顿的制药公司,该公司使用世界各地最新的显微镜技术研究复杂分子,以及严重疾病的治疗方法。

使用的 AWS 服务

Amazon S3

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。

了解更多 »

Amazon EC2

Amazon Elastic Compute Cloud(Amazon EC2)可以为几乎任何工作负载提供安全且大小可调的计算容量。

了解更多 »

AWS ParallelCluster

AWS ParallelCluster 是一个开源集群管理工具,可让您轻松在 AWS 上部署和管理高性能计算(HPC)集群。

了解更多 »

Amazon FSx for Lustre

Amazon FSx for Lustre 提供完全托管式共享存储,兼具常用 Lustre 文件系统的可扩展性和性能。

了解更多 »

行动起来

无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。