贝勒医学院的 HGSC 使用 AWS 上的 Illumina DRAGEN 更快地分析基因组数据
2022 年
贝勒医学院(Baylor)的人类基因组测序中心(HGSC)是少数几个获得美国国立卫生研究院 All of Us 研究计划资助的基因组测序实验室之一。2019 年,HGSC 开始探索解决方案,为其大型基因组数据集提供高度可扩展的安全分析。HGSC 聘请 AWS 高级合作伙伴 Illumina 全面评估 Illumina DRAGEN(基因组动态读取分析)Bio-IT 平台,这是一种生物信息学解决方案,可对测序数据进行高度准确、全面和高效的二次基因组分析,并使用现场可编程门阵列(FPGA)技术加速。
经过 DRAGEN 与 AWS 服务相结合使用,HGSC 每天可以分析数百个基因组样本。这一解决方案帮助 Baylor 提高了对美国国立卫生研究院 All of Us 研究计划(这是一项全国性的工作,旨在通过收集和分析 100 万名志愿者的健康和基因数据,加快精准医疗的进展)等研究计划的参与。
当测序仪器产生大量数据时,我们可以使用 AWS 上的 FPGA 快速处理这些数据。”
Eric Venner
贝勒医学院人类基因组测序中心副教授兼临床信息学组组长
寻找加速研究的解决方案
Baylor 是位于德克萨斯州休斯敦的一所健康科学大学。该校在美国国立卫生研究院的资助中排名第二十,在遗传学方面排名第一。2016 年,Baylor 启动了 HGSC 临床实验室,以支持大规模测序工作,为临床使用准备基因组数据。HGSC 在人类基因组计划和 All of Us 研究计划中发挥了关键作用,Baylor、约翰霍普金斯大学、休斯敦德克萨斯大学健康科学中心与美国其他团体一起建立了基因组中心,并开展工作。
Baylor 若要参与该计划,HGSC 就需要进行扩展,以满足大型测序工作负载需要,并简化计算和存储管理。该校还必须满足严格的合规标准,包括 ISO/IEC 27001,该标准包含 100 多项安全要求和管制数据可访问性和机密信息的联邦法规。基因数据被视为受控的无法归类信息,受额外的保护控制。HGSC 主任 Richard Gibbs 表示:“我们必须达到比 HIPAA 高出几个档次的标准。”
Baylor 此前曾与 Illumina 合作(该公司提供测序和软件技术),自 2012 年以来一直使用 AWS 进行基因组计算。所有参与 All of Us 研究计划的研究中心都对 DRAGEN 进行了二次分析标准化。然而,HGSC 意识到,从本地迁移到云上的 DRAGEN,在吸引和留住团队成员等方面具有最直接和最长期的潜力。“在云上工作是一种优势,因为人们都希望学习未来几十年流行的技术。”HGSC 副教授兼临床信息学组组长 Eric Venner 表示,“现在我们可以吸引一些非常有才华的初级工程师。”
使用 AWS 上的 DRAGEN 获得准确性、可扩展性和安全性
2019 年春季,Baylor 团队开始与 Illumina 合作开发变体调用技术,该技术可识别测序数据中的变体。2019 年秋季,该团队的工程师 Noora Siddiqui 开始使用 AWS 上的 Illumina DRAGEN 构建生产管道,此 AWS 快速入门用于为 DRAGEN 设置可配置的 AWS 环境。3 周后进行了第一次规模测试,3 个多月后,管道开始运行。“我们使用 AWS 技术支持完成了管道。”Venner 表示,“通过使用 AWS 上的 Illumina DRAGEN,我们的工程师能够在新的生产系统中构建解决方案。”
通过使用 Illumina 的 AWS 上的 DRAGEN,Baylor 能够按需扩展,并比以前更快地处理数据。HGSC 每月处理约 5,000 个基因组。“每个人都有测序仪和工作计划,但要每个月可靠地处理 5,000 个基因组还是非常困难。”Gibbs 表示,“我们做的就是这样的工作。这需要大量的工程技术和支持,但可以很好地为行业服务。”
Baylor 的 DRAGEN 解决方案使用 Amazon Elastic Compute Cloud(Amazon EC2)F1 实例加速基因组数据分析;DRAGEN 使用 FPGA 提供定制硬件加速。“我们的工作负载传输量会在短时间内突然爆发。”Venner 表示,“当测序仪器产生大量数据时,我们可以使用 AWS 上的 FPGA 快速处理数据。” 该中心使用 Amazon EC2 F1 实例和 Amazon EC2 竞价型实例,与 Amazon EC2 按需型实例相比,前者允许用户以 90% 的折扣运行容错工作负载。Venner 表示:“使用竞价型实例,可以节省计算成本。”
HGSC 使用 Amazon Simple Storage Service(Amazon S3)存储其实时数据,这是一种对象存储服务,用于从任何位置检索任意数量的数据。不需要立即使用的数据会自动传递给 Amazon S3 Glacier,后者为数据归档和长期备份提供了安全、耐用且成本极低的云存储类。Venner 表示:“AWS 上的存储管理和自动化数据生命周期非常重要。”HGSC 的信息技术团队使用 AWS 帮助满足安全和合规标准。Venner 表示:“在一个新的云解决方案中执行安全审计比在一个有很多内置包袱的传统环境中更为简单。”
HGSC 可以快速构建计算环境,其 DRAGEN 解决方案使用的 Amazon Elastic Container Service(Amazon ECS)是一种完全托管的容器编排服务,用于部署、管理和扩展容器化应用程序。“捕捉到作业的运行环境是很有价值的。”Venner 表示,“传统上,为了能够在同一位置运行不同类型的工作,人们需要创建和管理复杂的环境。现在,我们只需创建一个特定于正在运行的作业的环境,这让调试变得更简单。”
将 Illumina 和 AWS 解决方案应用于医疗保健
HGSC 希望通过使用 Illumina 的 AWS 上的 DRAGEN,将其技术完全融入医疗实践。HGSC 对人类基因组的分析可以预测个人的健康风险,解释潜在的疾病,并改变临床管理,从而为患者提供更全面的护理。例如,HGSC 最近与德克萨斯医学中心的心血管诊所合作开展了 HeartCare 研究,该研究侧重于识别与心血管疾病相关的基因。Venner 表示:“我们一直在研究关键基因中的高外显率心血管等位基因,以及在临床护理模式下个体如何从这些信息中获益。”
未来,Baylor 将继续探索 AWS 服务和 Illumina 解决方案,以进一步提高其数据处理的安全性和速度。“我们希望扩大对基因数据的获取,特别是那些医疗保健系统服务不足或在护理方面存在许多差距的人。”Gibbs 表示,“他们是我们关注的重心。我们希望帮助他们获取对健康状况有用的基因信息。”
关于贝勒医学院
得克萨斯州休斯敦的贝勒医学院是人类基因组测序中心的所在地,该中心是美国少数几个获得国立卫生研究院资助的基因组测序中心之一。
AWS 的优势
- 仅用了 3 个多月就建立了数据管道
- 与以前的管道相比,处理数据的速度更快
- 每月处理约 5,000 个基因组
- 招聘顶尖工程人才
- 简化了安全性与合规性
- 自动化存储管理和数据生命周期流程
- 自动扩展以满足突发的工作负载量
使用的 AWS 服务
Amazon EC2
Amazon Elastic Compute Cloud(Amazon EC3)是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。
Amazon EC2 F1 实例
Amazon EC2 F1 实例使用 FPGA 实现自定义硬件加速交付。F1 实例易于编程,并且配备了开发、模拟、调试和编译硬件加速代码所需的各种资源,包括 FPGA Developer AMI 并支持在云上进行硬件级开发。
Amazon EC2 Spot 实例
Amazon EC2 Spot 实例让您可以利用 AWS 云中未使用的 EC2 容量。与按需型实例的价格相比,使用竞价型实例最高可以享受 90% 的折扣。
AWS 上的 Illumina DRAGEN
DRAGEN Bio-IT 平台实现下一代测序(NGS)数据的超快速分析,显著缩短分析基因组数据所需的时间和提高准确度。
开始使用
不同行业和规模的企业都在使用 AWS 对其业务进行转型,以实现自身愿景。联系我们的专家,立即踏上您的 AWS 之旅。