斯坦福大学 DDRCC 徽标

斯坦福大学 DDRCC 使用 AWS 进行利用多模式数据的精准医疗研究

2022 年

斯坦福大学深度数据研究计算中心(DDRCC)是斯坦福 Synder 实验室发起的众多计划之一,是位于加州帕罗奥图的斯坦福医学院遗传学系的一部分。该中心的目标是创建能弥合生物学与计算机科学之间差距的工具,并帮助精准医疗研究人员提供切实可行的医疗解决方案。

为了促进精准医疗研究,DDRCC 为用户创建了一个安全、可扩展且可互操作的健康管理系统我的个人健康控制面板(MyPHD)。MyPHD 使用 Amazon Web Services(AWS)为研究人员提供高效的数据采集、存储和准实时分析功能。该团队还开发了第一个无服务器精准医疗教育解决方案,即斯坦福数据海洋(SDO),供研究人员通过代码和数据进行教育、创新和协作。DDRCC 将该解决方案构建在 AWS 上,利用云的弹性、可扩展性和安全性使用户和生物学家获益,同时改进精准医疗。

DDRCC 团队
kr_quotemark

用户在世界任何地方都可以访问这些大型医疗数据集。我们通过在 AWS 上运行基础架构,从而实现了这一目标。”

Amir Bahmani 博士
斯坦福大学深度数据研究计算中心(DDRCC)主任

 

使用多模式数据为精准医疗研究设计解决方案

精准医疗研究依赖于对多模式数据(如基因组、微生物组和蛋白质组学数据)的个性化理解,因此,临床医生和研究人员可以为患者提供个性化治疗。从可穿戴传感器、电子病历和分子谱采集的大量数据可提供另一维度的信息。数据规模增大同时也更加复杂,这为数据可用性、采集、存储、集成和分析带来了新的挑战。因此,研究人员必须制定敏捷、灵活的数据策略。 “深度数据是医疗的未来。我们需要利用深度数据来监测个人健康状况并进行个性化的诊断、预后和治疗,”斯坦福大学遗传学系主任兼教授 Michael Snyder 博士说。

DDRCC 开发的 MyPHD 为大规模生物特征数据分析提供了一个安全、全面的环境。该系统可以存储、组织并处理复杂的健康数据集,同时支持个体和群组层面的准实时数据分析和数据可视化。用于提高诊断和医疗处方的准确性、改进精准医疗。个人健康管理需要对参与者数据进行大规模分析,DDRCC 则可以根据工作负载数量为 MyPHD 扩展资源以提供支持。DDRCC 还使用 AWS 安全服务作为其医疗应用程序的基础,便于这些应用程序处理大量高度敏感的个人数据。

精准医疗依赖于对各种多模式数据集进行整合,以得出推论。这些数据集通常规模很大,且分散于不同的来源中。研究人员要将复杂的计算算法应用于这些大型数据集,就必须确定正确的计算和存储配置。DDRCC 团队开发了 SDO,以帮助研究人员有效地分配资源来进行代码试验。使用 SDO,研究人员可以探索精准医疗的相关重要问题,也可以推广创新解决方案。通过在 AWS 上运行 SDO 工作负载,DDRCC 实现了高可扩展性,同时符合严格的安全要求。

在 AWS 上构建用于多模式数据分析的创新解决方案

DDRCC 使用 Amazon SageMakerService Workbench on AWS 帮助生物学家更好地完成重要的健康研究。使用 SageMaker,生物信息学家可以使用完全托管的基础架构、工具和工作流程,为几乎任何用例构建、训练和部署机器学习模型。该团队使用 Service Workbench on AWS 以便于以安全、可重复和联合的方式提供研究人员所需的数据、工具和计算能力的访问权限控制。研究人员可以安全地访问 Amazon Simple Storage Service(Amazon S3)上的大型数据集,该对象存储服务具备行业领先的可扩展性、数据可用性、安全性和性能。

DDRCC 需要高可扩展性来处理来自 MyPHD 和 SDO 的数据,同时依赖于能够在云端提供安全、可变计算能力的网络服务 Amazon Elastic Compute Cloud(Amazon EC2)。“我们不仅可以扩展 MyPHD 以支持不同数量的用户,还可以根据工作负载数量扩展算法。”斯坦福大学 DDRCC 的研发负责人 Arash Alavi 博士说。为了运行大规模基因组学和转录组学应用程序的预处理管道,该团队还使用 Amazon Genomics CLI(一种针对基因组学和生命科学用户的开源工具)和 AWS Batch(一种用于几乎任何规模的完全托管批处理服务)。Amazon Genomics CLI 简化并自动化云基础架构部署,AWS Batch 则可以轻松地在 AWS 上运行数十万个批量计算任务。

DDRCC 还使用交互式查询服务 Amazon Athena 来促进使用标准 SQL 对存储在 Amazon S3 中的数据进行分析。由于该服务具有很高的弹性,因此研究人员可以按需查询 SDO 和 MyPHD 收集的数据,并更快地开展项目。此外,Athena 是无服务器的,因此 DDRCC 无需进行基础架构管理。该团队仅为其运行的查询付费,从而降低了成本。“该服务可以根据工作负载大小动态扩展资源,用户只需按使用量进行付费,简直令人惊讶。”斯坦福大学 DDRCC 主任 Amir Bahmani 博士说。

对于处理医疗数据的应用程序,主要要求是安全性。DDRCC 开发的解决方案不使用、存储或处理受保护的健康信息,所有传输和静态数据都经过完全加密和匿名化。为了保持高度安全性,DDRCC 采用了 Amazon Cognito 等 AWS 服务,该服务允许团队向 Web 和移动应用程序添加用户注册、登录和访问控制。“我们使用 AWS 提供的安全功能来保护数据,包括即装即用的日志、审计和监测等功能” Bahmani 说。 

合作开展精准医疗

DDRCC 团队在 AWS 上设计了 MyPHD 和 SDO 解决方案,用于安全、高速、低成本地导入、查询和分析大型医疗数据库。“我们开发的每种工具都有其独特需求,尤其是将它们从研究环境部署于临床应用时,”斯坦福大学医学教授 Philip Tsao 博士说,他也是弗吉尼亚州帕罗奥图医疗保健系统精准医疗副主任。“要设计可扩展且安全的医疗应用程序,组建跨职能的专家团队并促进有效的协作,至关重要。”
 
AWS 提供的技术支持对 DDRCC 来说非常重要,因此该公司计划继续使用 AWS 服务为云端精准医疗设计创新和创造性的解决方案。Bahmani 说:“用户在世界任何地方都可以访问这些大型医疗数据集。”“我们通过在 AWS 上运行基础架构实现了这一目标。”

了解斯坦福大学深度数据研究计算中心

斯坦福大学深度数据研究计算中心位于加利福尼亚州帕罗奥图的斯坦福医学院遗传学系。该团队致力于为大规模生物医疗应用设计开发系统的、智能的解决方案。

AWS 的优势

  • 提高精准医疗解决方案的安全性
  • 几乎可以为任何数量的用户实现 MyPHD 的可扩展性
  • 提高教育用途 SDO 的弹性
  • 使用“随用随付”模式降低成本
  • 提高了在合作研究中的适应性

使用的 AWS 服务

Service Workbench on AWS

Service Workbench on AWS 可帮助 IT 团队以安全、可重复和联合的方式提供研究人员所需的数据、工具和计算能力的访问权限控制。

了解更多 »

Amazon Athena

Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 分析 Amazon S3 中的数据。

了解更多 »

Amazon S3

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。

了解更多 »

Amazon EC2

Amazon EC2 提供安全可变的计算容量,支持几乎所有工作负载。

了解更多 »

Amazon Cognito

借助 Amazon Cognito,您可以快速轻松地为 Web 和移动应用程序添加用户注册、登录和访问控制功能。

了解更多 »


开始使用

不同行业和规模的组织都在使用 AWS 进行转型,以实现其愿景。
联系我们的专家,立即踏上您的 AWS 云之旅。