AWS HealthOmics 功能

借助 AWS HealthOmics,您可以更轻松地存储、查询和分析基因组、转录组和其他组学数据,然后从这些数据中生成见解。它简化并加速了存储和分析用于研究和临床应用的多组学信息的过程,因此您可以专注于从数据中获得更深入的见解。

借助 AWS HealthOmics 存储,您可以高效且经济地存储数 PB 的组学数据,从而实现人口规模的科学发现。 AWS HealthOmics 私有和 Ready2Run 工作流程可以自动化预置和扩展计算基础设施,让您可以在生产规模上运行生物信息学分析管道,并减少管理基础设施的时间,将更多时间用于研究。 AWS HealthOmics 附带了一系列 Ready2Run 工作流程,这些工作流程是预先构建的,按每次运行定价。 AWS HealthOmics 分析简化了为多模态分析准备组学数据的过程,使您能够将多组学和健康记录数据整合在一起,并生成更具针对性和个性化的治疗。这些功能也符合 HIPAA 要求。

一般性问题

AWS HealthOmics 存储与生物信息学文件格式(如 FASTQ、BAM 和 CRAM)兼容,使您能够以低成本高效存储、发现和共享这些数据。这些文件格式作为读取集对象存储在序列存储中。您还可以以 FASTA 格式存储参考基因组。数据作为具有唯一标识符的不可变对象导入,以支持需要严格数据来源的工作负载。可以通过 AWS Identity and Access Management (IAM) 使用标签和基于属性的访问控制来控制对单个数据对象(包括引用和读取集对象)的访问。为了降低长期存储成本,30 天内未访问的数据对象会自动移动到归档存储类。可以随时通过 API 调用重新激活归档的对象。

AWS HealthOmics 可帮助您大规模运行生物信息学工作流程。您可以选择 Ready2Run 工作流程或自带私有工作流程来处理您的生物数据,而无需管理底层基础设施。

Ready2Run 工作流程是预先构建的工作流程,由行业领先的第三方软件公司(如 Sentieon, Inc.、NVIDIA 和 Element Biosciences)以及常见的开源管道(如 Broad Institute 的 GATK 最佳实践工作流程和用于蛋白质结构预测的 AlphaFold)设计。只需使用 Ready2Run 工作流程即可处理数据,而无需管理软件工具或工作流程脚本。Ready2Run 工作流程按运行次数付费,价格预先确定。

私有工作流程使您可以使用两种最常用的工作流程语言(工作流程描述语言(WDL)和 Nextflow)编写自己的工作流程脚本。您可以通过一次执行来运行这些私有工作流程,这称为运行。对于私有工作流程,您只需按请求量付费,并针对组学实例类型和运行存储单独计费。工作流程中的所有任务都映射到最适合已定义资源的实例。

借助 AWS HealthOmics,您可以快速提取基因组学数据格式(如 (g)VCF、GFF3 和 TSV/CSV),并将其转换为 Apache Iceberg 表。您可以通过 Amazon Athena 等分析服务访问基因组学数据。您可以转换变体数据(来自单个样本的数据)和注释数据(有关基因组中位置的已知信息)。您可以使用 AWS Lake Formation 控制对分析存储的访问,从而更轻松地跨不同数据来源执行查询,同时实施精细的访问控制。例如,您可以将个人的基因组数据与来自 Amazon HealthLake 的病史(可能包括先前的治疗、药物或实验室报告)安全地结合起来,以促进精准医疗。

AWS HealthOmics 通过标记、设置权限和安全地与合作者共享数据,使研究人员可以更轻松地进行协作。这简化了使组学数据可查找、可访问、可互操作和可重用 (FAIR) 的方式。借助特定于域的元数据,您可以将 AWS HealthOmics 数据存储与其他组学和医疗保健数据链接起来,以促进多组学和多模式分析。为了获得数据来源,AWS HealthOmics 将所有工作流程运行元数据存档在 CloudWatch 日志中,使您能够轻松存储查询这些信息。您可以将这些信息从 CloudWatch 导出到 S3 以进行长期存储。此信息可以帮助您跟踪与输入数据一起使用的算法,以生成符合性要求的输出数据。

安全性、隐私性和合规性

AWS HealthOmics 符合 HIPAA 要求。您可以应用基于属性的控制来定义精细的数据访问和管控。内置全面的日志记录和来源捕获,因此您可以了解访问了哪些数据、谁访问了这些数据以及何时访问了这些数据。