工作流

  • HealthOmics 提供两种类型的工作流:私有工作流和 Ready2Run 工作流。私有工作流是自定义工作流,使您能够使用最常用的工作流语言编写的自己的生物信息学脚本。Ready2Run 工作流是基于常见的行业分析预先构建的生物信息学流程,让您无需编写代码即可快速开始。 

  • HealthOmics 的私有工作流可以用 Nextflow、WDL 和 CWL 编写。有关支持的版本信息,请参阅文档

  • HealthOmics 提供各种各样的 Ready2Run 工作流,从 Broad Institute 的 GATK 和 AlphaFold 到来自第三方出版商(如 NVIDIA、Element Biosciences、Sentieon 和 Ultima)的工作流。您可以在此处查看可用 Ready2Run 工作流的完整列表。

  • 可以,HealthOmics 可以运行 bioFM,例如 NVIDIA NIM、AlphaFold 和 ESMFold。您可以在工作流中协调多个 bioFM,大规模解锁药物研发管道。例如,使用 bioFM 的药物研发工作流,请参阅 GitHub 上的药物研发工作流存储库

  • 要运行您的第一个私有工作流,您需要一个用 Nextflow、WDL 或 CWL 编写的工作流脚本。此外,所有工具和依赖项都必须容器化并存储在私有 ECR 存储库中。输入数据可以在 S3 中提供,也可以从 HealthOmics 序列存储中提供。

  • 您可以使用运行组管理私有工作流资源。运行组让您能够控制分配给运行组的最大并发运行、最大运行持续时间、vCPU 和 GPU。此外,HealthOmics 还提供适当规模工具,例如 Run Analyzer,帮助您优化资源分配以提高运行效率。 

  • HealthOmics 私有工作流提供两种运行存储选项:静态运行存储和动态运行存储。对于静态运行存储,在运行开始时会预置一个固定大小的文件系统,并由任务在运行期间用于中间文件存储。运行完成后,运行输出将导出到 S3,并且文件系统将被取消预置。动态运行存储会在运行期间根据您的存储需求自动扩大或缩小,并提供更快的预置速度。对于快速、迭代的开发周期以及小型、短运行的管道,建议使用动态运行存储。静态运行存储适用于大型工作流。与动态运行存储相比,它提供更高的每 GiB 文件系统吞吐量和更低的每 GiB 成本。

  • HealthOmics 工作流在运行期间向 CloudWatch 提供实时日志,并在运行完成后向 CloudWatch 提供其他日志。您可以使用 EventBridge 为您定义的条件生成自动提醒。 

  • 可以,使用资源共享功能可以与同一区域的不同 AWS 账户共享 HealthOmics 工作流。要共享工作流,需要提供想要共享的 AWS 账户的账户 ID。共享工作流将向收件人发送共享邀请。收件人必须接受共享请求才能运行共享工作流。工作流所有者可以随时撤销访问权限,收件人无法修改或删除共享工作流。 

  • S3 和 HealthOmics 序列存储中用作运行输入的文件将被分配一个唯一的 ETag,用于识别文件,存储在您的私有 ECR 存储库中的容器被分配一个唯一的哈希值,并且工作流程一旦创建就不可改变,以确保运行的完全可重复性。每次运行都会被分配一个全局唯一的 uuid,该 uuid 可用于识别每一次独特的运行、运行结果和关联日志。此 uuid 可以连接到您的内部实验室信息系统(LIMS)、电子实验室笔记本(ELN)或样品管理系统,以满足可追溯性和运行可重复性要求。  

  • 客户可以将工作流和数据存储结合使用,也可以作为独立的解决方案使用。HealthOmics 工作流与 S3 和 HealthOmics 序列和参考存储兼容。HealthOmics 序列和参考库可用于 HealthOmics 工作流、AWS Batch 和其他计算解决方案。

数据存储

  • HealthOmics 提供两种类型的数据存储:以对象为中心的存储和可查询的存储。以对象为中心的存储是参考和序列存储。它们旨在以经济高效的方式存储和组织分子文件。可查询存储是变体和注释存储。它们旨在以经济高效的方式将变体和注释数据转化为用于查询和分组的优化存储。这些存储共同配合,旨在提供 PB 级的 FAIR(可查找、可访问、可互操作、可重用)样本存储、查询、分组和检索。 

  • HealthOmics 数据存储通过多种不同方式实现节省。序列存储使用使用驱动的分层和压缩来降低 30 天未访问的对象的存储成本。与传统的 AWS 对象存储相比,这可以节省大量成本

    HealthOmics 变体和注解存储是零 ETL 存储,因此您只需为存储和查询时扫描的数据付费。节省成本的方法是消除 ETL 成本并分离变体和注释数据,这样,在需要更改注释时就不必复制变体数据。此外,由于变体存储由样本信息分区,基于样本的查询扫描的数据更少,从而进一步节省下游成本。

  • 每个数据存储都是针对不同的数据类型而设计的。HealthOmics 参考库支持 FASTA 文件。HealthOmics 序列存储支持 FASTQ、uBAM、BAM 和 CRAM 文件。变体存储支持从 VCF 文件中提取数据。注释存储支持从 GFF、TSV、CSV、VCF 中提取数据。

  • 您可以在 AWS HealthOmics 中存储的数据总量和对象数量几乎没有限制。虽然每家商店对支持的文件大小和数量的配额都有可调整的,但客户可以在商店中定期存储数十 PB 的文件,从而根据需要继续添加文件。

  • HealthOmics 数据存储建立在 Amazon S3 的持久性和弹性之上,其中包括在 AWS 区域中的多个设备和可用区上冗余存储的对象。序列存储保存并监控对象语义标识,确保文件的内容在整个激活和归档周期内得到保存。

  • HealthOmics 序列存储可以通过对象的 S3 访问 URI 或使用配套工具直接与大多数分析工具集成。序列存储中存储的每个对象都有一个唯一的 S3 URI,可以使用大多数 S3 兼容系统读取它。如果系统需要基于文件的接口,则可以使用适用于 S3 的 Mountpoint 将读取集或序列存储前缀作为可读取的挂载文件。如果需要定制,可以使用 Amazon 的 SDKHealthOmics 传输管理器进行集成。

  • HealthOmics 序列存储专门用于存储定期和频繁访问的静态分子数据。序列存储具有内置压缩和分层功能,同时还具有基于 S3 构建的对象读取扩展,因此适用于从日常使用到每年的各种规模和各种访问频率级别的数据。每次摄取都会创建一个新的读取集,并且序列存储收取的最短存储时间为 30 天,因此它不适用于临时、临时或频繁更新的文件。

    Amazon S3 非常适合频繁变化的动态文件、短暂的文件以及不符合支持格式的非分子文件。对于因数据存档和合规性原因而需要维护但访问需求很低的文件,Amazon S3 Glacier 提供了不同的存储选项。

安全与隐私