本指南可帮助您通过互联网或低延迟的直接连接将生命科学数据仪器和实验室系统文件连接到 AWS Cloud。您可以削减访问频率较低的数据的存储费用,或者将其用于基因组学、成像和其他工作负载密集型的高性能计算,这一切都可在 AWS 上实现。
架构图
第 1 步
实验室技术人员运行实验或测试,并将结果写入本地文件服务器上的文件夹。AWS DataSync 任务设置为将数据从本地存储同步到 Amazon Simple Storage Service(Amazon S3)中的桶。
第 2 步
数据通过互联网或通过避开互联网的低延迟直接连接(例如 AWS Direct Connect)传输到 AWS Cloud。
第 3 步
电子实验室笔记本(ELN)和实验室信息管理系统(LIMS)通过事件和 API 与 AWS Cloud 双向共享实验和测试元数据。访问 Guidance for a Laboratory Data Mesh on AWS,了解有关此集成的更多信息。
第 4 步
合同研究组织(CRO)等合作实体可以使用适用于 FTP、SFTP 或 FTPS 的 AWS Transfer Family 将研究结果上传到 Amazon S3。
第 5 步
您可以通过将仪器数据写入配置为不频繁访问的 S3 桶来优化存储成本。确定您的 S3 存储访问模式,从而优化配置 S3 桶生命周期策略并将数据传输到 Amazon S3 Glacier。
第 6 步
通过 Amazon FSx for Lustre,云端高性能计算(HPC)可访问数据,用于基因组学、成像和其他密集型工作负载,从而提供低毫秒延迟的共享文件系统。
第 7 步
生物信息学管道由 AWS Step Functions、AWS HealthOmics 和 AWS Batch 编排,可实现灵活的 CPU 和 GPU 计算。
第 8 步
机器学习是通过人工智能和机器学习(AI/ML)工具包进行的,该工具包使用 Amazon SageMaker 进行特征工程、数据标注、模型训练、部署和机器学习操作。Amazon Athena 用于灵活的 SQL 查询。
第 9 步
对于使用本地应用程序进行数据分析和报告的研究人员来说,他们可以通过 Amazon S3 文件网关使用网络文件系统(NFS)或服务器消息块(SMB)查看和访问 Amazon S3 中的数据。
Well-Architected 支柱
当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
随着新的数据来源和合作伙伴的出现,可以使用各种数据传输服务来适应这些不断变化的访问模式。对于多站点环境,可以使用 S3 文件网关进行传输,同时为其他应用程序保留现场缓存。 Transfer Family 让 CRO 等合作实体能够轻松上传研究结果。
-
安全性
出于数据保护的目的,我们建议您保护 AWS 账户凭证并使用 AWS Identity and Access Management(IAM)设置个人用户账户,这样每位用户只能获得履行其工作职责所需的权限。我们还建议您使用静态加密,建议服务默认使用动态加密。
-
可靠性
DataSync 利用单个或多个 VPC 端点来确保在可用区不可用时,代理可以访问另一个端点。DataSync 是一项可扩展的服务,它利用一组代理来移动数据。任务和代理可以根据需要迁移的数据量的需求进行扩展。
DataSync 将所有事件记录到 Amazon CloudWatch。如果任务失败,可以采取措施来更好地了解问题以及任务失败的地方。任务完成后,可以启动后处理任务来完成管道流程的下一阶段。
Amazon S3 为任务关键型和主要数据存储提供了高度持久的存储基础设施。
-
性能效率
FSx for Lustre 存储提供亚毫秒级的延迟、高达数百 GB/s 的吞吐量和数百万的 IOPS。
-
成本优化
使用可按需扩展的无服务器技术,您只需为自己使用的资源付费。为了进一步优化成本,当不再使用时您可以在 SageMaker 中停止笔记本环境。如果您不打算使用 Amazon QuickSight 可视化控制面板,则可以选择不部署它,从而节省成本。
数据传输费用主要包括两个方面:DataSync,按每 GB 传输费率收费;以及 Direct Connect 或 VPN 数据传输费。此外,如果使用 VPC 端点,则可能会收取跨可用区费用。
-
可持续性
CloudWatch 指标允许用户根据提示和趋势做出数据驱动的决策。通过密集地使用托管服务和动态扩展,您可以最大限度地降低后台服务的环境影响。大多数组件都是自给自足的。
实施资源
提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。
示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。
相关内容
Building Digitally Connected Labs with AWS
这篇博文讨论了帮助生命科学实验室充分利用 AWS Cloud 的扩展和性能的工具、最佳实践和合作伙伴。
Resilience 在 AWS 上构建一个连通各实验室的全球数据网格
本案例研究介绍了生物制造创新公司 Resilience 如何通过在 AWS 上构建数据传输互联网络来彻底改变新药生产方式。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。