Ancestry 使用 Amazon EFS 加速基因组学数据洞察
2020 年
Ancestry® 是家族史和消费者基因组学领域的全球领导者,利用家谱、历史记录和 DNA 来帮助人们踏上个人探索之旅。Ancestry 的消费者 DNA 网络中有超过 1800 万人。AncestryDNA® 使用先进的基因组科学,为成员提供更多方法来探索自己的 DNA 匹配情况、连接到更精确的区域以及深入了解遗传健康信息和个人特征,从而帮助他们发现有关其家族史的新细节。
AncestryDNA 团队由数十名科学家组成,包括种群遗传学家、计算生物学家、统计学家、流行病学家、基因组数据科学家和生物信息学家,他们开发算法来分析代表数 TB 存储空间的遗传数据和其他数据。该团队之前在本地自主管理其扩展网络附属存储(NAS)集群,但在无需监控、配置和执行高级规划以预测未来需求的情况下快速扩展存储和计算资源方面能力不足。AncestryDNA 基因组学副总裁 Eurie Hong 博士表示:“我们的数据在不断增长,我们面临的挑战之一是如何随着遗传网络的增长而扩大规模。我们想扩展计算容量,以满足用于分析的呈平方规模增长的数据集。”
AncestryDNA 科学团队还需要更大的弹性来支持不可预测的工作负载。Ancestry 生物信息学经理 Asher Baltzell 博士表示:“我们的工作流程可能非常棘手,我们无法预测当年需要多少磁盘和计算时,就很难分配预算。”
借助 Amazon EFS,我们再也不用担心研究工作负载扩张的问题了,无论计算和存储要求如何,系统都能自动扩展来满足我们研究人员的需求。”
Eurie Hong博士
AncestryDNA 基因组学副总裁
将基因组学研究工作负载迁移到 AWS
AncestryDNA 科学团队决定迁移到 Amazon Web Services(AWS)。Baltzell 表示:“总体而言,我们公司已经开始迁移到 AWS,我们对云的可扩展性和灵活性很感兴趣。”
该团队使用 Amazon Elastic Compute Cloud(Amazon EC2)进行按需计算,并使用 Amazon Elastic File System(Amazon EFS)这一可扩展、完全托管的弹性网络文件系统(NFS)作为共享数据文件系统。Hong 表示:“科学家通常使用传统的文件服务器,所以我们知道自己想要和研究人员以前使用的类似的文件服务器。使用 Amazon EFS,我们不必担心实施或持续管理的问题,因为 Amazon EFS 提供了可扩展性和弹性来应对不断变化的工作负载。” AncestryDNA 还依赖 Amazon Simple Storage Service(Amazon S3)。
AncestryDNA 科学团队得以提前完成迁移,没有影响项目进度或干扰数据科学团队的工作效率。
可轻松扩展以满足科学家的计算和存储需求
Ancestry 现在可以进行与其 Ancestry 人类多样性项目一致的研究,且不必担心数据存储限制。Hong 表示:“借助 Amazon EFS,我们再也不用担心研究工作负载扩张的问题了,无论计算和存储要求如何,系统都能自动扩展来满足我们研究人员的需求。”
此外,由于 Amazon EFS 是一个完全托管的云文件系统,AncestryDNA 无需构建和管理自己的 NFS 服务器。Hong 表示:“我们不想浪费时间和金钱来创建和管理自己的文件系统,而是想专注于研究。Amazon EFS 可以帮我们实现这一点。”
获得弹性以支持工作负载高峰期并优化成本
Ancestry 现在拥有在管理不可预测的工作负载增加或减少时所需的弹性。Baltzell 表示:“我们通过 Amazon EFS 获得了巨大的弹性和灵活性。”此外,团队可以使用 Amazon EC2 来优化成本。“研究人员一次可以使用更多资源,且不必为闲置资源付费。与其一直运行 10 台服务器,不如只在需要时运行 100 台服务器。这样我们也更容易预测和管理成本。”
更快地引导新科学家入门
Amazon EFS 提供的环境与 Ancestry 先前的本地系统一致,为数据科学家提供了共享的项目和个人文件夹,这些都可从 Jupyter 和 RStudio 数据科学分析笔记本上安装,便于工作管理。此外,引导新科学家入门很容易,因为他们工作的云环境用来访问和存储数据的方法与他们以前习惯的方法相同。由于拥有熟悉的文件系统,科学家可以使用相邻的 AWS 服务,这些服务可能会帮助他们加快创新步伐,而不必花时间学习如何进行计算和分析。该团队的科学家还使用 Amazon EMR 来支持依赖于 Hadoop 大数据框架的研究。
AncestryDNA 的科学家现在可以更加专注于创新。Hong 表示:“在 AWS 的帮助下,我们得以花费更多时间来为客户寻找新的办法,帮助他们发现独有的家族史。我们将继续努力寻找方法,帮助客户更好地了解他们的家族,以及学会如何通过遗传学了解自己未来的健康状况。”
关于 Ancestry
Ancestry 是领先的家族史和消费者基因组学提供商。Ancestry 收集了 270 多亿条记录,其不断壮大的 DNA 网络中有 1800 多万人,可帮助客户探索自己的家族故事并获得有关健康和保健的可行见解。30 多年来,数百万人选择 Ancestry 平台来探索、保存和分享有关自己和家人的最重要信息。
AWS 的优势
- 推动多名科学家开展基因组学研究
- 自动扩大或缩减计算与存储资源
- 更快更轻松地引导新科学家入门
使用的 AWS 服务
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) 可提供简单、可扩展、完全托管式弹性 NFS 文件系统,以与 AWS 云服务和本地部署资源配合使用。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。
Amazon Elastic Compute Cloud
Amazon Elastic Compute Cloud(Amazon EC6)是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。
Amazon EMR
轻松运行和扩展 Apache Spark、Hive、Presto 以及其他大数据框架
开始使用
不同行业和规模的公司都在使用 AWS,将其日常业务运营进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。