千人基因组计划是一项国际科研合作项目,目前已经建立了最详细的人类基因变异图谱,其中包括 SNP、结构性变异及其单倍体环境。项目的最终阶段采集了世界各地 26 个种群的 2500 多人的基因序列,并建立了一整套分阶段的单倍体,其中包括这些个体的超过 8000 万变异。
Amazon 镜像包括此项目的完整数据集,这些数据收录在 s3.amazonaws.com/1000genomes 中。
有关详细信息,请访问 http://www.1000genomes.org。如有任何疑问,请发送电子邮件至 info@1000genomes.org。
AWS 正在努力让千人基因组计划数据免费向所有民众开放。AWS 中的公用数据集是 Amazon Simple Storage Service (Amazon S3) 中托管的公共数据的集中存储库。通过诸如 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amazon Elastic MapReduce (Amazon EMR) 等 AWS 服务可以无缝访问这些数据,为组织提供了满足其需求且高度可扩展的计算资源,方便其充分利用这些大型的数据集。AWS 免费向社会提供公用数据集存储服务。研究人员只需要为进一步处理或分析数据支付额外的 AWS 资源使用费用。了解更多关于 AWS 中的公用数据集的信息。
最新的千人基因组计划数据通过 1000genomes Amazon S3 存储桶公开提供。
只需通过简单的 HTTP 请求或利用 AWS 开发工具包(支持的语言包括 Ruby、Java、Python、.NET 和 PHP)即可访问这些数据。
研究人员可以使用 Amazon EC2 公用计算服务来深入研究这些数据,无需投入处理这种规模的数据通常需要的资金。AWS 还提供若干业务流程和自动化服务,帮助研究团队将其研究项目提供给他人进行混合使用和重复使用。
通过 Amazon S3 中的存储桶提供数据也意味着客户可以通过 Amazon Elastic MapReduce 使用 Hadoop 来处理信息,并利用日趋丰富的各种工具来执行生物信息学作业流,这些工具包括 CloudBurst 和 Crossbow。
美国国立生物技术信息中心 (NCBI) 是美国国立卫生研究院的美国国家医学图书馆的下属机构:
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov(用于 IPv6 访问)
- 千人基因组计划:NCBI/NLM/NIH(通过 Aspera)
欧洲生物信息研究所 (EMBL-EBI) 由惠康基金会 (Wellcome Trust) 提供支持:
教育工作者、研究人员和学生都可以申请免费积分,利用 AWS 提供的公用计算平台以及千人基因组计划数据等公用数据集。如果您在举办基因组学研讨会或者您的研究项目能够用到托管的千人基因组计划数据集,则可以申请 AWS 资助。