AWS 上的数据湖

打破数据孤岛,在 Amazon S3 数据湖中实现大规模分析

概览

AWS 上的数据湖可帮助您打破数据孤岛,以最大限度地端到端数据洞察。 通过将 Amazon Simple Storage Service(Amazon S3)作为您的数据湖基础,您可以利用 AWS 分析服务来支持您的数据需求,从数据摄取、移动和存储到大数据分析、流式分析、商业智能、机器学习(ML)等,所有这些都具有很高的性价比。超过 100 万个数据湖在 AWS 上运行。

Amazon S3 是构建数据湖的最佳场所,因为它具有无与伦比的持久性、可用性、可扩展性、安全性、合规性和审计功能。通过 AWS Lake Formation,您可以在几天而不是几个月内轻松构建安全数据湖。然后,AWS Glue 允许您在数据湖与专用数据和分析服务之间进行无缝数据移动。

释放数据的全部潜力

借助基于 Amazon S3 构建的数据湖,为您的现代数据策略奠定最坚实的基础。

利用 AWS 建立数据湖的优势

由于 Amazon S3 可以经济高效地进行扩展,几乎没有限制,因此您可以存储来自任何来源的所有数据,并发挥其价值。
借助可用于分析的所有数据,组织可以加速创新,例如发现节省成本或个性化的新机会。机器学习和预测分析可以使用更广泛的数据流程。
通过专用的 AWS 分析服务,您可以快速地提取数据洞察,使用最适合任务的工具,经过优化后针对您的需求实现最佳性能、规模和成本。
AWS 分析服务为云端数据分析提供了数量最为丰富的无服务器方案,易于使用和管理。

利用 Amazon S3 和 Amazon DataZone 对数据湖进行数据治理

有效的数据治理对于确保数据的完整性和可信度至关重要。了解为什么数据湖对组织非常重要、AWS 的数据治理模式,以及可以帮助治理数据湖的各种服务。  

AWS 上的数据湖的基本支柱

使用在 Amazon S3 上构建的数据湖,您可以使用原生 AWS 服务运行大数据分析、人工智能(AI)、机器学习、高性能计算(HPC)和媒体数据处理应用程序,以便从非结构化数据集中获取洞察信息。与 AWS Lake Formation 和 AWS Glue 结合使用时,可以通过端到端数据集成和集中的、类似数据库的权限和治理来轻松简化数据湖的创建和管理。Glue、Amazon EMR 和 Amazon Athena 等 AWS 分析解决方案可让您轻松直接查询数据湖。

您可以通过 AWS Glue 实时或批量导入任意数量的数据。数据可以从多个来源收集并以其原始格式移动到数据湖,AWS 分析服务也可用于直接查询您的数据湖。借助 AWS Glue 等数据集成、发现、准备和转换工具,您可以进行扩展,同时节省定义数据结构、架构和转换的时间。

由于数据湖中存在大量数据来源和格式,因此能够抓取、编目、索引和保护数据,对于确保用户可以访问数据至关重要。AWS Glue 提供了简化的集中式数据目录,因此您可以更好地了解数据湖中的数据。AWS Lake Formation 让您可以将数据治理和安全性集中起来,以便您可以放心地部署数据。

组织中的各种角色(如数据科学家、数据开发人员和业务分析师)能够轻松通过各自选择的专用 AWS 分析工具和框架来访问数据。您可以轻松快速地运行分析,而无需将数据移至单独的分析系统。

AWS 上的数据湖能让您使用最全面的 AI 和机器学习服务集更快地创新。通过在数据湖上启用机器学习,您可以进行准确预测,从数据中获得更深入的洞察,降低运营开销并改善客户体验。

管理数据湖中的数据

使用 AWS 集中管理和扩展细粒度的数据访问权限。