由物联网(IoT)、智能设备、云应用程序和社交媒体生成的数据量呈指数级增长。您需要轻松且经济高效地分析所有这些数据,并在最短时间内获得洞察,不受数据格式以及数据存储位置的影响。
Amazon Redshift 为现代数据架构提供支持,让您可以进行跨数据仓库、数据湖和运营数据库的数据查询,以前所未有的速度获得更深入的洞察。有了现代数据架构,您就能将数据以开放文件格式存储在 Amazon S3 数据湖中。通过这种方法,您就能轻松地将这些数据用于其它分析和机器学习工具,而不再会受制于数据被困在新的数据孤岛中这种问题。
利用 Amazon Redshift 现代数据架构,您可以:
- 轻松查询数据湖中的数据,并以开放格式将数据写回数据湖。
- 使用熟悉的 SQL 语句组合和处理数据存储中的数据。
- 对运营数据库中的实时数据执行查询,而无需任何数据加载和 ETL 管道。
功能
Amazon Redshift 现代数据架构由下列功能提供支持:
Amazon Redshift Spectrum
直接在 Amazon S3 数据湖中查询开放格式数据,无需加载数据或复制基础设施。通过使用 Amazon Redshift Spectrum 功能,您可以查询诸如 Apache Parquet、ORC、JSON、Avro 和 CSV 之类的开放文件格式。请按照此分步教程开始使用。
数据湖导出
通过使用数据湖导出将 Amazon Redshift 查询结果以开放文件格式直接保存到 S3 数据湖中。然后,您还能够使用 Amazon Redshift Spectrum 功能以及其它 AWS 服务分析这些数据,例如使用 Sagemaker 进行机器学习,使用 EMR 执行 ETL 操作等。请观看这个时长为 5 分钟的视频以开始使用。
联合查询
联合查询支持 Amazon Redshift 直接查询 Amazon RDS 和 Aurora PostgreSQL 存储中的数据。这使您能够及时地将最新运营数据纳入报告应用程序和 BI 应用程序中,而无需任何 ETL 操作。请观看这个时长为 5 分钟的视频,或者阅读此教程,以开始使用。
“我们使用多种 AWS 分析工具和第三方分析工具,并且在自己的解决方案中使用了各种数据转换模式,我们很高兴地看到 Amazon Redshift 中沿用了相同的数据转换模式。自 2017 年以来,我们充分利用 Amazon Redshift 中 Redshift Spectrum 跨数据湖查询开放数据格式的功能。现在,借助新的 Redshift Data Lake Export 功能,我们可以方便地将数据写回数据湖。即使我们的查询负载达到最高,这些操作也能够稳定快速地完成。我们期待着进一步发挥综合大数据堆栈的协同作用,推动更多的跨 Amazon Redshift 集群的数据共享,并让所有游戏以更低的成本实现更多价值。”
Kurt Larson,分析营销运营技术总监,华纳兄弟公司。分析