AWS Glue 的优势
工作原理
AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。
-
数据集成引擎选项
-
事件驱动型 ETL
-
AWS Glue Data Catalog
-
无代码 ETL 作业
-
管理和监控数据质量
-
数据准备
-
数据集成引擎选项
-
在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。
-
事件驱动型 ETL
-
AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。
-
AWS Glue Data Catalog
-
您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。
-
无代码 ETL 作业
-
AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。
-
管理和监控数据质量
-
AWS Glue 数据质量可自动创建、管理和监控数据质量规则,以帮助确保跨数据湖和管道的高质量数据。
-
数据准备
-
使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。
此外,AWS Glue Studio 还提供数据准备工具,让您可以通过一个交互式、点击式的可视化界面来准备数据,而不需要编写代码。
使用案例
高效发现数据
交互式探索、处理数据以及对其进行实验
简化 ETL 管道开发
支持各种处理框架和工作负载
最新资讯
开始使用 AWS Glue
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高网站内容的质量。