什么是零 ETL?

零 ETL 是一组集成,可消除或最大限度地减少构建 ETL 数据管道的需求。提取、转换、加载(ETL)是合并、清理和标准化来自不同来源的数据,以便为分析、人工智能(AI)机器学习(ML)工作负载做好准备的过程。开发、维护和扩展传统的 ETL 流程既耗时又复杂。而零 ETL 集成便于点对点的数据移动,无需创建 ETL 数据管道。零 ETL 还可以跨数据孤岛进行查询,无需移动数据。 

了解 ETL »

零 ETL 集成可以解决哪些 ETL 挑战?

零 ETL 集成解决了传统 ETL 流程中许多现有的数据移动挑战。

系统复杂性增加

ETL 数据管道为您的数据集成工作增加了额外的复杂性。映射数据以匹配所需的目标架构涉及复杂的数据映射规则,并且需要处理数据不一致和冲突。您必须实施有效的错误处理、日志记录和通知机制才能诊断问题。数据安全要求进一步增加了对系统的限制。

额外费用

ETL 管道一开始就很昂贵,但随着数据量的增长,成本可能会螺旋式上升。对于大量数据,系统之间的重复数据存储可能负担不起。此外,扩展 ETL 流程通常需要昂贵的基础设施升级、查询性能优化和并行处理技术。如果需求发生变化,数据工程必须在更新过程中不断监控和测试管道,这会增加维护成本。

分析、人工智能和机器学习的时间延迟

ETL 通常要求数据工程师创建自定义代码,DevOps 工程师部署和管理扩展工作负载所需的基础设施。如果数据来源发生变化,数据工程师必须手动修改其代码并重新部署。该过程可能需要数周时间,从而导致分析、人工智能和机器学习工作负载的运行延迟。此外,构建和部署 ETL 数据管道所需的时间使得这些数据不适合近乎实时的应用场景,例如投放在线广告、检测欺诈性交易或实时供应链分析。在这些情况下,改善客户体验、抓住新商机或降低业务风险的机会就会丧失。

零 ETL 有哪些优势?

零 ETL 为组织的数据策略提供了多种好处。

提高敏捷性

零 ETL 简化了数据架构并减少了数据工程工作。该功能允许包含新的数据来源,而无需重新处理大量数据。这种灵活性增强了敏捷性,支持数据驱动的决策和快速创新。

成本效益

零 ETL 利用云原生且可扩展的数据集成技术,使企业能够根据实际使用情况和数据处理需求优化成本。组织可以降低基础设施成本,减少开发工作量和维护开支。

实时洞察

传统的 ETL 流程通常涉及定期的批量更新,从而导致数据可用性延迟。另一方面,零 ETL 提供实时或近乎实时的数据访问,确保分析、人工智能/机器学习和报告的最新数据。您可以更准确、更及时地了解实时控制面板、优化的游戏体验、数据质量监控和客户行为分析等应用场景。组织更有信心做出数据驱动的预测,改善客户体验,并在整个企业中推广数据驱动的洞察。

零 ETL 有哪些不同的应用场景?

零 ETL 有三个主要应用场景。

联合查询

联合查询技术使您能够查询各种数据来源,而不必担心数据移动。您可以使用熟悉的 SQL 命令运行查询并联接多个来源(如运营数据库、数据仓库和数据湖)的数据。内存数据网格(IMDG)将数据存储在内存中以进行缓存和处理,因此您可以从即时分析和查询响应时间中受益。然后,您可以将联接结果存储在数据存储中,以供进一步分析和后续使用。

流式摄取

数据流式传输和消息列队平台流式传输来自多个来源的实时数据。通过与数据仓库的零 ETL 集成,您可以从多个此类流中摄取数据,并几乎立即呈现以供分析。无需在任何其他存储服务上暂存流式数据以进行转换。

即时复制

传统上,将数据从事务数据库移动到中央数据仓库总是需要复杂的 ETL 解决方案。如今,零 ETL 可以充当数据复制工具,即时将数据从事务数据库复制到数据仓库。复制机制使用变更数据捕获(CDC)技术,可以内置到数据仓库中。用户看不到重复数据,应用程序将数据存储在事务数据库中,分析师可以从仓库中无缝查询数据。

AWS 如何支持您的零 ETL 工作?

AWS 投资于零 ETL 的未来。以下是为零 ETL 提供内置支持的服务示例。

Amazon Athena 是一项基于开源框架的无服务器交互式分析服务,支持开源表和文件格式。Athena 提供了一种简化、灵活的方法来分析包含它的 PB 级数据。您可以从 Amazon Simple Storage Service(S3)数据湖和超过 30 个数据来源(包括本地数据来源,或使用 SQL 或 Python 的其他云系统)分析数据或构建应用程序。Athena 基于开源 Trino 和 Presto 引擎以及 Apache Spark 框架构建,无需进行预配或配置。

Amazon Redshift Streaming Ingestion 每秒从 Amazon Kinesis Data Streams 或 Amazon MSK 摄取数百兆字节的数据。定义架构或选择采用 SUPER 数据类型的半结构化数据以实时查询数据。

Amazon Aurora 通过 Amazon Redshift 进行零 ETL 集成可实现近乎实时的分析和机器学习(ML)。该服务使用 Amazon Redshift 处理来自 Aurora 的大量 PB 级事务数据的分析工作负载。这是一种完全托管的解决方案,用于在将事务数据写入 Aurora 数据库集群后在 Amazon Redshift 中提供。

来自 S3 的 Amazon Redshift 自动复制可简化并自动将文件摄取到 Amazon Redshift 中。在 S3 中创建新文件后,此功能就会持续摄取数据,无需进行自定义编码或手动摄取活动。

通过 AWS Lake Formation 进行数据共享访问控制可集中管理对组织内共享数据的精细访问。您可以在 Amazon Redshift 中定义、修改和审核对表、列和行的权限。

立即创建免费账户,开始在 AWS 上使用零 ETL!

AWS 上的后续步骤

查看其他与产品相关的资源
查看云端分析服务的免费优惠 
注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录