什么是数据管道?

数据管道是准备企业数据供分析的一系列处理步骤。组织拥有来自各种来源的大量数据,如应用程序、物联网(IoT)设备和其他数字渠道。然而,原始数据是无用的;必须对其进行移动、排序、筛选、重新格式化和分析,才能获得商业智能。数据管道包含各种技术,可以验证、总结和发现数据中的模式,以便为业务决策提供信息。组织有序的数据管道支持各种大数据项目,如数据可视化、探索性数据分析和机器学习任务。

数据管道有哪些好处?

数据管道让您可以集成不同来源的数据并进行数据转换以供分析。数据管道可消除数据孤岛,让您的数据分析更加可靠和准确。以下是数据管道的一些主要优势。

提高数据质量

数据管道可清理和优化原始数据,从而提高其对终端用户的实用性。数据管道在检查输入错误时会对日期和电话号码等字段的格式进行标准化。数据管道还可消除冗余并确保整个组织的数据质量一致。

高效数据处理

数据工程师在转换和加载数据时必须执行许多重复性任务。数据管道让他们能够自动执行数据转换任务,并专注于寻找最佳业务见解。数据管道还可以帮助数据工程师更快地处理原始数据,以免这些数据随着时间的推移而失去价值。

全面数据集成

数据管道对数据转换功能进行抽象化,以集成不同来源的数据集。数据管道可以从多个来源交叉检查相同数据的值,并解决不一致问题。例如,假设同一位客户从您的电子商务平台和数字服务购买了产品。但是,客户在数字服务中拼错了自己的名字。管道可以修复这种不一致,然后再发送数据进行分析。

数据管道如何工作?

就像输水管道将水从水库输送到水龙头一样,数据管道将数据从收集点输送到存储设备。数据管道从源中提取数据,进行更改,然后将其保存在特定的目的地。下面解释了解释数据管道架构的关键组件。

数据来源

数据来源可以是应用程序、设备或另一个数据库。不同的来源可能会将数据推送到管道中。管道还可以使用 API 调用、Webhook 或数据复制过程来提取数据点。您可以同步数据提取以进行实时处理,也可以按计划的时间间隔从数据来源收集数据。

转换

随着原始数据流经管道,数据会变得对商业智能更有用。转换是指更改数据的操作,例如排序、重新格式化、去重、验证和确认。您的管道可以筛选、汇总或处理数据以满足分析要求。

依赖项

由于更改是按顺序进行的,可能存在特定的依赖项,从而降低迁移管道数据的速度。依赖项主要有两种:技术依赖项和业务依赖项。例如,如果管道必须等待中央队列填满才能继续操作,就称为技术依赖项。相反,如果管道必须暂停以便另一个业务部门交叉验证数据,则称为业务依赖项。

目的地

数据管道的端点可以是数据仓库、数据湖或者其他商业智能或数据分析应用程序。有时目的地也称为数据接收器

数据管道有哪些类型?

数据管道主要有两种类型,即流处理管道和批处理管道。

流处理管道

数据流是一系列连续递增的小型数据包。数据流通常表示在给定时间段内发生的一系列事件。例如,数据流可以显示包含过去一小时测量值的传感器数据。单个操作,如金融交易,也可以称为事件。流式管道可处理一系列事件以进行实时分析。

流式数据需要低延迟和高容错。即使某些数据包丢失或到达顺序与预期不同,您的数据管道也应该能够处理数据。

批处理管道

批处理数据管道可大量或批量处理数据并存储数据。这种数据管道适合处理偶尔的大批量任务,例如月度核算。

数据管道包含一系列顺序命令,每个命令都在整批数据上运行。数据管道将一个命令的输出作为下一个命令的输入。完成所有数据转换后,管道将整批数据加载到云数据仓库或其他类似的数据存储中。

了解有关批处理的信息 »

批处理管道和流式数据管道之间的区别

批处理管道很少运行,而且通常在非高峰时段运行。这些管道运行时间短,需要较高的计算能力。相比之下,流处理管道连续运行,但需要的计算能力较低。相反,流处理管道需要可靠、低延迟的网络连接。

数据管道与 ETL 管道之间有什么区别?

提取、转换、加载(ETL)管道是一种特殊的数据管道。ETL 工具从多个来源提取或复制原始数据并将其存储在称为暂存区域的临时位置中。这些工具转换暂存区中的数据并将其加载到数据湖或数据仓库中。

并非所有数据管道都遵循 ETL 序列。某些管道可能会从源中提取数据并在不进行转换的情况下将其加载到其他地方。其他数据管道遵循提取、加载和转换(ELT)序列,将非结构化数据直接提取和加载到数据湖中。这些数据管道在将信息迁移到云数据仓库后再执行更改。

了解 ETL »

AWS 如何支持您的数据管道需求?

AWS Data Pipeline 是一种 Web 服务,帮助您按照指定间隔时间可靠地处理和移动数据。您的数据可以在不同的 AWS 计算、存储服务以及本地数据来源之间迁移。借助 Data Pipeline,您可以定期访问存储数据的位置、对数据进行大规模转换和处理,并将结果高效地传输到其他 AWS 服务。该服务让您能够从实时数据分析和其他有用的数据管理功能中获益。

您可以使用 Data Pipeline 执行以下操作:

  • 轻松创建具有容错、可重复和高可用性特征的复杂数据处理工作负载
  • 确保资源可用性并有效管理任务间依赖项
  • 创建故障通知系统或自动重试瞬态故障
  • 移动和处理之前在本地数据孤岛中锁定的数据

立即创建免费账户,开始在 AWS 上使用数据管道。

数据管道后续步骤

查看其他与产品相关的资源
查看分析服务 
注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录