什么是实时数据流?
实时数据流涉及从各种数据来源收集和摄取一系列数据,并实时处理这些数据以提取含义和见解。
流式处理数据的示例包括客户使用您的移动或 Web 应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据。
实时数据流使您能够实时分析和处理数据,而不必等待数小时、数天或数周才能获得答案。
实时数据流包括哪些组成部分?
来源:成千上万的设备或应用程序正在高速产生大量连续数据。示例包括移动设备、Web 应用程序(点击流)、应用程序日志、IoT 传感器、智能设备和游戏应用程序。
流提取:与超过 15 项 AWS 服务(Amazon API Gateway、AWS IoT Core、Amazon Cloudwatch 等)简单集成,可让您以持久、安全的方式捕获从数千台设备生成的持续数据。
流存储:根据扩展、延迟和处理要求,选择符合您存储需求的解决方案,例如 Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose 和 Amazon Managed Streaming for Apache Kafka(Amazon MSK)。
流处理:有多种服务可供选择,从只需单击几下即可转换数据并将其持续传输到目的地的解决方案,如 Amazon Kinesis Data Firehose,到使用各种服务的功能强大、定制、实时应用程序和机器学习集成,如适用于 Apache Flink 的亚马逊托管服务和 AWS Lambda。
目的地:将流数据传输到一系列完全集成的数据湖、数据仓库和分析服务,例如 Amazon S3、Amazon Redshift、Amazon OpenSearch Service 和 Amazon EMR,以进行进一步分析或长期存储。
有哪些实时数据流使用案例?
实时数据变动
流式传输来自数十万台设备的数据,并实时对大量连续的高速数据执行 ETL 转换,从而用户能够在数据生成后立即对其进行分析,然后将数据持久地存储在数据湖、数据仓库或数据库中以供进一步分析。
了解 WalkMe 如何在将数据流式传输到数据湖时应对测序挑战
了解 John Deere 如何将 ETL 实时流式传输到其数据湖中
实时分析
产生数据后立即对其进行分析,可让整个组织实时做出决策,从而抓住商机、改善客户体验、防止联网故障或实时更新关键业务指标。
日志:实时捕获、处理和分析应用程序中的日志。
查看如何管理集中化的 Microsoft Exchange 服务器日志
实时更新:通过提供关键决策指标、产品建议和客户体验的实时更新,与消费者、游戏玩家、金融交易者等进行互动。
Clickstream:实时查看您的 Web 内容的性能,以及用户与您的应用程序和网站的交互,包括用户行为、所花时间、热门内容,等等。
了解 Hearst 如何构建点击流分析解决方案,每天传输和处理来自全球 300 多个网站的 30TB 数据
IoT:连接到成千上万的 IoT 设备,实时收集、处理和分析流数据。
了解 John Deere 如何实时流式传输来自成千上万辆农用车辆的数据以优化粮食生产
事件流处理
捕获并响应跨多个应用程序实时发生的事件。最常见的使用案例是在数百个解耦的微服务之间进行通信以及通过 Change Data Capture 维护记录系统。
在解耦的微服务之间进行通信:触发任何微服务时,可以将事件实时发送到数据流,其他微服务可以“监视”此数据流,了解是否发生触发所需操作的事件。
Change Data Capture:多个应用程序和数据库中的所有数据更改都可以实时流式传输到中央记录系统。
AWS 上有哪些流式传输服务?
AWS 提供了几种处理实时数据流的选项。
- Amazon Kinesis Data Streams 是一种可扩展且持久的实时数据流服务,可以从成千上万个来源中以每秒数 GB 的速度持续捕获数据。
- Amazon Kinesis Data Firehose 捕获、转换数据流并将其加载到 AWS 数据存储中以利用现有商业智能工具进行近实时分析(只需单击几次)。
- 适用于 Apache Flink 的亚马逊托管服务 通过 Apache Flink(一种用于处理数据流的开源框架和引擎)实时转换和分析流数据。
- Amazon Managed Streaming for Apache Kafka 是完全托管服务,让您轻松构建并运行使用 Apache Kafka 的应用程序来处理流式数据。
立即创建账户,开始在 AWS 上使用实时数据流。