大规模摄取、转换数据并将其路由到 Amazon OpenSearch 域和无服务器集合
Amazon OpenSearch Ingestion 是 Amazon OpenSearch Service 的一项功能,允许您摄取、筛选、转换、丰富数据并将其路由到 Amazon OpenSearch 域或无服务器集合。Amazon OpenSearch Ingestion 能够从各种来源摄取数据,并拥有丰富的内置处理器生态系统,可满足您最复杂的数据转换需求。Amazon OpenSearch Ingestion 本质上是无服务器的,可自动扩展以满足最苛刻工作负载的要求,帮助您专注于业务逻辑,同时在可观测性和安全性用例中消除管理复杂数据管道的复杂性。
优势
成本优化
通过数据去重、采样和将噪声数据路由到成本较低的存储来降低存储成本。
数据质量
通过使用内置处理器转换、筛选和丰富数据,以及采用架构来提高可观测性并缩短安全调查时间来提高数据质量。
数据保护
通过在敏感信息到达目的地之前对其进行编辑和模糊处理来保护敏感数据。
安全性与合规性
使用条件逻辑路由数据,以遵守数据驻留法。
主要功能
AWS 是很多客户使用的 OpenSearch 项目的主要贡献者。在这项托管服务中,您将获得 OpenSearch Data Prepper 的所有创新功能。除了社区推动和贡献的这些功能之外,Amazon OpenSearch Ingestion Service 还提供以下功能:
AWS 托管软件安装和修补
AWS 全天候监控和维修服务
AWS 升级版本
更新和升级零停机时间
可用性 SLA:99.9%
无服务器,可自动扩缩摄取工作负载
客户和合作伙伴
-
CyberArk
-
Calyptia
-
Confluent
-
CyberArk
-
“我们在基于云的多租户系统 CyberArk EPM(端点权限管理器)中管理数百万个端点,并使用 AWS OpenSearch 采集高流量数据事件。我们利用 Amazon OpenSearch Ingestion,将之前自我管理的 Logstash 管道替换为 AWS 托管的管道,消除了自行管理基础设施的负担,并为我们的业务提供了一个更具可扩展性、更具成本效益、可靠且安全的数据摄取架构。这项决定带来的另一个好处是,CyberArk EPM 达到了 FedRAMP 高级别 - 处理中状态,而 Amazon OpenSearch Ingestion 已经符合 FedRAMP 标准,这使我们能够在产品中保持高度的安全性。”
Ori Doolman,CyberArk EPM 高级软件架构师
-
Calyptia
-
“在 Calyptia,我们作为 Cloud Native Computing Foundation 项目 Fluentd 和 Fluent Bit 的创建者和维护者,从事数据摄取工作已经超过 12 年。借助这些项目的最新版本,我们很高兴用户能够通过 Fluent 项目和 OpenSearch Ingestion Service 的结合在第一英里获得更多控制权。通过摄取服务,用户可以继续扩展座席和处理,而不必为管理和维护基础设施而担心。”
Anurag Gupta,Calyptia 联合创始人
-
Confluent
-
“我们很高兴与 Amazon OpenSearch 团队合作,共同构建他们的 OpenSearch Ingestion 服务,该服务将提供与 Apache Kafka 和 Confluent 的原生集成。这种集成将帮助我们的共同客户通过 OpenSearch 中的 Apache Kafka 访问实时数据,以便他们重新思考客户体验、构建实时后端操作或推出新的产品和服务。作为 Apache Kafka 的主要贡献者,Confluent 通过构建完整的云原生数据流平台将 Kafka 提升了 10 倍。在我们当前所处的多 SaaS 世界中,您可以通过该平台将数据从创建地点移动到企业可以采取行动的地点。这使得 OpenSearch 用户能够从 Confluent 集成的 100 多个数据来源中受益。我们很高兴看到我们的共同客户在使用 Confluent 和 OpenSearch 设置动态数据的过程中构建的成果。”
Paul Mac Farland,Confluent 合作伙伴与创新生态系统副总裁
常见问题
问:我为什么要使用 Amazon OpenSearch Ingestion?
Amazon OpenSearch Ingestion 是一个数据摄取层,使您能够筛选、丰富、转换、规范化和聚合数据,以便在 Amazon OpenSearch 域和 Amazon OpenSearch 无服务器集合中进行下游分析和可视化。Amazon OpenSearch Ingestion 允许您创建自定义数据管道,以改善应用程序的操作视图。Amazon OpenSearch Ingestion 的无服务器性质消除了自我管理式数据管道的复杂性,并确保您的数据管道可以根据工作负载的需求自动扩缩处理能力。借助 Amazon OpenSearch Ingestion,您可以
- 通过数据去重和采样,防止在 Amazon OpenSearch 中对噪声数据编制索引,从而降低存储成本。
- 在将数据编入 Amazon OpenSearch 域索引之前,通过转换、格式化和丰富数据来提高数据质量并采用常用架构,从而更轻松地解决问题。
- 在敏感信息到达目的地之前对其进行编辑或模糊处理,从而遵守数据驻留法。
问:Amazon OpenSearch 管道有哪些主要组件?
Amazon OpenSearch Ingestion 管道包括三个主要组件:
- 源是管道的输入组件。它定义了管道使用记录的机制。源可以使用记录,方法是通过 http/s 接收数据或从外部第 3 部分端点读取数据。
- 处理器是中间处理单元,可以在将记录发布到接收器之前对其进行筛选、转换和丰富,并将其设置为所需的格式。处理器是管道的可选组件。如果您没有定义处理器,则记录将以源中定义的格式发布。您可以有多个处理器。处理器将按照您在管道中定义的顺序执行。
- 接收器是管道的输出组件。它定义了管道向其发布记录的一个或多个目的地。接收器也可以是另一个管道,它允许您将多个管道链接在一起。
问:我可以使用 Amazon OpenSearch Ingestion 摄取哪些类型的数据?
Amazon OpenSearch 支持摄取您通常会在 Amazon OpenSearch 域中编制索引的所有类型的数据。这包括但不限于结构化、非结构化、文本、数字和地理空间数据。OpenSearch Ingestion 还支持摄取可观察性数据的所有三个支柱:日志、指标和跟踪。您可以使用 OpenSearch Ingestion 及其对由数据来源、处理器和接收器组成的丰富生态系统的支持,在将数据存储到 Amazon OpenSearch 域之前对其进行转换。借助 OpenSearch Ingestion,您无需再编写自定义 lambda 函数或自行管理 Logstash 和 Elasticsearch 摄取节点即可摄取需要在 Amazon OpenSearch 集群中编制索引的数据。请参阅我们的文档页面,查看 Amazon OpenSearch Ingestion 支持的来源、处理器和接收器列表。
问:Amazon OpenSearch Ingestion 与 Amazon OpenSearch 项目有什么关系?
Amazon OpenSearch Ingestion 是一个数据摄取层,用于在 Amazon OpenSearch Service 中对数据编制索引之前对其进行预处理。OpenSearch Ingestion 是使用 Data Prepper 构建的,Data Prepper 是 OpenSearch 项目的一个组件,支持 Data Prepper 支持的所有数据格式、源、处理器和接收器。
问:问:如何开始使用 Amazon OpenSearch Ingestion?
要开始使用 Amazon OpenSearch Ingestion,首先要定义一个数据管道。OpenSearch Ingestion 管道是业务逻辑的核心,由一个源、一个或一系列处理器和一个接收器组成。您可以通过 YAML 文件定义管道配置,该文件包含您的源、处理器和接收器的详细信息。OpenSearch Ingestion 还允许您设置要为每个管道设置的用于 OpenSearch 摄取计算单位 (OCU) 的最小和最大容量。最后,您可以选择数据到达 OpenSearch Ingestion 管道的方式:
- VPC 访问:对于 VPC 访问,我们建立了从您的 VPC 到 Amazon OpenSearch Ingestion 管道的专用链接。这为您的管道提供了专用连接,而不会将您的流量暴露给公共互联网。
- 公共访问:在此网络配置中,您的 OpenSearch 管道数据流经公共互联网。
您可以通过 AWS 管理控制台或 AWS 命令行开始创建数据管道。