Amazon SageMaker Data Processing

Realize a análise, a preparação e a integração de dados para analytics e IA em qualquer escala

Por que optar pelo SageMaker Data Processing?

Realize a preparação, a integração e a orquestração dos dados com as funcionalidades de processamento de dados do Amazon Athena, do Amazon EMR, do AWS Glue e do Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Processe e integre os dados, independentemente da localização deles, com conectividade ágil e simples a centenas de fontes de dados.

Use as estruturas de processamento de dados de código aberto, como Apache Spark, Trino e Apache Flink. Realize análises de dados em grande escala com o Trino, sem a necessidade de gerenciar a infraestrutura, e crie analytics em tempo real de maneira integrada com o Apache Flink e o Apache Spark.

Garanta a precisão e a segurança de seus dados ao automatizar a qualidade dos dados, a identificação de dados confidenciais, o rastreamento da linhagem e a aplicação de controles de acesso granulares, por meio da integração nativa ao Amazon SageMaker Lakehouse.

Benefícios

O Amazon SageMaker Data Processing fornece acesso abrangente a estruturas de processamento de dados e de fluxos, mecanismos de consulta SQL distribuídos de código aberto e as ferramentas mais conhecidas, como cadernos, editores de consulta e elementos visuais de extração, transformação e carregamento (ETL).

É possível acessar as estruturas mais utilizadas, como o Apache Spark, para preparar e integrar os dados em qualquer escala. Responda às necessidades de negócios em tempo real com o processamento de fluxos usando o Apache Flink e o Apache Spark Streaming, e analise os dados com as principais estruturas SQL de código aberto, como o Trino. Simplifique a orquestração de fluxos de trabalho sem a necessidade de gerenciar a infraestrutura com a integração nativa ao Amazon MWAA.

O SageMaker Data Processing se integra nativamente ao SageMaker Lakehouse, permitindo o processamento e a integração usando uma única cópia dos seus dados para todos os casos de uso, como analytics, geração de consultas ad-hoc, machine learning (ML) e IA generativa.

O SageMaker Lakehouse unifica os dados entre os data lakes do Amazon Simple Storage Service (Amazon S3) e os data warehouses do Amazon Redshift, fornecendo um acesso unificado aos seus dados. É possível descobrir e analisar dados unificados no Lakehouse usando centenas de conectores, integrações ETL zero e fontes de dados federadas, que disponibilizam um panorama abrangente do seu negócio. O SageMaker Lakehouse integra-se de maneira simples à arquitetura de dados existente, sem restrições quanto ao formato de armazenamento ou escolhas de mecanismos de consulta.

Aprimore a eficiência com a rápida performance de consultas em tabelas do Apache Iceberg. Obtenha insights até duas vezes mais rápidos quando comparados com os sistemas tradicionais de código aberto, ao usar versões de alta performance e compatíveis com API de código aberto do Apache Spark, Apache Airflow, Apache Flink, Trino e outros.

O SageMaker Data Processing permite que você se concentre na transformação e análise de seus dados, sem a necessidade de gerenciar a capacidade de computação ou as aplicações de código aberto. Isso fornece economia de tempo e reduz os custos. É possível realizar o provisionamento automático da capacidade no Amazon EMR no Amazon Elastic Compute Cloud (Amazon EC2) ou no Amazon EMR no Amazon Elastic Kubernetes Service (Amazon EKS). As regras de escalabilidade gerenciam as alterações nas suas demandas de computação para otimizar a performance e os runtimes.

Obtenha confiança e transparência com a geração de relatórios automatizados de qualidade de dados, a detecção de dados confidenciais e o rastreamento de linhagem para dados e modelos de IA por meio da integração com o Amazon SageMaker Catalog. Aumente a confiança na qualidade dos seus dados com a medição, o monitoramento e as recomendações automáticas para regras de qualidade de dados.

Processe e analise os dados com segurança ao aderir e aplicar os controles de acesso ajustados definidos em conjuntos de dados no SageMaker Lakehouse. Isso permite que você defina permissões somente uma vez e torne os dados acessíveis a usuários autorizados em sua organização.

serviços da AWS

Integração simplificada de dados

O AWS Glue fornece integração de dados com tecnologia sem servidor, simplificando a exploração, a preparação e a integração de dados de múltiplas fontes. Conecte-se a diversas fontes de dados, gerencie seus dados em um catálogo de dados centralizado e crie, execute e monitore visualmente pipelines de ETL para carregar dados no seu lakehouse. O AWS Glue escala automaticamente conforme a demanda, permitindo que você se concentre em obter insights dos dados sem se preocupar com o gerenciamento da infraestrutura.

Execute e escale o Apache Spark, o Apache Hive, o Trino e outras workloads

O Amazon EMR simplifica e reduz os custos de execução de workloads de processamento de dados, como Apache Spark, Apache Airflow, Apache Flink, Trino e muito mais. Desenvolva e execute pipelines de processamento de dados, bem como realize escalabilidade automática, mais rápido do que em soluções on-premises.

Acompanhe custos

O Athena disponibiliza uma forma simplificada e flexível de analisar seus dados em qualquer escala. O Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 ao usar um SQL padrão. O Athena trata-se de uma solução com tecnologia sem servidor, o que significa que não é necessário configurar ou gerenciar uma infraestrutura, e você pode escolher realizar o pagamento com base nas consultas realizadas ou nos recursos computacionais requeridos por suas consultas. Use o Athena para processar logs, executar análise de dados e executar consultas interativas. O Athena realiza a escalabilidade automática, executando consultas em paralelo, de modo que os resultados são rápidos, mesmo em grandes conjuntos de dados e em consultas complexas.

Orquestração de fluxos de trabalho gerenciada, focada em segurança e altamente disponível, para o Apache Airflow

O Amazon MWAA é um serviço gerenciado para Apache Airflow que permite usar sua plataforma Apache Airflow atual e familiar para orquestrar seus fluxos de trabalho. Você ganha escalabilidade, disponibilidade e segurança aprimoradas sem a carga operacional de gerenciar a infraestrutura subjacente. O Amazon MWAA orquestra seus fluxos de trabalho usando grafos acíclicos dirigidos (DAGs, na sigla em inglês) desenvolvidos em Python. Você fornece ao Amazon MWAA um bucket do S3 em que seus DAGs, plug-ins e requisitos do Python estão localizados. Implemente o Apache Airflow em larga escala sem a carga operacional de gerenciamento da infraestrutura subjacente.

Casos de uso

Identifique e acesse rapidamente dados unificados na AWS, em instalações on-premises e em outras nuvens e, em seguida, disponibilize-os instantaneamente para consulta e transformação.

Processe dados usando estruturas como o Apache Spark, o Apache Flink e o Trino, além de diversas workloads, incluindo lote, microlote e transmissão.

Execute processamento de dados distribuídos e análises de hipóteses em grande escala usando algoritmos estatísticos e modelos preditivos para revelar padrões ocultos, correlações, tendências de mercado e preferências dos clientes.