Amazon SageMaker Data Processing
Realize a análise, a preparação e a integração de dados para analytics e IA em qualquer escalaPor que optar pelo SageMaker Data Processing?
Realize a preparação, a integração e a orquestração dos dados com as funcionalidades de processamento de dados do Amazon Athena, do Amazon EMR, do AWS Glue e do Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Processe e integre os dados, independentemente da localização deles, com conectividade ágil e simples a centenas de fontes de dados.
Use as estruturas de processamento de dados de código aberto, como Apache Spark, Trino e Apache Flink. Realize análises de dados em grande escala com o Trino, sem a necessidade de gerenciar a infraestrutura, e crie analytics em tempo real de maneira integrada com o Apache Flink e o Apache Spark.
Garanta a precisão e a segurança de seus dados ao automatizar a qualidade dos dados, a identificação de dados confidenciais, o rastreamento da linhagem e a aplicação de controles de acesso granulares, por meio da integração nativa ao Amazon SageMaker Lakehouse.
Benefícios
serviços da AWS
Integração simplificada de dados
O AWS Glue fornece integração de dados com tecnologia sem servidor, simplificando a exploração, a preparação e a integração de dados de múltiplas fontes. Conecte-se a diversas fontes de dados, gerencie seus dados em um catálogo de dados centralizado e crie, execute e monitore visualmente pipelines de ETL para carregar dados no seu lakehouse. O AWS Glue escala automaticamente conforme a demanda, permitindo que você se concentre em obter insights dos dados sem se preocupar com o gerenciamento da infraestrutura.
Execute e escale o Apache Spark, o Apache Hive, o Trino e outras workloads
O Amazon EMR simplifica e reduz os custos de execução de workloads de processamento de dados, como Apache Spark, Apache Airflow, Apache Flink, Trino e muito mais. Desenvolva e execute pipelines de processamento de dados, bem como realize escalabilidade automática, mais rápido do que em soluções on-premises.
Acompanhe custos
O Athena disponibiliza uma forma simplificada e flexível de analisar seus dados em qualquer escala. O Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 ao usar um SQL padrão. O Athena trata-se de uma solução com tecnologia sem servidor, o que significa que não é necessário configurar ou gerenciar uma infraestrutura, e você pode escolher realizar o pagamento com base nas consultas realizadas ou nos recursos computacionais requeridos por suas consultas. Use o Athena para processar logs, executar análise de dados e executar consultas interativas. O Athena realiza a escalabilidade automática, executando consultas em paralelo, de modo que os resultados são rápidos, mesmo em grandes conjuntos de dados e em consultas complexas.
Orquestração de fluxos de trabalho gerenciada, focada em segurança e altamente disponível, para o Apache Airflow
O Amazon MWAA é um serviço gerenciado para Apache Airflow que permite usar sua plataforma Apache Airflow atual e familiar para orquestrar seus fluxos de trabalho. Você ganha escalabilidade, disponibilidade e segurança aprimoradas sem a carga operacional de gerenciar a infraestrutura subjacente. O Amazon MWAA orquestra seus fluxos de trabalho usando grafos acíclicos dirigidos (DAGs, na sigla em inglês) desenvolvidos em Python. Você fornece ao Amazon MWAA um bucket do S3 em que seus DAGs, plug-ins e requisitos do Python estão localizados. Implemente o Apache Airflow em larga escala sem a carga operacional de gerenciamento da infraestrutura subjacente.