Como usar o Amazon EMR
- Desenvolva seu aplicativo de processamento de dados. Você pode usar Java, Hive (uma linguagem similar a SQL), Pig (uma linguagem de processamento de dados), Cascading, Ruby, Perl, Python, R, PHP, C++ ou Node.js. O Amazon EMR oferece exemplos de código e tutoriais para que você comece rapidamente.
- Carregue seu aplicativo e dados no Amazon S3. Se você tem uma grande quantidade de dados para carregar, considere o uso do AWS Import/Export Snowball para carregar dados usando dispositivos de armazenamento físico ou o AWS Direct Connect para estabelecer uma conexão de rede dedicada do seu datacenter com a AWS. Se preferir, você também pode gravar seus dados diretamente em um cluster em execução.
- Configure e execute seu cluster. Usando o Console de Gerenciamento da AWS, a CLI, os SDKs ou as APIs da AWS, especifique o número de instâncias do Amazon EC2 para provisionar no seu cluster, os tipos de instância a usar (padrão, alta memória, CPU de alto desempenho, E/S elevada, etc.), as aplicações a instalar (Apache Spark, Apache Hive, Apache HBase, Presto, etc.) e o local das aplicações e dos dados. Você pode usar ações de bootstrap para instalar software adicional ou alterar configurações padrão.
- Monitore o cluster. Você pode monitorar a saúde e o progresso do cluster usando o console de gerenciamento, Command Line Interface, SDKs ou APIs. O EMR integra-se com o Amazon CloudWatch para monitorar/gerar alarmes e suporta ferramentas de monitoramento populares como o Ganglia. Você pode adicionar/remover capacidade para o cluster a qualquer momento para tratar mais ou menos dados. Para solucionar problemas, você pode usar a GUI de depuração simples do console.
- Recupere a saída. Recupere a saída do Amazon S3 ou HDFS no cluster. Visualize os dados com ferramentas como o Amazon QuickSight, Tableau e o MicroStrategy. O Amazon EMR encerrará automaticamente o cluster quando o processamento estiver concluído. Alternativamente, você pode deixar o cluster em execução e dar a ele mais trabalho para fazer.
Você está pronto para executar o seu primeiro cluster?
Clique aqui para executar um cluster usando o console de gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.
Tutoriais
Spark
Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS
Saiba como configurar o Apache Kafka no EC2, usar Spark Streaming no EMR para processar os dados que chegam aos tópicos do Apache Kafka e consultar dados de streaming usando o Spark SQL no EMR.
Large-scale machine learning with Spark on Amazon EMR
Saiba como a Intent Media usou o Spark e o Amazon EMR para seus fluxos de trabalho de modelagem.
HBase
SQL de baixa latência e índices secundários com o Phoenix e o HBase
Saiba como conectar-se ao Phoenix usando o JDBC, criar uma exibição sobre uma tabela HBase existente e criar um índice secundário para melhorar o desempenho de leitura
Como usar o HBase com Hive para cargas de trabalho NoSQL e de análise
Saiba como executar um cluster do EMR com o HBase e restaurar uma tabela de um snapshot no Amazon S3
Presto
Executar um cluster do Amazon EMR com o Presto e o Airpal
Saiba como configurar um cluster do Presto e usar o Airpal para processar dados armazenados no S3.
Hive
Using HBase with Hive for NoSQL and analytics workloads
Saiba como executar um cluster do EMR com o HBase e restaurar uma tabela de um snapshot no Amazon S3.
Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite
Saiba como conectar-se a um fluxo de trabalho do Hive em execução no Amazon Elastic MapReduce para criar uma plataforma segura e extensível para geração de relatórios e análises.
Flink
Build a real-time stream processing pipeline with Apache Flink on AWS
Este tutorial descreve uma arquitetura de referência para um stream consistente, escalável e confiável que é baseado no Apache Flink usando o Amazon EMR, o Amazon Kinesis e o Amazon Elasticsearch Service.
Aprenda no seu próprio ritmo com outros tutoriais.
Treinamento e ajuda
Compromissos de curto prazo
Você precisa de ajuda para criar uma prova de conceito ou ajustar seus aplicativos do EMR? A AWS tem uma equipe de suporte global especializada em EMR. Entre em contato conosco se tiver interesse em saber mais sobre compromissos de suporte pago de curto prazo (2-6 semanas).
Treinamento sobre big data da AWS
O curso Big Data on AWS foi projetado para ensinar na prática como utilizar a Amazon Web Services para cargas de trabalho de big data. A AWS demonstrará como executar tarefas do Amazon EMR para processar dados utilizando o amplo ecossistema de ferramentas do Hadoop, como o Pig e o Hive. Além disso, a AWS também ensinará a criar ambientes de big data na nuvem com o Amazon DynamoDB e o Amazon Redshift, entender os benefícios do Amazon Kinesis e aproveitar as melhores práticas no projeto de ambientes de big data para obter análises, segurança e economia. Para saber mais sobre o curso de big data, clique aqui.
Treinamento adicional
A Scale Unlimited oferece treinamento personalizado no local para empresas que precisam conhecer rapidamente o uso do EMR e outras tecnologias de big data. Para saber mais, clique aqui.
Recursos adicionais
Crie um cluster de amostra do Amazon EMR no Console de Gerenciamento da AWS.
Obtenha acesso instantâneo ao nível gratuito da AWS.
Descubra mais recursos do Amazon EMR