如何使用 Amazon EMR
- 开发数据处理应用程序。 您可以使用 Java、Hive(类似 SQL 的语言)、Pig(数据处理语言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或 Node.js。Amazon EMR 提供代码示例和教程,帮助您快速开始使用并正常运行。
- 将您的应用程序和数据上传到 Amazon S3。 如果您要上传大量数据,可以考虑使用 AWS Import/Export Snowball(使用物理存储设备上传数据)或者 AWS Direct Connect(建立从数据中心到 AWS 的专用网络连接)。如果您愿意,还可以直接向正在运行的集群写入数据。
- 配置和启动您的集群。 使用 AWS 管理控制台、AWS CLI、开发工具包或 API,指定要在集群中预置的 Amazon EC2 实例数、要使用的实例类型(标准、高内存、高 CPU、高 I/O 等)、要安装的应用程序(Apache Spark、Apache Hive、Apache HBase、Presto 等)以及应用程序和数据的位置。您可以使用引导操作安装其他软件或者更改默认设置。
- 监控集群。 您可以使用管理控制台、命令行界面、开发工具包或 API 监控集群的运行状况和进度。EMR 与 Amazon CloudWatch 集成,可用于监控/警报,并支持流行的监控工具,如 Ganglia。您可以随时根据数据的处理情况给集群添加/移除容量。对于故障诊断,您可以使用控制台的简易调试 GUI。
- 检索输出。 检索集群上的 Amazon S3 或 HDFS 中的输出。使用工具(如 Amazon QuickSight、Tableau 和 MicroStrategy)直观显示数据。Amazon EMR 会在处理完成时自动终止集群。另一种方法是,让集群处于运行状态并给集群增加工作量。
您是否已做好准备来启动首个集群?
单击此处以通过 Amazon EMR 管理控制台启动集群。如果您要运行带有示例数据的示例应用程序,请在 Create Cluster(创建集群)页面上转到 Advanced cluster configuration(高级集群配置),然后单击右上方灰色的 Configure Sample Application(配置示例应用程序)按钮。
教程
Spark
使用 AWS 上的 Apache Spark Streaming 和 Apache Kafka 进行实时流处理
了解如何在 EC2 上设置 Apache Kafka、如何使用 EMR 上的 Spark Streaming 处理流入 Apache Kafka 主题的数据以及如何使用 EMR 上的 Spark SQL 查询流数据。
使用 Amazon EMR 上的 Spark 进行大规模机器学习
了解 Intent Media 如何使用 Spark 和 Amazon EMR 完成建模工作流程。
HBase
借助 Phoenix 和 HBase 实现低延迟的 SQL 访问和二级索引
了解如何使用 JDBC 连接到 Phoenix、如何基于现有 HBase 表创建视图,以及如何创建二级索引以提高读取性能
配合使用 HBase 和 Hive for NoSQL 来处理分析工作负载
了解如何使用 HBase 启动 EMR 集群并从 Amazon S3 中的快照还原表
Presto
借助 Presto 和 Airpal 启动 Amazon EMR 集群
了解如何设置 Presto 集群并使用 Airpal 处理存储在 S3 中的数据。
Hive
结合使用 HBase 和 Hive for NoSQL 来处理分析工作负载
了解如何使用 HBase 启动 EMR 集群并从 Amazon S3 中的快照还原表。
使用 Amazon EMR 上的 Hive 和 MicroStrategy 套件处理和分析大数据
了解如何连接到在 Amazon Elastic MapReduce 上运行的 Hive 作业流,以创建用于报告和分析的安全且可扩展的平台。
Flink
使用 AWS 上的 Apache Flink 构建实时流处理管道
本教程概述了一个使用 Amazon EMR、Amazon Kinesis 和 Amazon Elasticsearch Service 构建基于 Apache Flink 的一致、可扩展且可靠的流处理管道的参考架构。
按照您自己的进度学习其他教程。
培训和帮助
短期参与
您在构建概念证明或进行 EMR 应用程序优化时是否需要协助? AWS 拥有专精 EMR 的全球支持团队。如果您有兴趣了解更多短期(2 至 6 周)付费支持业务的信息,请联系我们。
AWS 大数据培训
Big Data on AWS 课程旨在从实际操作方面指导您如何使用 Amazon Web Services 处理大数据工作负载。AWS 将向您展示如何使用范围广泛的 Hadoop 工具生态系统(如 Pig 和 Hive)运行 Amazon EMR 作业来处理数据。另外,AWS 还会教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在云中创建大数据环境、使您了解 Amazon Kinesis 的优势,以及帮助您利用最佳实践来设计大数据环境,以实现分析、安全性和成本效益方面的目标。要了解有关大数据课程的更多信息,请单击此处。
其他培训
Scale Unlimited 公司提供定制的现场培训,适合于需要快速了解如何使用 EMR 和其他大数据技术的公司。若要了解更多信息,请单击此处。
其他资源
发现更多 Amazon EMR 资源