什么是 Hadoop?
Apache Hadoop 是一种开源框架,用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop,您可以将多台计算机组成集群以便更快地并行分析海量数据集,而不是使用一台大型计算机来存储和处理数据。
Hadoop 的四个主要模块是什么?
Hadoop 由四个主要模块组成:
- Hadoop 分布式文件系统 (HDFS)—一个在标准或低端硬件上运行的分布式文件系统。除了更高容错和原生支持大型数据集,HDFS 还提供比传统文件系统更出色的数据吞吐量。
- Yet Another Resource Negotiator (YARN)—管理与监控集群节点和资源使用情况。它会对作业和任务进行安排。
- MapReduce—一个帮助计划对数据运行并行计算的框架。该 Map 任务会提取输入数据,转换成能采用键值对形式对其进行计算的数据集。Reduce 任务会使用 Map 任务的输出来对输出进行汇总,并提供所需的结果。
- Hadoop Common—提供可在所有模块上使用的常见 Java 库。
Hadoop 的工作原理是什么?
Hadoop 让利用集群服务器中的全部存储和处理能力,针对大量数据执行分布式处理变得更简单。Hadoop 提供构建基块,然后在其上方构建其他服务和应用程序。
要收集各种格式数据的应用程序可以通过 API 操作连接到 NameNode,以便将数据放置到 Hadoop 集群当中。对于在 DataNodes 上重复的每个文件的“组块”,NameNode 会对它们的文件目录结构和位置进行追踪。要运行任务来查询数据,提供一个由众多 Map 和 Reduce 任务组成的 MapReduce 作业,而这些任务针对分散在 DataNodes 的 HDFS 中的数据运行。Map 任务在每个节点上针对提供的输入文件运行,而 Reduce 任务则会运行以汇总与整理最终的输出。
Hadoop 生态系统是如何演变的?
由于它的可延展性,Hadoop 生态系统多年来经历了迅猛发展。现在,Hadoop 生态系统包含众多工具和应用程序,可用来帮助收集、存储、处理、分析和管理大数据。部分最受欢迎的应用程序包括:
- Spark:一款常用于大数据工作负载的分布式开源处理系统。Apache Spark 利用内存中缓存和经过优化的执行方式以实现高速性能,并支持常规批处理、流式分析、机器学习、图形数据库和临时查询。
- Presto:一种开源的分布式 SQL 查询引擎,针对低延迟的临时数据分析进行了优化。它支持 ANSI SQL 标准,包括复杂查询、聚合、连接和窗口函数。Presto 可处理来自多个数据源 (包括 Hadoop 分布式文件系统 [HDFS] 和 Amazon S3) 的数据。
- Hive:允许用户通过 SQL 界面使用 Hadoop MapReduce,从而实现大规模分析,以及分布式和容错数据仓储。
- HBase:一种在 Amazon S3(使用 EMRFS)或 Hadoop Distributed File System(HDFS)顶部运行的开源、非关系、版本控制数据库。HBase 是一种可大规模扩展的分布式大数据存储,专门为随机、严格一致性地实时访问具有数十亿行和数百万列的表而定制。
- Zeppelin—一种可实现交互式数据探索的交互式笔记本。
AWS 如何支持您的 Hadoop 要求?
Amazon EMR 是一项托管服务,让您可以使用最新版本的大数据处理框架(如 Apache Hadoop、Spark、HBase 和 Presto)在完全可定制的集群上处理和分析大型数据集。
- 易于使用:您可以迅速启动 Amazon EMR 集群。您不必担心节点调配、集群设置、Hadoop 配置或集群调试。
- 低成本:Amazon EMR 定价简单,预估轻松:您将按照每个使用的实例小时支付小时费率,还可以使用 Spot 实例实现更多节省。
- 弹性:使用 Amazon EMR,您可以配置一个、数百个或者甚至数千个任意大小的计算实例来处理数据。
- 瞬态:您可以使用 EMRFS 并且根据持久存储于 Amazon S3 中的 HDFS 数据按需运行集群。当作业结束时,您可以关闭集群,并将数据保存到 Amazon S3 当中。您只需要为集群运行时的计算时间付费。
- 安全:Amazon EMR 具有 AWS 服务的全部常见的安全特性:
- 通过 Identity and Access Management (IAM) 角色和策略管理权限。
- 传输中和静态加密帮助您保护数据,并符合合规性标准,如 HIPAA。
- 通过安全组控制您的集群节点的入站和出站网络流量。
- AWS CloudTrail:对在您的账户中发起的全部 Amazon EMR PI 调用进行审计,以便提供安全分析、资源更改追踪和合规性审计。
立即创建账户,开始在 AWS 上使用 Hadoop。