hadoop 的核心由分布式文件系统 (hdfs) 和资源管理框架 (mapreduce) 组成。hdfs 提供容错性和高吞吐量,将大型文件存储在多个节点上,即使一台机器故障,也不会丢失数据。mapreduce 是一个并行计算框架,将数据处理任务分解为可并行执行的较小任务,并处理文件中的每个记录。
Hadoop 的核心
Hadoop 的核心是一个分布式文件系统 (HDFS) 和一个资源管理框架 (MapReduce)。
HDFS
- 一个分布式文件系统,以容错性和高吞吐量为设计目标。
- 将大型文件切分成较小的块,并分布存储在多个节点上。
- 提供数据冗余,即使某台机器发生故障,也不会丢失数据。
MapReduce
- 一个并行计算框架,用于处理海量数据集。
- 将数据处理任务拆分为可并行执行的较小任务。
- 可以处理文件中的每个记录,并产生一个输出文件。
Hadoop 核心架构
Hadoop 的核心架构包括以下组件:
- NameNode: 管理 HDFS 元数据(文件和块的位置)的中央服务器。
- DataNode: 存储和管理 HDFS 数据块的节点。
- JobTracker: 管理 MapReduce 作业,调度任务并监控进度。
- TaskTracker: 在 DataNode 上执行 MapReduce 任务。
- Secondary NameNode: 备份 NameNode 的元数据,以实现容错。