根据学校的PPT自己学习后整理的笔记（实时更新）

1.了解Hadoop

1.1 Hadoop是什么？

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2）主要解决，海量数据的存储和海量数据的分析计算问题。
3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

1.2 Hadoop发展历史

1）Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。
2）2001年年底Lucene成为Apache基金会的一个子项目。
3）对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。
4）学习和模仿Google解决这些问题的办法：微型版Nutch。
5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）

markdown

GFS --->HDFS
Map-Reduce --->MR
BigTable --->HBase

6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。
8）2006 年 3 月份，Map-Reduce和Nutch Distributed File System （NDFS）分别被纳入到 Hadoop 项目中，Hadoop就此正式诞生，标志着大数据时代来临。
9）名字来源于Doug Cutting儿子的玩具大象

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基础）的版本，对于入门学习最好。2006 Cloudera内部集成了很多大数据框架，对应产品CDH。2008 Hortonworks文档较好，对应产品HDP。2011 Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP。

2.Hadoop优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
4）高容错性：能够自动将失败的任务重新分配。

3.Hadoop组成

3.1 Hadoop1.x、2.x、3.x区别

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。 在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。 Hadoop3.x在组成上没有变化。

层级	Hadoop 1.x 组成	Hadoop 2.x 组成
计算和资源调度	MapReduce（计算+资源调度）🔵	MapReduce（计算）🔴 YARN（资源调度）🔵
数据存储	HDFS（数据存储）🟠	HDFS（数据存储）🟠
辅助工具	Common（辅助工具）🟢	Common（辅助工具）🟢

3.2 Hadoop组成-HDFS

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
3）Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。

3.3 Hadoop组成-YARN

Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大
2）NodeManager（NM）：单个节点服务器资源老大
3）ApplicationMaster（AM）：单个任务运行的老大
4）Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

说明1：客户端可以有多个说明2：集群上可以运行多个ApplicationMaster 说明3：每个NodeManager上可以有多个Container

3.4 Hadoop组成-MapReduce

MapReduce将计算过程分为两个阶段：Map和Reduce。（1）Map阶段并行处理输入数据（2）Reduce阶段对Map结果进行汇总

3.5 HDFS、YARN、MR三者关系

HDFS、YARN 和 MapReduce 是 Hadoop 生态系统的三大核心组件，它们各司其职又紧密协作，共同完成大规模数据的存储与计算任务。三者的关系可以概括为：

1. HDFS（分布式文件系统） - 数据存储层

角色：Hadoop 的存储基石
功能：
- 分布式存储原始数据（如日志、视频等）
- 通过数据分块（Block）和副本机制实现高容错
- 为 MapReduce 提供数据本地化（Data Locality）支持
协作关系：
- 存储 MapReduce 的输入数据和计算结果
- YARN 调度任务时会优先选择存有相关数据的节点（就近计算）

2. YARN（资源管理器） - 资源调度层

角色：Hadoop 的"操作系统"
功能：
- 统一管理集群资源（CPU、内存等）
- 协调多个计算框架（如 MapReduce、Spark 等）共享资源
- 通过 ResourceManager 和 NodeManager 实现动态资源分配
协作关系：
- 为 MapReduce 作业分配 Container（容器）资源
- 监控 MapReduce 任务执行状态
- 依赖 HDFS 存储作业的临时文件和日志

3. MapReduce（计算框架） - 计算层

角色：基于批处理的分布式计算模型
功能：
- 通过 Map 和 Reduce 两个阶段处理数据
- 自动处理故障恢复和任务重试
协作关系：
- 从 HDFS 读取输入数据，计算结果写回 HDFS
- 通过 YARN 申请资源运行 MapTask 和 ReduceTask
- 利用 HDFS 的数据本地化特性减少网络传输

三者的协作流程示例（以单词统计为例）：

存储阶段：文本文件存入 HDFS，被自动切分为多个 Block（如 128MB/块）
资源申请：MapReduce 程序向 YARN 的 ResourceManager 提交作业请求
任务调度：
- YARN 选择存储相关数据块的 NodeManager 启动 MapTask（数据本地化）
- 分配 Container 资源运行 ReduceTask 进行汇总
结果存储：最终统计结果写回 HDFS

架构演进对比：

版本	架构特点
Hadoop 1.x	MapReduce 同时负责计算和资源调度，与 HDFS 直接交互，存在单点瓶颈
Hadoop 2.x	引入 YARN 实现资源调度与计算分离，MapReduce 仅专注计算，扩展性显著提升

总结关系：

HDFS 是地基（存储）
YARN 是脚手架（资源协调）
MapReduce 是建筑工人（计算）
三者共同构建起 Hadoop 大数据处理的完整解决方案，其中 YARN 的引入使 Hadoop 从单一计算框架升级为支持多计算范式（如 Spark、Flink）的资源平台。

1.了解Hadoop ​

1.1 Hadoop是什么？ ​

1.2 Hadoop发展历史 ​

2.Hadoop优势 ​

3.Hadoop组成 ​

3.1 Hadoop1.x、2.x、3.x区别 ​

3.2 Hadoop组成-HDFS ​

3.3 Hadoop组成-YARN ​

3.4 Hadoop组成-MapReduce ​

3.5 HDFS、YARN、MR三者关系 ​

1. ​​HDFS（分布式文件系统） - 数据存储层​​ ​

2. ​​YARN（资源管理器） - 资源调度层​​ ​

3. ​​MapReduce（计算框架） - 计算层​​ ​

三者的协作流程示例（以单词统计为例）： ​

架构演进对比： ​

总结关系： ​

3.6 大数据技术生态体系(不全 建议看PPT) ​