Hadoop

1129-徐同学

发表文章数:61

热门标签

首页 » 大数据 » 正文

hadoop的介绍和历史版本

hadoop的介绍

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

hadoop的历史版本

0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

hadoop的架构模型

hadoop1.x的架构模型

hdfs部分:典型的主从架构,没有主备的概念
namenode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求,处理用户的请求
secondaryNamenode:主要是辅助namenode管理元数据信息的
datanode:集群当中的从节点,主要用于存储数据
mapReduce分布式文件计算系统:
jobTracker:主节点,接收用户请求,分配任务给taskTracker去执行
taskTracker:从节点,主要用于接收jobTracker分配的任务

hadoop2.x当中的架构模型

hdfs文件系统:
namenode:集群当中的主节点,主要用于维护元数据信息,以及处理用户的请求
secondaryNamenode:主要是辅助namenode管理元数据信息的
datanode:集群当中的从节点,主要用于存储数据

yarn资源调度系统:
resourceManager:yarn资源调度系统的主节点,接收用户请求,分配资源(分配CPU ,分配内存等等)
nodeManager:从节点,主要用于处理计算任务

namenode高可用:
namenode active状态:处于活跃的主节点,处理用户请求,维护元数据信息
namenode stand 状态:处于备份的节点,活跃的主节点死了之后,备份的节点,马上切换为活跃的主节点,对外提供服务
如果namenode高可用,那么一定要保证namenode的元数据信息同步一致,如果不一致,就会出现脑裂的问题
journalNode:为了解决元数据共享的问题,引入journalNode的机制,专门用于同步元数据信息
zkfc:zkFailoverController ,amenode的守护进程,主要用于监听namenode什么时候死掉,死掉了之后,马上通知另外一个namenode切换为主节点

apache版本的hadoop三种运行环境的介绍

1、standAlone环境:单机版的hadoop运行环境
2、伪分布式环境:主节点都在一台机器上面,从节点分开到其他机器上面 借助三台机器来实现
namenode resourceManager
3、完全分布式环境:主节点全部都分散到不同的机器 namenode active 占用一台机器 namenodestandBy占用一台机器 resourceManger active 占用一台机器 resourceManagerstandby占用一台机器

标签:

拜师教育学员文章:作者:1129-徐同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《Hadoop》 发布于2020-07-20

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录