大数据学习——hadoop概述

685-杜同学

发表文章数:68

热门标签

首页 » 大数据 » 正文

1. Hadoop的概念:

  • Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架

    • 允许使用简单的编程模型跨计算机集群分布式处理大型数据集

    • 可扩展: 从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储

    • 可靠的: 不依靠硬件来提供高可用性(high-availability),而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务

Hadoop能做什么?

  • 搭建大型数据仓库

  • PB级数据的存储 处理 分析 统计等业务

    • 搜索引擎

    • 日志分析

    • 数据挖掘

    • 商业智能(Business Intelligence,简称:BI)

  • Hadoop是所有搜索引擎的共性问题的廉价解决方案

    • 如何存储持续增长的海量网页: 单节点 V.S. 分布式存储

    • 如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算

    • HDFS 解决分布式存储问题

    • MapReduce 解决分布式计算问题

Hadoop优势

  • 高可靠

    • 数据存储: 数据块多副本

    • 数据计算: 某个节点崩溃, 会自动重新调度作业计算

  • 高扩展性

    • 存储/计算资源不够时,可以横向的线性扩展机器

    • 一个集群中可以包含数以千计的节点

    • 集群可以使用廉价机器,成本低

  • Hadoop生态系统成熟

2. Hadoop核心组件

Hadoop Common: The common utilities that support the other Hadoop modules.(hadoop的核心组件)

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.(分布式文件系统)

  • 源自于Google的GFS论文, 论文发表于2003年10月

  • HDFS是GFS的开源实现

  • HDFS的特点:扩展性&容错性&海量数量存储

  • 将文件切分成指定大小的数据块, 并在多台机器上保存多个副本

  • 数据切分、多副本、容错等操作对用户是透明的

大数据学习——hadoop概述

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets. 

  • 分布式计算框架

  • 源于Google的MapReduce论文,论文发表于2004年12月

  • MapReduce是GoogleMapReduce的开源实现

  • MapReduce特点:扩展性&容错性&海量数据离线处理

大数据学习——hadoop概述

Hadoop YARN: A framework for job scheduling and cluster resource management.(资源调度系统)

  • YARN: Yet Another Resource Negotiator

  • 负责整个集群资源的管理和调度

  • YARN特点:扩展性&容错性&多框架资源统一调度

大数据学习——hadoop概述

3. HDFS环境搭建(ubuntu)

  • 下载jdk 和 hadoop 放到 ~/software目录下 然后解压到 ~/app目录下

    tar -zxvf 压缩包名字 -C ~/app/
  • 配置环境变量

    vi ~/.bashrc
    export JAVA_HOME=/root/bigdata/jdk
    export PATH=$JAVA_HOME/bin:$PATH
    export HADOOP_HOME=/root/bigdata/hadoop
    export PATH=$HADOOP_HOME/bin:$PATH
    ​
    #保存退出后
    source ~/.bashrc
  • 进入到解压后的hadoop目录 修改配置文件

    cd etc/hadoop
    vi hadoop-env.sh
    #找到下面内容添加java home
    export_JAVA_HOME=/root/bigdata/jdk
    <configuration>
            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>file:/root/bigdata/hadoop/tmp</value>
            </property>
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://hadoop-master:9000</value>
            </property>
    </configuration>
     
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/root/bigdata/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/root/bigdata/hadoop/hdfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    cp mapred-site.xml.template mapred-site.xml

    在mapred-site.xml 的configuration 节点中添加

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

     

    • 配置文件作用

      • core-site.xml 指定hdfs的访问方式

      • hdfs-site.xml 指定namenode 和 datanode 的数据存储位置

      • mapred-site.xml 配置mapreduce

      • yarn-site.xml 配置yarn

    • 修改hadoop-env.sh

    • 修改 core-site.xml 在 <configuration>节点中添加

    • 修改hdfs-site.xml 在 configuration节点中添加

    • 修改 mapred-site.xml

    • 默认没有这个 从模板文件复制

    • 修改yarn-site.xml configuration 节点中添加

  • 来到hadoop的bin目录

    ./hadoop namenode -format (这个命令只运行一次)
  • 启动hdfs 进入到 sbin

    cd /bigdata/hadoop/sbin
  • 启动启动yarn 在sbin中

./start-dfs.sh

标签:

拜师教育学员文章:作者:685-杜同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《大数据学习——hadoop概述》 发布于2020-03-27

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录