50字范文,内容丰富有趣,生活中的好帮手!
50字范文 > 学习大数据的第46天(Hadoop篇)——Hadoop框架的认识以及基础命令的认识

学习大数据的第46天(Hadoop篇)——Hadoop框架的认识以及基础命令的认识

时间:2021-08-21 16:34:24

相关推荐

学习大数据的第46天(Hadoop篇)——Hadoop框架的认识以及基础命令的认识

学习大数据的第46天(Hadoop篇)——Hadoop框架的认识以及基础命令的认识

Hadoop的学习笔记

大数据的特点:

大量、高速、多样化

概述:

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

Hadoop框架三大组件支持:

Hadoop是一个统称,目前hadoop主要包含三大组件:

(1)HDFS:是一个分布式存储框架,适合海量数据的存储

(2)mapreduce:是一个分布式计算框架,适合海量数据的计算

(3)yarn:是一个资源调度平台,负责给计算框架分配计算资源

HDFS的分布式存储流程:

具体流程(主从结构):

(1)客户端将数据传入NameNode中,NameNode接受客户端的请求,存储数据的元信息,保存具体数据的位置。

(2)将数据节点传送给客户端,客户端发送读写请求,数据节点接受客户端的读写请求,需要具体的本地文件,存储具体的数据

(3)Scondary NameNode(2NN):用来对元数据做备份处理,如果有多个NameNode就不需要Scondary NameNode

Yarn架构分析:

主从结构

主节点,可以有2个:ResourceManager

从节点,有很多个: NodeManager

ResourceManager负责

集群资源的分配与调度

MapReduce、Storm、Spark等应用,必须实现ApplicationMaster接口,才能被RM管理

NodeManager负责

单节点资源的管理(CPU+内存)

Mapreduce的架构分析:

依赖磁盘io的批处理计算模型

主从结构

主节点,只有一个: MRAppMaster

从节点,就是具体的task

MRAppMaster负责

接收客户端提交的计算任务

把计算任务分给NodeManager的Container中执行,即任务调度

Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源)

Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步分配给ApplicationMaster

Container的运行是由ApplicationMaster向资源所在的NodeManager发起的

监控Container中Task的执行情况

Task负责:

处理数据

搭建Hadoop平台

查看Hadoop的安装文档,详细过程

Hadoop文件中的文件的含义

1、bin目录:可执行文件:
2、etc:配置文件:

core-site.xml : Hadoop的底层 配置

hdfs-site.xml :配置HDFS文件

mapred-site.xml.template:配置MR

yarn-site.xml:配置yarn文件

3、sbin多看看,可以学习linux脚本的编写(比如启动hadoop脚本文件)
4、/usr/local/soft/hadoop-2.7.6/share/hadoop

comment :hadoop的公共包

yarn:存放yarn jar包

mapreduce: hadoop-mapreduce-examples-2.7.6.jar 提供样例的包

Hadoop上传文件

yarn的控制页面:

http://master:8088/cluster

上传文件到hadoop

​ hadoop fs -put README.txt /

展示根目录下的文件

​ hadoop fs -ls /

查看历史命令

​ history |grep hadoop

mapreduce的过程现在目前没看懂??????

/usr/local/soft/hadoop-2.7.6/bin/hadoop jar hadoop-mapreduce-examples-2.7.6.jar wordcount /input /output

运行结果:

详细启动脚本的介绍:

第一种:全部启动集群所有进程

启动:sbin/start-all.sh

停止:sbin/stop-all.sh

第二种:单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程

启动:sbin/start-dfs.sh sbin/start-yarn.sh

停止:sbin/stop-dfs.sh sbin/stop-yarn.sh

每次重新启动集群的时候使用

第三种:单独启动某一个进程

启动hdfs:sbin/hadoop-daemon.sh start (namenode | datanode)

停止hdfs:sbin/hadoop-daemon.sh stop (namenode | datanode)

启动yarn:sbin/yarn-daemon.sh start (resourcemanager | nodemanager)

停止yarn:sbin/yarn-daemon.sh stop(resourcemanager | nodemanager)

用于当某个进程启动失败或者异常down掉的时候,重启进程

Hadoop 三种运行模式:

1.本地模式(学习)1.没有HDFS,使用当前系统下的文件系统2.没有YARN,使用的是Linux中的资源3.使用了 Map-Reduce Framework 2.伪分布式模式(学习)1.只有单台机器2.使用HDFS、Yarn、MapReduce3.分布式模式(企业级)1.多台服务器2.集群模式,包含整个Hadoop组件

HDFS SHELL:

1.两种命令模式1.1 hadoop fs1.2 hdfs dfs2.上传文件-put:hadoop fs -put ./word.txt /input-copyFromLocalhadoop fs -copyFromLocal ./3.下载文件:-gethadoop fs -get /input/word_2.txt ./word_3.txt-copyToLocalhadoop fs -copyToLocal /input/word_2.txt ./word_4.txt4.查看HDFS文件信息:-lshdfs dfs -ls /-df -hhdfs dfs -df -h / # 查看HDFS根目录中空间使用情况-du -hhdfs dfs -du -h / # 查看指定目录下的文件大小5.赋予文件权限-chmodhdfs dfs -chmod u+x 路径 #表示对指定路径或文件赋予执行使用者权限6.创建文件夹-mkdir-p :表示迭代创建多级目录7.移动文件或文件夹-mv8.设置副本数-setrephadoop fs -setrep 副本数 多个路径9.查看文件内容-tailhadoop fs -tail /re/word_2.txt-f:hadoop fs -tail -f /re/word_2.txt # 表示追踪文件的内容-cathadoop fs -cat /re/word_2.txt

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。