50字范文 > 大数据学习（3）- 分布式文件系统HDFS

大数据学习（3）- 分布式文件系统HDFS

时间：2018-08-21 13:29:05

文章目录

目录1.分布式文件系统1.1 计算机集群概念1.2 分布式文件系统结构2.HDFS简介2.1 HDFS设计的目标2.2HDFS的局限性2.3 块的概念2.4 HDFS主要组件及其功能2.4.1 名称节点2.4.2 第二名称节点2.4.3 数据节点3.HDFS体系结构3.1 HDFS体系结构介绍3.2 HDFS体系结构的局限性4.HDFS存储原理4.1 冗余数据保存4.2 数据存取策略4.3 数据错误和恢复4.3.1 名称节点出错4.3.2 数据节点出错4.3.3 数据出错5.HDFS数据读写过程5.1 数据读取过程5.2 数据存储过程5.3 读写介绍![在这里插入图片描述](https://img-/0329165747536.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dhbmd6aTExMTExMTEx,size_16,color_FFFFFF,t_70)5.3.1 读数据过程5.3.2 写数据过程6.HDFS编程实践6.1 HDFS常用命令6.2 HDFS的web界面

数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中

3.HDFS体系结构

3.1 HDFS体系结构介绍

HDFS的命名空间包含目录、文件和块在HDFS1.0体系结构中，在整个HDFS集群中只有一个命名空间，并且只有唯一一个名称节点，该节点负责对这个命名空间进行管理HDFS使用的是传统的分级文件体系，因此，用户可以像使用普通文件系统一样，创建、删除目录和文件，在目录间转移文件，重命名文件等

3.2 HDFS体系结构的局限性

4.HDFS存储原理

4.1 冗余数据保存

4.2 数据存取策略

4.3 数据错误和恢复

HDFS具有较高的容错性，可以兼容廉价的硬件，它把硬件出错看作一种常态，而不是异常，并设计了相应的机制检测数据错误和进行自动恢复，主要包括以下几种情形：名称节点出错、数据节点出错和数据出错。

4.3.1 名称节点出错

名称节点保存了所有的元数据信息，其中，最核心的两大数据结构是FsImage和Editlog，如果这两个文件发生损坏，那么整个HDFS实例将失效。因此，HDFS设置了备份机制，把这些核心文件同步复制到备份服务器SecondaryNameNode上。当名称节点出错时，就可以根据备份服务器SecondaryNameNode中的FsImage和Editlog数据进行恢复。

4.3.2 数据节点出错

4.3.3 数据出错

网络传输和磁盘错误等因素，都会造成数据错误如何判断数据出错：HDFS在创建每个文件的时候，都默认给出了一个校验码，在读取文件的时候，会比对校验码，如果校验码没有错，则数据没有出错。在文件被创建时，客户端就会对每一个文件块进行信息摘录，并把这些信息写入到同一个路径的隐藏文件里面当客户端读取文件的时候，会先读取该信息文件，然后，利用该信息文件对每个读取的数据块进行校验，如果校验出错，客户端就会请求到另外一个数据节点读取该文件块，并且向名称节点报告这个文件块有错误，名称节点会定期检查并且重新复制这个块