学习资源

思科

网络工程

华为

网络工程

红帽

系统运维

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

数据库

OCA

OCP

OCM

MySQL

微软

系统运维

MTA

MCSA

MCSE

软件开发

编程设计

Java

Android

HTML5

其他

Python

学习文章

当前位置：首页 > >学习文章 > >

{大数据}hdfs的工作机制

发布时间： 2018-01-05 14:54:03

1.概述：

1.1. HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)

1.2. NameNode负责管理整个文件系统的元数据

1.3. DataNode 负责管理用户的文件数据块

1.4. 文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上

1.5. 每一个文件块可以有多个副本，并存放在不同的datanode上

1.6. Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量

1.7. HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行

2.HDFS写数据流程：

2.1：概叙

概述客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本；

2.2：详细步骤图

2.3：详细步骤解析

2.3.1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

2.3.2、namenode返回是否可以上传

2.3.3、client请求第一个 block该传输到哪些datanode服务器上

2.3.4、namenode返回3个datanode服务器ABC

2.3.5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

2.3.6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答

2.3.7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

3.HDFS读数据流程：

3.1：概述

客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件；

3.2：详细步骤图

3.3：详细步骤解析

3.3.1、跟namenode通信查询元数据，找到文件块所在的datanode服务器

3.3.2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

3.3.3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

3.3.4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件

QQ空间新浪微博腾讯微博人人网微信更多

上一篇： {大数据}spark入门

下一篇： {大数据}HDFS详解

十九年老品牌

微信咨询：gz_togogo 咨询电话：18127429208 咨询网站客服：在线客服

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

学习文章

{大数据}hdfs的工作机制

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们