HDFS写文件解析

HDFS写文件解析

  1. client通过DistributedFileSystem对象调用create()方法创建文件,实际上通过RPC调用了NameNode的方法。
  2. NameNode收到client的请求之后,执行各种检查(1.确认要传文件目前在HDFS上不存在,2.client具有写的权限)如果通过则会为新文件创建一条记录,并返回一个FSDataOutputStream对象,该对象负责DataNode和NameNode通讯。若检查未通过则抛出IOException。
  3. 客户端拿到流后,进行文件写入。stream会将数据分成一个个数据包(packet)并写入内部队列,称为数据队列(data queue)DataStreamer处理数据队列,它的责任是根据DataNode列表来要求NameNode分配适合的新块来存储副本。这一组DataNode构成一个管道(Pipeline)
    如果存在多个DataNode,那么包会在DataNode之间进行流式转发。 一直到最后一个节点
  4. DFSOutputStream也维护着一个确认队列(ack queue)。收到管道中所有DataNode确认信息后,该数据包才会从确认队列中删除。
  5. 所有的数据块都写完以后,close流。并且等待NameNode返回确认信息。
    上述是在正常写文件,并且没有发生故障的理想情况下。

    补充:
        如果数据写入期间DataNode发生故障,则执行以下操作:
             
  1.关闭管道(Pipeline)

             
  2.将队列中的所有数据包都添加回数据队列的最前端,确保故障节点下游的DataNode不会漏掉任何一个数据库包

             
  3.为存储在另一节点的当前数据块指定一个新的标识,并将标识发给NameNode. 便于故障节点恢复后可以删除其原来已经上传的部分数据。

             
  4.从管道中删除故障节点,并把数据块继续传输到其他正常DataNode节点。NameNode发现副本数不足时,会在另一个节点上创建一个新的副本。

版权声明:本文为博主原创文章,未经博主允许不得转载。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注