首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏公有云大数据平台弹性 MapReduce

    HDFS 异构存储

    需求 Hadoop 从 2.4 后开始支持异构存储,异构存储是为了解决爆炸式的存储容量增长以及计算能力增长所带来的数据存储需求,一份数据热数据在经历计算产生出新的数据,那么原始数据有可能变为冷数据,随着数据不断增长差异化存储变的非常迫切 ,需要经常被计算或者读取的热数据为了保证性能需要存储在高速存储设备上,当一些数据变为冷数据后不经常会用到的数据会变为归档数据,可以使用大容量性能要差一些的存储设备来存储来减少存储成本,HDFS 可以按照一定的规则来存储这些数据 情况时的可选存储类型,这里出现了 fallback 的情况,什么叫做 fallback 的情况呢,当前存储类型不可用的时候,退一级所选择使用的存储类型 测试环境验证 环境信息准备 数据拷贝数 2 datanode 节点信息 DataNode 存储介质 初始空间 HDFS 设置介质类型 100.67.57.220 SSD 100G DISK 100.67.57.221 SSD 100G DISK 100.67.57.222 ,默认的存储类型没有设置即为 DISK 类型(实际盘是 SSD),24 和 71 节点为新扩节点实际磁盘为机械盘在 hdfs 里设置的存储类型为 ARCHIVE 初始文件信息 bin/hadoop fs

    4.5K21发布于 2017-07-28
  • 来自专栏暴走大数据

    HDFS异构存储简介

    前言 ---- Hadoop在2.6.0版本中引入了一个新特性异构存储.异构存储关键在于异构2个字.异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是上篇文章提到的冷热数据的存储 .换句话说,HDFS的异构存储特性的出现使得我们不需要搭建2套独立的集群来存放冷热2类数据,在一套集群内就能完成.所以这个功能特性还是有非常大的实用意义的.本文就带大家了解HDFS的异构存储分为哪几种类型 ,存储策略如何,HDFS如何做到智能化的异构存储. HDFS中冷热数据文件目录的StorageType的设定将会显得非常的重要.那么如何让HDFS知道集群中哪些数据存储目录是具体哪种类型的存储介质呢,这里需要配置的主动声明,HDFS可没有做自动检测识别的功能 异构存储原理 ---- 了解完了异构存储的多种存储介质之后,我们有必要了解一下HDFS的异构存储的实现原理.在这里会结合部分HDFS源码进行阐述.概况性的总结为3小点: DataNode通过心跳汇报自身数据存储目录的

    2.6K40发布于 2020-08-04
  • 来自专栏大数据-Hadoop、Spark

    显示HDFS存储信息

    显示文件数 hdfs dfs -count -q /spark2-history ? image.png 显示文件夹下文件总大小 -s -h hdfs dfs -du -s -h /spark2-history ? image.png 显示文件由那些块构成 hdfs fsck /spark2-history/application_1608084068201_452033_1 -files -blocks - ugi=hdfs&files=1&blocks=1&racks=1&path=%2Fspark2-history%2Fapplication_1608084068201_452033_1 FSCK started by hdfs (auth:KERBEROS_SSL) from /172.16.255.20 for path /spark2-history/application_1608084068201_452033

    1.6K10发布于 2020-12-31
  • 来自专栏PPV课数据科学社区

    【技术】HDFS存储原理

    根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。 二、写入数据 1、发送写数据请求 HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储2、文件切分 3、DN分配 4、数据写入 5、完成写入 6、角色定位 三、HDFS读文件 1、用户需求 HDFS采用的是“一次写入多次读取”的文件访问模型。 4、思考 四、HDFS容错机制——第一部分:故障类型及监测方法 1、三类故障 (1)第一类:节点失败 (2)第二类:网络故障 (3)第三类:数据损坏(脏数据) 2、故障监测机制 (1)节点失败监测机制 (2)通信故障监测机制 (3)数据错误监测机制 3、回顾:心跳信息与数据块报告 HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本),从上可以看出,HDFS认为机器故障是种常态

    1.9K50发布于 2018-04-25
  • 来自专栏大数据与微服务架构

    大数据存储HDFS详解

    二、序列化框架对比: 解析速度 时间由小到大:protobuf、thrift、Avro 序列化大小,由小到大:avro、protobuf、thrift 三、文件存储格式: 常见存储格式包括行式存储( 五、HDFS基本架构:NameNode、DataNode、Client HDFS关键技术:容错性设计、副本放置策略、异构存储介质(ARCHIVE:高存储密度但耗电较少的存储介质,DISK:磁盘介质,这是 HDFS默认存储介质,SSD:固态硬盘,RAM_DISK:数据被写入内存中,同时会往改存储介质中异步一份)、集中式缓存管理(HDFS允许用户将一部分目录或文件缓存在off-heap内存中) 六、HDFS 2HDFS API:HDFS对外提供了丰富的编程API,允许用户使用java以及其他编程语言编写应用程序访问HDFS。 LZO、Snappy等主流压缩编码) 4、计算引擎方式:SQL方式,Hive、Impala及Presto等查询引擎均允许用户直接使用SQL访问HDFS中的存储文件。

    2.2K20发布于 2020-04-11
  • 来自专栏最新最全的大数据技术体系

    HDFS存储类型和存储策略(五)概述

    文章目录 前言 历史文章 HDFS存储类型和存储策略 介绍 存储类型和存储策略 多种多样的存储类型 速率对比 存储类型 存储策略介绍 HDFS中的存储策略 存储策略方案 配置 后记 前言 目前博客Hadoop文章大都停留在Hadoop2.x阶段,本系列将依据黑马程序员大数据Hadoop3.x全套教程,对2.x没有的新特性进行补充更新,一键三连加关注,下次不迷路! 在冷区域中加入更多的节点可以使存储与集群中的计算容量无关 l 异构存储和归档存储提供的框架将HDFS体系结构概括为包括其他类型的存储介质,包括:SSD和内存。 HDFS中的存储策略 HDFS存储策略由以下字段组成: 策略ID(Policy ID) 策略名称(Policy Name) 块放置的存储类型列表(Block Placement) 用于创建文件的后备存储类型列表 SSD, DISK 7 Hot (default) DISK: n ARCHIVE 5 Warm DISK: 1, ARCHIVE: n-1 ARCHIVE, DISK ARCHIVE, DISK 2

    1.9K10编辑于 2021-12-06
  • 来自专栏不温卜火

    HDFS系列(2) | HDFS优缺点分析

    因为在上期的分享中,大家看到的更多是HDFS的底层原理,内部结构,并没有谈到其自身优势和劣势的一个比较!因此,本次博主为大家带来的就是对HDFS的优缺点进行分析。 一. HDFS的优点 1. 2. 某一个副本丢失以后,它可以自动恢复 ? 2. 适合处理大数据 1. 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据 2. HDFS的缺点 1. 不适合低延时数据访问 比如说毫秒级的存储数据,是做不到的。 2. 无法高效的对大量小文件进行存储 1. 存储大量小文件的话,它会占用NameNode大量的内存来存储文件 2. 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标 3. 不支持并发写入、文件随机修改 1. 2.

    1.5K20发布于 2020-10-28
  • 来自专栏智能大数据分析

    大数据存储技术(2)—— HDFS分布式文件系统

    (二)HDFS的优点 1、存储数据较大:运行在HDFS的应用程序有较大的数据处理要求,或存储从GB到TB级的超大文件。 2、无法高效地存储大量小文件:为了快速响应文件请求,元数据存储在主节点的内存中,文件系统所能存储的文件总数受限于NameNode的内存容量。小文件数量过大,容易造成内存不足,导致系统错误。 二、HDFS体系结构 (一)HDFS组成架构 HDFS存储策略是把大数据文件分块并存储在不同的计算机节点(Nodes),通过NameNode管理文件分块存储信息(即文件的元信息)。 HDFS中的文件在物理上是分块存储( Block ),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。 HDFS作为一个分布式文件系统,使用抽象的数据块具有以下优势: (1)通过集群扩展能力可以存储大于网络中任意一个磁盘容量的任意大小文件; (2)使用抽象块而非整个文件作为存储单元,可简化存储子系统,

    1.2K10编辑于 2025-01-22
  • 来自专栏开源部署

    Hadoop中HDFS存储机制

    HDFS中的基础概念 Block:HDFS中的存储单元是每个数据块block,HDFS默认的最基本的存储单位是64M的数据块。 和普通的文件系统相同的是,HDFS中的文件也是被分成64M一块的数据块存储的。不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。 2. HDFS中文件读写操作流程 在HDFS中,文件的读写过程就是client和NameNode以及DataNode一起交互的过程。 HDFS的优缺点分析 优点: 1)能够处理超大的文件; 2)流式访问数据。HDFS能够很好的处理“一次写入,多次读写”的任务。 2)无法高效存储大量小文件:因为Namenode把文件系统的元数据放置在内存中,所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定。

    1.6K20编辑于 2022-07-03
  • 来自专栏岑玉海

    nfs挂载hdfs,实现云存储

      本来不知道nfs是啥,因为群里的Harry童鞋有个问题,如何把本地目录挂载到hdfs上,搞什么云存储,说那么巧就是那么巧,HDP支持nfs,然后我就照着文档的说明去做,最后弄出来了。    1.修改机器上的hdfs-default.xml    vi /share/lib/hadoop/conf/hdfs-default.xml   如果没有hdfs-default就找hdfs-site.xml hdp的默认值是0 <property>   <name>dfs.access.time.precision</name>   <value>3600000</value> </property>   2. >1024</value> </property>   3.设置nf3的临时存储目录 <property> <name>dfs.nfs3.dump.dir</name> <value>/ udp 4242 mountd 100005 2 tcp 4242 mountd 100000 2 tcp 111 portmapper 100000 2 udp 111 portmapper 100005

    4K40发布于 2018-02-28
  • 来自专栏开源部署

    再理解HDFS存储机制

    再理解HDFS存储机制 前文:Hadoop中HDFS存储机制  http://www.linuxidc.com/Linux/2014-12/110512.htm 1. HDFS开创性地设计出一套文件存储方式,即对文件分割后分别存放; 2. HDFS将要存储的大文件进行分割,分割后存放在既定的存储块(Block)中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求; 3. Block是HDFS的基本存储单元,默认大小是64M; 8. HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到3个相互独立的硬件上,这样可以快速恢复损坏的数据; 9. 备份DataNode被升级为首选DataNode,并在其余2个DataNode中备份复制数据。NameNode对错误的DataNode进行标记以便后续对其进行处理。

    82720编辑于 2022-07-03
  • 来自专栏桥路_大数据

    HDFS】系统架构与存储机制

    系统架构与存储机制 HDFS系统架构 HDFS是主从架构(Master/Slave),当然这也是大数据产品最常见的架构。主节点为NameNode,从节点为DataNode。 其中DataNode用于存储数据,存储的数据会被拆分成Block块(默认按照128M进行切分),然后均匀的存放到各个DataNode节点中,为了保证数据安全性,这些Block块会进行多副本的存储,备份到不同的节点 而NameNode则负责管理整个集群,并且存储数据的元数据信息(记录数据被拆分为哪几块,分别存储到了哪个DataNode中)。 DataNode会通过心跳机制,与NameNode进行通信(默认3秒),汇报健康状况和存储的Block数据信息,如果NameNode超过一定时间没有收到DataNode发送的心跳信息,则认为DataNode HDFS Client是客户端,客户端通过与NameNode进行交互,从而实现文件的读写等操作。

    53310发布于 2021-09-10
  • 来自专栏EdisonTalk

    Hadoop学习笔记—2.不怕故障的海量存储HDFS基础入门

    2.Hadoop HDFS的LOGO   提到HDFS,不得不说Google的GFS。正是Google发表了关于GFS的论文,才有了HDFS这个关于GFS的开源实现。 因此,错误检测并快速恢复是HDFS最核心的设计目标)   (2)流式数据访问;(HDFS更关注数据访问的高吞吐量)   (3)大规模数据集;(HDFS的典型文件大小大多都在GB甚至TB级别)   (4) 但由于分布式存储的性质,HDFS拥有一个NameNode和一些DataNodes。NameNode管理文件系统的元数据,DataNode存储实际的数据。 (2)DataNode   毫无疑问,DataNode是HDFS中真正存储数据的。这里要提到一点,就是Block(数据块)。 2.3 保障HDFS的可靠性措施   HDFS具备了较为完善的冗余备份和故障恢复机制,可以实现在集群中可靠地存储海量文件。   

    80320发布于 2018-08-20
  • 项目经验之HDFS存储多目录

    1)生产环境服务器存在多磁盘情况 2)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。 HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改 <property> <name>dfs.datanode.data.dir</name> <value>file:///dfs/data1,file:///hd2/dfs/data2,file

    14910编辑于 2025-12-23
  • 来自专栏用户5909132的专栏

    使用 HDFS 协议访问对象存储服务

    (二)使用 HDFS 协议访问的优势是什么? 以往基于对象存储 COS 的大数据访问主要采用 Hadoop-COS 工具来访问。 如图所示: 当 Bucket 创建好之后,在存储桶页面,可以看到相关配置,并且可以在控制台进行文件上传下载操作,如Bucket: meta-accelarate-1253960454; 2、创建好之后 当您使用 HDFS 协议访问时,推荐通过配置 HDFS 权限授权指定 VPC 内机器访问 COS 存储桶,以便获取和原生 HDFS 一致的权限体验。 ,明确文件和目录是否一致,例如: 通过 HDFS 协议访问 COS  大数据场景下,您可以参考如下步骤以 HDFS 协议访问开启元数据加速能力的存储桶: 1、在 core-stie.xml 中配置 HDFS 协议相关挂载点信息,如准备工作中所示; 2、Hive,MR,Spark 等组件访问存储桶,参考文章 CDH 访问大数据来进行大数据访问(https://cloud.tencent.com/document

    2K10编辑于 2022-05-07
  • 来自专栏腾讯云存储

    使用 HDFS 协议访问对象存储服务

    腾讯云对象存储服务 COS 通过元数据加速功能,为上层计算业务提供了等效于 HDFS 协议的操作接口和操作性能。 (一)什么是元数据加速器? 2、创建好之后,点击左侧性能配置页面,点击元数据加速按钮,可以看到元数据加速能力已开启。 如果是第一次创建元数据加速存储桶,则需要按照提示进行相应的授权操作,点击授权完成后,将自动开启 HDFS 协议,并且看到默认的 Bucket 挂载点信息,如下图所示: 说明:如果提示未找到对应的 HDFS 当您使用 HDFS 协议访问时,推荐通过配置 HDFS 权限授权指定 VPC 内机器访问 COS 存储桶,以便获取和原生 HDFS 一致的权限体验。 COS  大数据场景下,您可以参考如下步骤以 HDFS 协议访问开启元数据加速能力的存储桶: 1、在 core-stie.xml 中配置 HDFS 协议相关挂载点信息,如准备工作中所示; 2、Hive

    3.5K81编辑于 2022-05-06
  • 来自专栏大数据&分布式

    SSM(HDFS智能存储管理) 系统剖析

    背景介绍 Smart Storage Management (SSM) 项目是Intel开源的HDFS存储管理系统,致力于提供HDFS数据的智能管理方案。 根据用户定制的SSM规则,SSM区分出冷热数据,将冷热数据分别迁移到合适的存储介质上,合理利用不同的存储设备 SSM小文件优化,能将HDFS小文件合并成一个大文件,在合并后,仍然支持对小文件透明的读操作 SSM Data Sync,能够将一个HDFS集群中的数据自动同步到另一个集群上 SSM EC (Erasure Coding),可将HDFS数据转化成某个EC策略下的数据,能够显著减少占用的存储空间 ; syncCmdAction:同步执行的cmd信息,在内存中存储; (2). 总结 HDFS存储管理系统,对于公司内部的数据平台影响价值可能较小,相比于繁杂的系统搭建维护成本,可以选择更直接的人工运维操作来管理存储系统。

    81522编辑于 2024-05-05
  • 来自专栏无题~

    解决HDFS上小文件的存储

    1.从源头上解决,在上传到HDFS之前,就将多个小文件归档 使用tar命令 带上参数-zcvf 示例: tar -zcvf xxx.tar.gz 小文件列表 2.如果小文件已经上传到HDFS了, hadoop archive命令 示例: hadoop archive -archiveName xxx.har -p /文件目录 小文件列表 /存放目录 在线归档的功能实际是一个MR程序,这个程序将HDFS

    1.2K20发布于 2020-07-14
  • 来自专栏Michael阿明学习之路

    HDFS依然是存储的王者

    HDFS 架构 DataNode 负责数据的存储、读写,HDFS 将文件分割成若干数据块(Block),每个 DataNode 存储一部分数据块,文件就分布存储在整个 HDFS 服务器集群中 NameNode 负责分布式文件系统的元数据(MetaData) 管理,也就是文件路径名、数据块的 ID 以及存储位置等信息,相当于操作系统中文件分配表(FAT)的角色 2. HDFS 的高可用设计 数据存储故障容错 对 DataNode 上的数据块,计算并存储校验和(CheckSum)。 读取时,重新计算读出数据的校验和,如果校验抛出异常,程序捕获异常后就到其他 DataNode 上读取备份数据 磁盘故障容错 DataNode 监测到本机某块磁盘损坏,将该块磁盘上存储的所有 BlockID 的核心,记录着 HDFS 文件分配表信息, NameNode 故障,整个 HDFS 系统集群都无法使用 常用的保证系统可用性的策略: 冗余备份:数据备份,请求分发发哦任何一个数据中心

    35130发布于 2021-09-06
  • 来自专栏陈猿解码

    HDFS——DN的存储数据结构

    文本就来介绍dn存储实现的相关内容。 【数据结构】 在讲解内部实现前,我们再回顾下dn持久化文件几个重要的点: dn可以配置多个目录进行数据块的存储 每个这样的目录中,都会有一个或多个BP目录(BlockPool,后面均简称为BP) 每个

    94330编辑于 2023-02-28
领券