首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小道

    配置Hadoop支持LZO

    下载、安装并编译LZO   1 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz   2 tar -zxvf lzo -2.10.tar.gz   3 cd lzo-2.10   4 . 编译hadoop-lzo源码 2.1 下载hadoop-lzo的源码   下载地址:https://github.com/twitter/hadoop-lzo/archive/master.zip    export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 2.4 编译   进入hadoop-lzo-master,执行maven编译命令 mvn package -Dmaven.test.skip=true 2.5 进入target hadoop-lzo

    1.1K31发布于 2021-04-13
  • 来自专栏个人分享

    Hadoop使用lzo压缩格式

    在hadoop中搭建lzo环境: wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz   export CFLAGS /configure -enable-shared -prefix=/usr/local/hadoop/lzo/   make && make test && make install   在hadoop-env.sh ,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>   </property>   <property>      <name>io.compression.codec.lzo.class</name>      <value>com.hadoop.compression.lzo.LzoCodec property>   <property>       <name>mapred.child.env</name>       <value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo

    76620发布于 2018-09-06
  • 来自专栏开源部署

    Hadoop lzo的使用方法

    前面的文章介绍了Hadoop lzo的安装和配置(见 http://www.linuxidc.com/Linux/2014-05/101090.htm ),本文接着介绍lzo压缩在hadoop应用程序中的使用方法 1 给lzo文件建立索引 lzo文件需要建立索引才能支持分块(split)。 如果没有索引,lzo文件也是可以处理的,mapreduce会根据后缀名“.lzo”来对lzo文件解压,并且inputformat也不需要特别指定,但是不支持分块,整个lzo文件只用一个map来处理。 hadoop-lzo包本身提供了建立lzo索引的类,可以在本地运行程序建立索引,也可以运行mapreduce程序建立索引。 SNAPSHOT.jar \ com.hadoop.compression.lzo.LzoIndexer \ /hdfs/path/to/file.lzo 运行mapreduce程序建立索引 $HADOOP_HOMOE

    1.2K10编辑于 2022-07-01
  • 来自专栏开源部署

    hadoop-lzo-0.4.20安装

    一、安装lzop: yum -y install lzop 二、安装lzo 1、wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06 .tar.gz 2、tar -zxvf lzo-2.06.tar.gz 3、mv lzo-2.06 lzo && cd lzo 4、export CFLAGS=-m64 5、. 文件,内容: /usr/local/lib 8、让lzo.conf生效:/sbin/ldconfig -v 三、安装Hadoop-LZO 1、下载源码:https://github.com/twitter /hadoop-lzo 2、解压后是hadoop-lzo-master,进入hadoop-lzo-master目录 3、export CFLAGS=-m64 4、export CXXFLAGS=-m64 ,需要进入hadoop-lzo-master/hadoop-lzo-master目录下编译,或者去掉一层hadoop-lzo-master目录】 8、在当前目录下生成了target,下面有个native

    1.1K10编辑于 2022-06-30
  • 来自专栏大数据成神之路

    Hadoop支持Lzo压缩配置及案例

    hadoop支持Lzo压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。 hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 增加配置支持LZO压缩 <? 文件的索引,lzo压缩文件的可切片特性依赖于其索引,故我们需要手动为lzo压缩文件创建索引。 此时的lzo文件如果去执行mr任务时任然只会产生一个切片,lzo压缩文件的可切片特性依赖于其索引,故我们需要手动为lzo压缩文件创建索引。

    2.2K10发布于 2020-09-08
  • 来自专栏Hadoop实操

    如何在CDH中使用LZO压缩

    1.问题描述 CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码。 通过Yarn的8088可以发现是因为找不到Lzo压缩编码: Compression codec com.hadoop.compression.lzo.LzoCodec was not found. ? 配置HDFS的压缩编码加入Lzo: com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec ? ? 再次插入数据到test_table2,设置为Lzo编码格式: set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec 2.1 Hive验证 首先确认test_table2中的文件为Lzo格式: ? 在Hive的beeline中进行测试: ? ? Hive基于Lzo压缩文件运行正常。

    2.7K80发布于 2018-03-29
  • 来自专栏张善友的专栏

    数据压缩算法LZO (C#)

    LZO 是致力于解压速度的一种数据压缩算法,LZO 是 Lempel-Ziv-Oberhumer 的缩写。这个算法是无损算法,参考实现程序是线程安全的。 实现它的一个自由软件工具是lzop。 现在 LZO 有用于 Perl、Python 以及 Java 的各种版本。代码版权的所有者是 Markus F. X. J. Oberhumer。 LZO 支持重复压缩以及原地解压。 LZO 是块压缩算法——压缩解压成块的数据。压缩与解压所用块的大小必须一样。 LZO 将数据块压缩成匹配数据(滑动字典)与非匹配文字的序列。 当处理不可压缩数据的时候,LZO 将每个 1024 字节的输入数据块扩展 16 字节。 参考文献: http://zh.wikipedia.org/wiki/LZO 源码地址: C: http://www.oberhumer.com/opensource/lzo/ c#:http://lzohelper.codeplex.com

    2.6K90发布于 2018-01-22
  • 来自专栏大数据分享

    (三)HDFS配置多目录与支持LZO压缩

    LZO压缩配置--切片(另一种常用的是snappy压缩--快) 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。 hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 /hadoop/common ls hadoop-lzo-0.4.20.jar 3)同步hadoop-lzo-0.4.20.jar到hadoop003、hadoop004 xsync hadoop-lzo , com.hadoop.compression.lzo.LzopCodec </value> </property> <property> <name>io.compression.codec.lzo.class /input/bigtable.lzo 建立lzo索引文件.jpg 3.再次执行wordcount: hadoop jar /opt/module/hadoop-2.7.2/share/hadoop

    1.1K40发布于 2020-09-21
  • 来自专栏开源部署

    Hadoop2.0 lzo压缩的安装和配置

    lzo压缩格式有很快的压缩/解压速度和合理的压缩率,并且支持分块(split),所以lzo是目前在Hadoop中最流行的压缩格式。hadoop中的lzo不是自带的,如果要支持lzo,需要另外安装。 本文介绍了在hadoop2.0上安装和配置lzo,同样也适用于hadoop1.0。 1 安装linux的lzo库 需要在集群的每一个节点都安装lzo库,假定都64位的机器。 下载rpm包lzo2-2.02-3.el5.rf.x86_64.rpm 并安装 sudo rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm 在http://rpm.pbone.net 压缩命令行工具,方便大家在linux下压缩lzo文件,不是必需的。 2 安装hadoop-lzo包 可以下载kevinweil的hadoop-lzo项目,下载地址:https://github.com/kevinweil/hadoop-lzo 也可以下载twitter的

    1K20编辑于 2022-06-30
  • 来自专栏WHYBIGDATA公众号同步文章

    关于Presto对lzo压缩的表查询使用记录

    关于Presto对lzo压缩的表查询使用记录 0.写在前面 1.正文 0.提前说明 1.查询ads层表 2.查询dwd|dws|dwt层表 3.查询ods层表 ---- ---- 0.写在前面 实验背景 :离线数仓项目 Presto版本:0.196 Hive版本:3.1.2 Hadoop版本:3.1.3 1.正文 0.提前说明 纯lzo压缩:ods层 parquet列式存储加lzo压缩:dwd,dws, ❞ 2.查询dwd|dws|dwt层表 ❝「Presto不支持parquet列式存储加lzo压缩的表的查询」 ❞ Presto-Client查询语句: select * from dwd_start_log -3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar ./ 分发lzo的jar包 [root@node01 hive-hadoop2]$ my_rsync * from ods_log; 美团技术团队文章关于「Presto二次开发和BUG修复」提到:Presto不支持查询lzo压缩的数据,需要修改hadoop-lzo的代码 ❝https://tech.meituan.com

    1.6K30编辑于 2023-01-31
  • 来自专栏我是攻城师

    Hadoop2.7.1和Hbase0.98添加LZO压缩

    1,执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2, 下载lzo的源码包并解压 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz tar -zxvf lzo-2.09.tar.gz 3,在当前目录新建一个 lzo目录,存储编译后的lzo文件 进入lzo-2.09目录 依次执行命令: export CFLAGS=-64m . /configure --enable-shared --prefix=/home/search/lzo make && make install 4,下载twitter的hadoop-lzo源码进行编译 /lib/* 到hadoop/lib/native/ 和 hbase/lib/ 下面 拷贝lzo的jar包cp -a hadoop-lzo/target/hadoop-lzo-0.4.20-SNAPSHOT.jar

    1.5K70发布于 2018-05-14
  • 来自专栏无题~

    Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo

    解决 原因: 因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。 所以当使用提交spark-submit任务时,需要访问HDFS上的文件,而spark自身没有lzo的jar包所以无法找到。 方法一: 软链接到spark下的jars目录,注意自己的hadoop-lzo-0.4.20.jar的目录! /hadoop-lzo-0.4.20.jar 方法二: 配置spark-default.conf文件,注意自己的hadoop-lzo-0.4.20.jar的目录! 在最下面添加一行 spark.jars=/opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar

    85610发布于 2021-06-11
  • 来自专栏编程小白狼

    如何正确选择Hadoop数据压缩格式:Gzip vs LZO vs Snappy

    Hadoop生态中主流压缩格式Gzip、LZO和Snappy各有特点,正确选择能显著提升集群性能。本文将深入分析其特性并提供选型指南。 一、为什么压缩在Hadoop中至关重要? Shuffle和磁盘I/O时间 提升处理效率:MapReduce/Spark任务读取更少数据量 兼容性保障:支持多种文件格式(ORC/Parquet/Text等) 二、核心压缩格式特性对比 特性 Gzip LZO LZO:平衡型选择 核心优势:支持分片(需.index索引) 使用注意: 需先安装hadoop-lzo包 生成LZO文件后必须构建索引: hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer bigfile.lzo 适用场景: 需要分片处理的文本数据(如JSON/CSV) 中等级别压缩率需求 3. B -->|No| D[选择Gzip] C -->|极速处理| E[Snappy] C -->|平衡选择| F[LZO] D --> G[冷数据/归档场景] E -->

    44500编辑于 2025-08-17
  • 来自专栏开源部署

    Hadoop安装lzo-出现Could not load native gpl library问题解决

    此篇是接着Hadoop安装lzo的续篇 http://www.linuxidc.com/Linux/2014-03/98602.htm ,主要讲一下安装过程中出现的问题及解决方案。 Could not load native gpl library 异常堆栈: 12/11/07 10:15:02 ERROR lzo.GPLNativeCodeLoader: Could not load Runtime.java:823)      at java.lang.System.loadLibrary(System.java:1028)      at com.Hadoop.compression.lzo.GPLNativeCodeLoader <clinit>(GPLNativeCodeLoader.java:32)      at com.Hadoop.compression.lzo.LzoCodec. LocalJobRunner.java:210)  如果是按照上一篇(http://www.linuxidc.com/Linux/2014-03/98602.htm)来做的,出现以上异常的原因大多是以下两种情况: 1.没有拷贝lzo

    1.1K20编辑于 2022-06-30
  • 来自专栏无题~

    Hive读取索引文件问题:select * 和select count(*)读取出来的行数不一致

    ,然后执行了为lzo文件创建索引的命令 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer 所以在HDFS上的hive里存着lzo格式数据和lzo.index索引文件,这便于对文件进行切片。 但是select * from ods_log不执行MR操作,默认采用的是ods_log建表语句中指定的DeprecatedLzoTextInputFormat,能够识别lzo.index为索引文件。 select count(*) from ods_log执行MR操作,默认采用的是CombineHiveInputFormat,不能识别lzo.index为索引文件,将索引文件当做普通文件处理。 更严重的是,这会导致LZO文件无法切片。

    1.3K10发布于 2021-02-22
  • Snappy、LZO、GZIP深度对比

    LZO编解码器:平衡型选择的优缺点 LZO的压缩机制与核心特性 LZO(Lempel-Ziv-Oberhumer)是一种基于LZ77算法的无损数据压缩库,其设计哲学是在压缩速度与压缩比之间寻求最佳平衡。 这种分层处理使得LZO在压缩中等规模数据集时表现尤为突出。 在Hadoop生态中,LZO的实现通常通过hadoop-lzo库集成,支持切片(splittable)压缩特性。 性能对比:LZO vs Snappy vs GZIP 从压缩速度维度看,LZO介于Snappy和GZIP之间。 2025年最新的实测数据显示,在相同硬件环境下,Snappy的压缩速度可达LZO的1.6-2.1倍,而GZIP的压缩速度仅为LZO的25%-35%。 具体配置时,可通过以下方式指定LZO压缩: -- 安装hadoop-lzo库后,在Hive中配置LZO压缩 SET mapreduce.output.fileoutputformat.compress.codec

    25910编辑于 2025-11-29
  • 来自专栏戚银技术成长之路

    【Go】使用压缩文件优化io (一)

    ", file+".lzo") if err ! 压缩时日志会先压缩成 lzo 文件,然后再上传 lzo 文件到阿里云 OSS 上,这中间发生了几个过程: 读取原始日志文件 压缩数据 写入 lzo 文件 读取 lzo 文件 http 发送读取的内容 压缩时 lzo 文件吗? 优化方案确定了,可是怎么实现 lzo 对文件流进行压缩呢,去 Github 上找一下看看有没有 lzo 的压缩算法库,发现 github.com/cyberdelia/lzo ,虽然是引用 C 库实现的 ,但是经典的两个算法(lzo1x_1 和 lzo1x_999)都提供了接口,貌似 Go 可以直接用了也就这一个库了。

    1.4K50发布于 2019-11-04
  • 来自专栏桥路_大数据

    Hive常见的压缩格式

    压缩格式 Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。 其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4,在不同的测试场景中,会有差异,这仅仅是一个大概的排名情况。 从压缩性能上来看:lz4 > lzo > snappy > deflate > gzip > bzip2,其中lz4、lzo、snappy压缩和解压缩速度快,压缩比低。 所以一般在生产环境中,经常会采用lz4、lzo、snappy压缩,以保证运算效率。 Native Libraries除了自带bzip2, lz4, snappy, zlib压缩方法外,还可以自定义安装需要的功能库(snappy、lzo等)进行扩展。

    4K10发布于 2021-01-06
  • 来自专栏pydata

    install hdf5 on ubuntu

    /lib $export HDF5_DIR=$HOME/hdf5-1.8.9-linux-x86_64-shared $source .bashrc 安装 blosc (可选) 安装 lzo2 -2 lzo2-dev sudo apt-get install lzo2-2 lzo2-dev 至此HDF5可用

    2.8K10发布于 2018-08-02
  • 来自专栏SmartSi

    Hadoop 如何使用压缩

    mapreduce.map.output.compress.codec", GzipCodec.class, CompressionCodec.class); Job job = Job.getInstance(conf); 1.2 LZO FileOutputFormat.setCompressOutput(conf, true); FileOutputFormat.setOutputCompressorClass(conf, LzoCodec.class); 为了使LZO 可分割,我们需要生成一个LZO索引文件。 2.3 不同压缩格式的比较:gzip,lzo ? 正如我们所看到的,LZO 文件略大于对应的 gzip 文件,但都比原来未压缩文件小得多。另外,LZO 文件压缩速度快了近五倍,解压速度快了两倍。 我们还可以看到 Snappy 文件比相应的 LZO 文件大,但仍然是原来未压缩文件的一半。另外,Snappy 的压缩和解压缩速度都比 LZO 更快。

    2.5K20发布于 2019-08-06
领券