搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏小道
配置Hadoop支持LZO
下载、安装并编译LZO 1 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz 2 tar -zxvf lzo -2.10.tar.gz 3 cd lzo-2.10 4 . 编译hadoop-lzo源码 2.1 下载hadoop-lzo的源码下载地址：https://github.com/twitter/hadoop-lzo/archive/master.zip export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 2.4 编译进入hadoop-lzo-master，执行maven编译命令 mvn package -Dmaven.test.skip=true 2.5 进入target hadoop-lzo
1.2K31发布于 2021-04-13
来自专栏个人分享
Hadoop使用lzo压缩格式
在hadoop中搭建lzo环境: wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz export CFLAGS /configure -enable-shared -prefix=/usr/local/hadoop/lzo/ make && make test && make install 在hadoop-env.sh ,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value> </property> <property> <name>io.compression.codec.lzo.class</name> <value>com.hadoop.compression.lzo.LzoCodec property> <property> <name>mapred.child.env</name> <value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo
77920发布于 2018-09-06
来自专栏开源部署
Hadoop lzo的使用方法
前面的文章介绍了Hadoop lzo的安装和配置（见 http://www.linuxidc.com/Linux/2014-05/101090.htm ），本文接着介绍lzo压缩在hadoop应用程序中的使用方法 1 给lzo文件建立索引 lzo文件需要建立索引才能支持分块(split)。如果没有索引，lzo文件也是可以处理的，mapreduce会根据后缀名“.lzo”来对lzo文件解压，并且inputformat也不需要特别指定，但是不支持分块，整个lzo文件只用一个map来处理。 hadoop-lzo包本身提供了建立lzo索引的类，可以在本地运行程序建立索引，也可以运行mapreduce程序建立索引。 SNAPSHOT.jar \ com.hadoop.compression.lzo.LzoIndexer \ /hdfs/path/to/file.lzo 运行mapreduce程序建立索引 $HADOOP_HOMOE
1.2K10编辑于 2022-07-01
来自专栏开源部署
hadoop-lzo-0.4.20安装
一、安装lzop: yum -y install lzop 二、安装lzo 1、wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06 .tar.gz 2、tar -zxvf lzo-2.06.tar.gz 3、mv lzo-2.06 lzo && cd lzo 4、export CFLAGS=-m64 5、. 文件,内容： /usr/local/lib 8、让lzo.conf生效:/sbin/ldconfig -v 三、安装Hadoop-LZO 1、下载源码:https://github.com/twitter /hadoop-lzo 2、解压后是hadoop-lzo-master，进入hadoop-lzo-master目录 3、export CFLAGS=-m64 4、export CXXFLAGS=-m64 ，需要进入hadoop-lzo-master/hadoop-lzo-master目录下编译，或者去掉一层hadoop-lzo-master目录】 8、在当前目录下生成了target，下面有个native
1.2K10编辑于 2022-06-30
来自专栏大数据成神之路
Hadoop支持Lzo压缩配置及案例
hadoop支持Lzo压缩配置 1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。 hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。增加配置支持LZO压缩 <? 文件的索引，lzo压缩文件的可切片特性依赖于其索引，故我们需要手动为lzo压缩文件创建索引。此时的lzo文件如果去执行mr任务时任然只会产生一个切片，lzo压缩文件的可切片特性依赖于其索引，故我们需要手动为lzo压缩文件创建索引。
2.2K10发布于 2020-09-08
来自专栏Hadoop实操
如何在CDH中使用LZO压缩
1.问题描述 CDH中默认不支持Lzo压缩编码，需要下载额外的Parcel包，才能让Hadoop相关组件如HDFS，Hive，Spark支持Lzo编码。通过Yarn的8088可以发现是因为找不到Lzo压缩编码： Compression codec com.hadoop.compression.lzo.LzoCodec was not found. ? 配置HDFS的压缩编码加入Lzo： com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec ? ? 再次插入数据到test_table2，设置为Lzo编码格式： set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec 2.1 Hive验证首先确认test_table2中的文件为Lzo格式： ? 在Hive的beeline中进行测试： ? ? Hive基于Lzo压缩文件运行正常。
2.7K80发布于 2018-03-29
来自专栏张善友的专栏
数据压缩算法LZO (C#)
LZO 是致力于解压速度的一种数据压缩算法，LZO 是 Lempel-Ziv-Oberhumer 的缩写。这个算法是无损算法，参考实现程序是线程安全的。实现它的一个自由软件工具是lzop。现在 LZO 有用于 Perl、Python 以及 Java 的各种版本。代码版权的所有者是 Markus F. X. J. Oberhumer。 LZO 支持重复压缩以及原地解压。 LZO 是块压缩算法——压缩解压成块的数据。压缩与解压所用块的大小必须一样。 LZO 将数据块压缩成匹配数据（滑动字典）与非匹配文字的序列。当处理不可压缩数据的时候，LZO 将每个 1024 字节的输入数据块扩展 16 字节。参考文献： http://zh.wikipedia.org/wiki/LZO 源码地址： C: http://www.oberhumer.com/opensource/lzo/ c#:http://lzohelper.codeplex.com
2.6K90发布于 2018-01-22
来自专栏大数据分享
（三）HDFS配置多目录与支持LZO压缩
LZO压缩配置--切片（另一种常用的是snappy压缩--快） 1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。 hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 /hadoop/common ls hadoop-lzo-0.4.20.jar 3）同步hadoop-lzo-0.4.20.jar到hadoop003、hadoop004 xsync hadoop-lzo , com.hadoop.compression.lzo.LzopCodec </value> </property> <property> <name>io.compression.codec.lzo.class /input/bigtable.lzo 建立lzo索引文件.jpg 3.再次执行wordcount： hadoop jar /opt/module/hadoop-2.7.2/share/hadoop
1.1K40发布于 2020-09-21
来自专栏开源部署
Hadoop2.0 lzo压缩的安装和配置
lzo压缩格式有很快的压缩/解压速度和合理的压缩率，并且支持分块(split)，所以lzo是目前在Hadoop中最流行的压缩格式。hadoop中的lzo不是自带的，如果要支持lzo，需要另外安装。本文介绍了在hadoop2.0上安装和配置lzo，同样也适用于hadoop1.0。 1 安装linux的lzo库需要在集群的每一个节点都安装lzo库，假定都64位的机器。下载rpm包lzo2-2.02-3.el5.rf.x86_64.rpm 并安装 sudo rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm 在http://rpm.pbone.net 压缩命令行工具，方便大家在linux下压缩lzo文件，不是必需的。 2 安装hadoop-lzo包可以下载kevinweil的hadoop-lzo项目，下载地址：https://github.com/kevinweil/hadoop-lzo 也可以下载twitter的
1K20编辑于 2022-06-30
来自专栏我是攻城师
Hadoop2.7.1和Hbase0.98添加LZO压缩
1，执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2，下载lzo的源码包并解压 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz tar -zxvf lzo-2.09.tar.gz 3，在当前目录新建一个 lzo目录，存储编译后的lzo文件进入lzo-2.09目录依次执行命令： export CFLAGS=-64m . /configure --enable-shared --prefix=/home/search/lzo make && make install 4，下载twitter的hadoop-lzo源码进行编译 /lib/* 到hadoop/lib/native/ 和 hbase/lib/ 下面拷贝lzo的jar包cp -a hadoop-lzo/target/hadoop-lzo-0.4.20-SNAPSHOT.jar
1.5K70发布于 2018-05-14
来自专栏WHYBIGDATA公众号同步文章
关于Presto对lzo压缩的表查询使用记录
关于Presto对lzo压缩的表查询使用记录 0.写在前面 1.正文 0.提前说明 1.查询ads层表 2.查询dwd|dws|dwt层表 3.查询ods层表 ---- ---- 0.写在前面实验背景：离线数仓项目 Presto版本：0.196 Hive版本：3.1.2 Hadoop版本：3.1.3 1.正文 0.提前说明纯lzo压缩：ods层 parquet列式存储加lzo压缩：dwd,dws, ❞ 2.查询dwd|dws|dwt层表 ❝「Presto不支持parquet列式存储加lzo压缩的表的查询」 ❞ Presto-Client查询语句： select * from dwd_start_log -3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar ./ 分发lzo的jar包 [root@node01 hive-hadoop2]$ my_rsync * from ods_log; 美团技术团队文章关于「Presto二次开发和BUG修复」提到：Presto不支持查询lzo压缩的数据，需要修改hadoop-lzo的代码 ❝https://tech.meituan.com
1.6K30编辑于 2023-01-31
来自专栏无题~
Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo
解决原因：因为在之前的项目中，在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩，这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-submit任务时，需要访问HDFS上的文件，而spark自身没有lzo的jar包所以无法找到。方法一：软链接到spark下的jars目录，注意自己的hadoop-lzo-0.4.20.jar的目录！ /hadoop-lzo-0.4.20.jar 方法二：配置spark-default.conf文件，注意自己的hadoop-lzo-0.4.20.jar的目录！在最下面添加一行 spark.jars=/opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar
88410发布于 2021-06-11
来自专栏编程小白狼
如何正确选择Hadoop数据压缩格式：Gzip vs LZO vs Snappy
Hadoop生态中主流压缩格式Gzip、LZO和Snappy各有特点，正确选择能显著提升集群性能。本文将深入分析其特性并提供选型指南。一、为什么压缩在Hadoop中至关重要？ Shuffle和磁盘I/O时间提升处理效率：MapReduce/Spark任务读取更少数据量兼容性保障：支持多种文件格式（ORC/Parquet/Text等）二、核心压缩格式特性对比特性 Gzip LZO LZO：平衡型选择核心优势：支持分片（需.index索引）使用注意：需先安装hadoop-lzo包生成LZO文件后必须构建索引： hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer bigfile.lzo 适用场景：需要分片处理的文本数据（如JSON/CSV）中等级别压缩率需求 3. B -->|No| D[选择Gzip] C -->|极速处理| E[Snappy] C -->|平衡选择| F[LZO] D --> G[冷数据/归档场景] E -->
51100编辑于 2025-08-17
来自专栏开源部署
Hadoop安装lzo-出现Could not load native gpl library问题解决
此篇是接着Hadoop安装lzo的续篇 http://www.linuxidc.com/Linux/2014-03/98602.htm ，主要讲一下安装过程中出现的问题及解决方案。 Could not load native gpl library 异常堆栈： 12/11/07 10:15:02 ERROR lzo.GPLNativeCodeLoader: Could not load Runtime.java:823) at java.lang.System.loadLibrary(System.java:1028) at com.Hadoop.compression.lzo.GPLNativeCodeLoader <clinit>(GPLNativeCodeLoader.java:32) at com.Hadoop.compression.lzo.LzoCodec. LocalJobRunner.java:210) 如果是按照上一篇（http://www.linuxidc.com/Linux/2014-03/98602.htm）来做的，出现以上异常的原因大多是以下两种情况： 1.没有拷贝lzo
1.2K20编辑于 2022-06-30
来自专栏无题~
Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致
，然后执行了为lzo文件创建索引的命令 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer 所以在HDFS上的hive里存着lzo格式数据和lzo.index索引文件，这便于对文件进行切片。但是select * from ods_log不执行MR操作，默认采用的是ods_log建表语句中指定的DeprecatedLzoTextInputFormat，能够识别lzo.index为索引文件。 select count(*) from ods_log执行MR操作，默认采用的是CombineHiveInputFormat，不能识别lzo.index为索引文件，将索引文件当做普通文件处理。更严重的是，这会导致LZO文件无法切片。
1.3K10发布于 2021-02-22
Snappy、LZO、GZIP深度对比
LZO编解码器：平衡型选择的优缺点 LZO的压缩机制与核心特性 LZO（Lempel-Ziv-Oberhumer）是一种基于LZ77算法的无损数据压缩库，其设计哲学是在压缩速度与压缩比之间寻求最佳平衡。这种分层处理使得LZO在压缩中等规模数据集时表现尤为突出。在Hadoop生态中，LZO的实现通常通过hadoop-lzo库集成，支持切片（splittable）压缩特性。性能对比：LZO vs Snappy vs GZIP 从压缩速度维度看，LZO介于Snappy和GZIP之间。 2025年最新的实测数据显示，在相同硬件环境下，Snappy的压缩速度可达LZO的1.6-2.1倍，而GZIP的压缩速度仅为LZO的25%-35%。具体配置时，可通过以下方式指定LZO压缩： -- 安装hadoop-lzo库后，在Hive中配置LZO压缩 SET mapreduce.output.fileoutputformat.compress.codec
33710编辑于 2025-11-29
来自专栏戚银技术成长之路
【Go】使用压缩文件优化io (一)
", file+".lzo") if err ! 压缩时日志会先压缩成 lzo 文件，然后再上传 lzo 文件到阿里云 OSS 上，这中间发生了几个过程：读取原始日志文件压缩数据写入 lzo 文件读取 lzo 文件 http 发送读取的内容压缩时 lzo 文件吗？优化方案确定了，可是怎么实现 lzo 对文件流进行压缩呢，去 Github 上找一下看看有没有 lzo 的压缩算法库，发现 github.com/cyberdelia/lzo ，虽然是引用 C 库实现的，但是经典的两个算法（lzo1x_1 和 lzo1x_999）都提供了接口，貌似 Go 可以直接用了也就这一个库了。
1.4K50发布于 2019-11-04
来自专栏桥路_大数据
Hive常见的压缩格式
压缩格式 Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4，在不同的测试场景中，会有差异，这仅仅是一个大概的排名情况。从压缩性能上来看：lz4 > lzo > snappy > deflate > gzip > bzip2，其中lz4、lzo、snappy压缩和解压缩速度快，压缩比低。所以一般在生产环境中，经常会采用lz4、lzo、snappy压缩，以保证运算效率。 Native Libraries除了自带bzip2, lz4, snappy, zlib压缩方法外，还可以自定义安装需要的功能库（snappy、lzo等）进行扩展。
4K10发布于 2021-01-06
来自专栏pydata
install hdf5 on ubuntu
/lib $export HDF5_DIR=$HOME/hdf5-1.8.9-linux-x86_64-shared $source .bashrc 安装 blosc (可选) 安装 lzo2 -2 lzo2-dev sudo apt-get install lzo2-2 lzo2-dev 至此HDF5可用
2.8K10发布于 2018-08-02
来自专栏SmartSi
Hadoop 如何使用压缩
mapreduce.map.output.compress.codec", GzipCodec.class, CompressionCodec.class); Job job = Job.getInstance(conf); 1.2 LZO FileOutputFormat.setCompressOutput(conf, true); FileOutputFormat.setOutputCompressorClass(conf, LzoCodec.class); 为了使LZO 可分割，我们需要生成一个LZO索引文件。 2.3 不同压缩格式的比较：gzip，lzo ? 正如我们所看到的，LZO 文件略大于对应的 gzip 文件，但都比原来未压缩文件小得多。另外，LZO 文件压缩速度快了近五倍，解压速度快了两倍。我们还可以看到 Snappy 文件比相应的 LZO 文件大，但仍然是原来未压缩文件的一半。另外，Snappy 的压缩和解压缩速度都比 LZO 更快。
2.6K20发布于 2019-08-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

配置Hadoop支持LZO

Hadoop使用lzo压缩格式

Hadoop lzo的使用方法

hadoop-lzo-0.4.20安装

Hadoop支持Lzo压缩配置及案例

如何在CDH中使用LZO压缩

数据压缩算法LZO (C#)

（三）HDFS配置多目录与支持LZO压缩

Hadoop2.0 lzo压缩的安装和配置

Hadoop2.7.1和Hbase0.98添加LZO压缩

关于Presto对lzo压缩的表查询使用记录

Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo

如何正确选择Hadoop数据压缩格式：Gzip vs LZO vs Snappy

Hadoop安装lzo-出现Could not load native gpl library问题解决

Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致

Snappy、LZO、GZIP深度对比

【Go】使用压缩文件优化io (一)

Hive常见的压缩格式

install hdf5 on ubuntu

Hadoop 如何使用压缩

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐