文章/答案/技术大牛

发布

社区首页 >问答首页 >IEEE-754数据压缩算法

问IEEE-754数据压缩算法
EN

Stack Overflow用户

提问于 2010-02-10 17:05:44

回答 7查看 5.5K关注 0票数 22

有人推荐一种适合双精度浮点值的好压缩算法吗？我们发现，对于常用的压缩程序(如Zip、RAR、7-Zip等)，浮点值的二进制表示导致压缩率很低。

我们需要压缩的数据是一个8字节值的一维数组，按单调递增的顺序排序。这个数值代表开尔文的温度，跨度通常在100度以下。值的数目从几百到最多64K不等。

Clarifications

数组中的所有值都是不同的，尽管由于浮点值的表示方式，在字节级别确实存在重复。
由于这是科学数据，因此需要一种无损算法。如果存储效率有显著提高，可以接受转换为具有足够精度(~5小数)的不动点表示。

更新

找到了一篇关于这个主题的有趣文章。不确定这种方法是否适用于我的需求。

https://userweb.cs.txstate.edu/~burtscher/papers/dcc06.pdf

ieee-754

floating-point

compression

回答 7

Stack Overflow用户

发布于 2010-02-10 19:35:15

首先要考虑的是:在将数据转换为双精度之前，尝试压缩数据。这是你对大卫桑利的评论，除非你的红外成像模数转换器有24位重要位，32位浮点数应该有足够的精度；只有你的要求，才能准确地保留后续处理产生的噪音才是个问题。否则，通过确定它生成的值表并存储到此表的索引，逆向工程您的处理可能是可行的。

第二:如果您的压缩算法知道您的数据是8字节块，那么它将更加有效；这是因为它不会将最重要的字节抛到最小的字节中。作为一种粗略的预处理方法，您可以尝试用一个独特的字节(可能是ASCII逗号？)对每个双字节进行前缀。在通过像gzip这样的基于字节的压缩器之前，这应该会导致更好的总体压缩，即使中间流要大12%。较少粗糙，但更多的努力是编写自己的压缩适应这个任务--也许使用8层树来表示双字节中每个字节的期望值。

第三:由于图像数据高度冗余，某种形式的增量编码或其他与图像相关的压缩应该节省一些空间。然而，如果你要求无损压缩，它不会给你带来很大的收益，因为图像噪声本身是不可压缩的。此外，正如上面所解释的，它不会帮助您处理双倍中不太重要的部分中的伪随机散列。

票数 6

Stack Overflow用户

发布于 2010-03-28 22:51:14

您列出的所有编码器都是面向字节的，并被一些双倍属性抛出。首先是12位指数/符号不能很好地处理字节边界的布局，另一种是输入的噪音。第一部分是容易处理的多种方式，第二部分将限制任何无损压缩的有效性，你扔在它上。我认为即使是最好的结果也不会那么令人惊讶，我不知道你的数据，但我怀疑你可以指望只节省25%，或多或少。

从我的头上看，也许没有用，因为你想过这份清单上的一切.

将流视为64位整数和增量编码相邻值。如果有相同指数的值运行，它将有效地将其归零，可能还有一些高尾数位。会有溢出，但是数据仍然只需要64位，并且操作可以被逆转。
在此阶段，您可以选择尝试一些粗略的整数预测，并保存差异。
如果你以前遵循过这个建议，你将有将近一半的价值从1000开始。几乎一半和FFF..。若要消除这种情况，请将值(ROL)左转1位，如果当前LSB为1，则将其与所有Fs进行异或。如果LSB为0，则反向为XOR。

第二种想法是，简单地对真值进行XORing预测比差异更好，因为您不需要那么做第3步。

您可以尝试重新排序字节，将具有相同意义的字节分组在一起。比如，首先，所有最重要的字节，等等。最起码，你应该得到的东西，像一个大的零运行，最多只有很少的噪音，首先。
在运行0时，运行一般的压缩器，甚至是第一个RLE，然后是像huffman这样的熵编码器，或者更好的是，从7zip/LZMA开始运行距离编码器。

你的数据有一点是好的，它是单调的。你的数据有一件坏事:它太小了。你想存多少钱，只有千字节？干什么用?For what？如果相邻值之间经常存在指数差异，则压缩效果会受到很大影响。

如果您正在处理大量的这些数据集，您应该考虑使用它们的相似性来更好地将它们压缩在一起--也许在某个阶段将它们交织在一起。如果您可以忍受一些损失，那么将一些最不重要的字节归零可能是个好主意--可能是对源数据和预测都是如此，这样您就不会在那里重新引入噪音了。

票数 5

Stack Overflow用户

发布于 2013-12-31 08:39:20

如果你想要高压缩的档案存储，Burtscher & Patanaworabhan的“双精度浮点数据的高通量压缩”或Lindstrom & Isenberg的“浮点数据的快速Eﬃ压缩”可能对您有帮助。

如果您想要更快的动态访问，而代价是较低的压缩率，那么一维提升小波可能是合适的。通过指定要保留的数字数，可以将数据量化为较小的整数。然后使用增量编码和预测模型，然后用Haar变换或代价更高的小波变换和系数大于指定值的算术编码。

希望它能帮上忙

您可以在这里得到Lindstrom的ZFP算法：https://github.com/LLNL/zfp

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2238754

复制

相似问题

问IEEE-754数据压缩算法
EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问IEEE-754数据压缩算法EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问IEEE-754数据压缩算法
EN