我想知道是否有人可以向我介绍任何算法,将Unicode文本压缩到其原始大小的10-20%?实际上,我读过Lempel-Ziv compression算法,它将文本大小减少到原始大小的60%,但我听说有一些算法具有这种性能
发布于 2013-11-19 14:54:01
如果您只考虑文本压缩,而不是第一个使用基于熵的加密的算法,称为霍夫曼编码
Huffman Coding
然后是LZW压缩,它使用字典编码,使用以前使用的字母序列来分配代码,以减小文件大小。
LZW compression
我认为以上两种方法足以有效地对文本数据进行编码,并且易于实现。
注意:不希望在所有文件上都有很好的压缩,如果数据是随机的,没有模式,那么没有压缩算法可以给你任何压缩。压缩百分比取决于文件中出现的符号,而不仅仅取决于所使用的算法。
发布于 2018-08-16 04:44:58
PAQ是文本的new reigning champion,compression...There有几种不同的风格,有关它们的信息可以在here中找到。
我推荐三种口味:
的TXT文件
你必须自己从源代码构建它们,幸运的是,有人做了一个图形用户界面,FrontPAQ,它将两个最好的二进制文件打包成一个。
一旦你有了简单易用的函数式二进制文件,文档就可以在here中找到。
注意:我知道这是一个非常古老的问题,但我希望包括相关的现代数据。我来寻找同样的问题,但找到了一个更新更强大的答案。
https://stackoverflow.com/questions/20064507
复制相似问题