在爬行了许多网站之后,在其中一些网站中,我收到了破译的编码数据.我不能对他们做任何事,我只需要发现他们。例如,案文如下:
·1/4,000,000-刚果民主共和国-中非共和国
或
3%
我怎么能识别出这样的文字?我任何语言,所以搜索非英语文本不是一种选择.我能想到的唯一选择是guess-language模块。
发布于 2012-08-29 21:35:18
有一个NLTK,它有一个guess_encoding函数,它接受一个字节字符串并尝试所有可用的编码,这是否符合您的目的?
发布于 2012-08-29 21:42:04
看看https://github.com/LuminosoInsight/python-ftfy
如果我正确理解,它将尝试“修复”错误编码/解码的文本。
https://stackoverflow.com/questions/12186847
复制相似问题