文章/答案/技术大牛

发布

社区首页 >问答首页 >Python检测中断编码

问Python检测中断编码
EN

Stack Overflow用户

提问于 2012-08-29 21:33:14

回答 2查看 346关注 0票数 1

在爬行了许多网站之后，在其中一些网站中，我收到了破译的编码数据.我不能对他们做任何事，我只需要发现他们。例如，案文如下：

·1/4,000,000-刚果民主共和国-中非共和国

或

3%

我怎么能识别出这样的文字？我任何语言，所以搜索非英语文本不是一种选择.我能想到的唯一选择是guess-language模块。

python

encoding

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-08-29 21:35:18

有一个NLTK，它有一个guess_encoding函数，它接受一个字节字符串并尝试所有可用的编码，这是否符合您的目的？

票数 2

Stack Overflow用户

发布于 2012-08-29 21:42:04

看看https://github.com/LuminosoInsight/python-ftfy

如果我正确理解，它将尝试“修复”错误编码/解码的文本。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12186847

复制

相似问题

问Python检测中断编码
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python检测中断编码EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python检测中断编码
EN