我使用chardet来检测包括意大利语在内的文本文件的编码。问题是它始终将它们的编码检测为iso-8859-2,而正确的检测应该是iso-8859-1。有谁知道解决办法吗?我的本地语言设置为波兰语?这会影响检测吗?
发布于 2012-11-28 05:30:29
chardet不支持iso-8859-1,这就是它没有检测到它的原因。有关支持的字符编码,请参阅chardets主页- http://pypi.python.org/pypi/chardet。
我使用Linux程序'file‘来获取不同内容的字符编码,但是我不确定它有多安全,请参阅我的问题- Encoding detection in Python, use the chardet library or not?。但到目前为止,它对我来说效果很好。
顺便说一句,您的本地语言不应影响检测。
https://stackoverflow.com/questions/12822978
复制相似问题