首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >固定字符编码混沌

固定字符编码混沌
EN

Unix & Linux用户
提问于 2022-04-02 08:00:27
回答 1查看 1.2K关注 0票数 1

我正在构建一个脚本,从一个具有字符编码中断的网站中提取一些数据:

  • html头声称它是iso-8859-1,但它不是
  • wgetting文件显示它实际上是utf-8,但是字符不对
  • 反向工程向我展示有人设法使用windows代码页1252作为unicode代码!

例如,代码页1252中的反勾号为0x91,在此页面中为U+0091。真奇怪。令人惊讶的是,web浏览器似乎能够自动修复这个问题。

我的问题是:哪个工具能帮我清理这个烂摊子?(不是用手!这是一个有数百页的动态网站,我看到了至少六种不同的伪编码。

EN

回答 1

Unix & Linux用户

回答已采纳

发布于 2022-04-02 09:23:16

根据“非手工”的含义,iconv可能对您的任务很有用。

将文本从一个字符编码转换为另一个选项-f -编码,- from -code=from-编码用于输入字符的编码。-t to-编码,--to-code=to-编码用于输出字符的编码.

根据我的经验,即使你必须处理错误的编码,康图也能工作。例如,即使输入数据是iso-8859,您也可以告诉康涅夫输入数据是utf-8编码的,因此康涅夫的行为就像输入是utf-8一样。这样,您就可以修复错误编码的数据。

因为iconv可以作为一个过滤器工作,所以可以使用类似于curl的东西来链接它。当您使用wget时,与--output-document -的链接也同样有效。

据我所知,iconv无法检测/猜出正确的输入编码。但取决于输入数据的混乱程度,如果网站有许多不同类型的错误/混合编码,这可能是“不可能的”。如果整个网站都以同样的方式被搞砸了,你应该能够修复它。

票数 2
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/697701

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档