我试图从一个字幕文件(vtt格式)获得如下文本:
import requests
r = requests.get('https://nogeovod-fy.atresmedia.com/vsg/sitemap/assets4/2022/09/26/C302281D-5C76-4710-A4FB-9AD7252B7F47/es.vtt')
print(r.encoding)
r.encoding = r.apparent_encoding
print(r.text)有些字符似乎被遗漏了,因为原来的编码ISO-8859-1不是正确的.然而,当我试图把它改成utf-8时,所有的口音仍然很奇怪.
发布于 2022-09-29 11:48:38
该文件似乎包含以下替换字符:
H 19žfor H 210H 111h 212H 113Č为H 214/code>H 115č为H 216F 217
用它,简单地替换这些一对一的应该可以解决你的问题。我们仍然不知道这是哪种编码,但伤害是有限的。
fixed = r.text.replace("Ć", "á").replace("Ž", "é").replace(
"Ð", "í").replace("Š", "ó").replace("ž", "ñ").replace(
"ë", "ú").replace("Č", "¡").replace("č", "¿")https://stackoverflow.com/questions/73894349
复制相似问题