我试图刮一个网站,但它给了我一个错误。
我使用以下代码:
import urllib.request
from bs4 import BeautifulSoup
get = urllib.request.urlopen("https://www.website.com/")
html = get.read()
soup = BeautifulSoup(html)
print(soup)我得到了以下错误:
File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: character maps to <undefined>我能做些什么来解决这个问题?
发布于 2014-11-23 19:19:24
我通过将.encode("utf-8")添加到soup来修正它。
这意味着print(soup)变成了print(soup.encode("utf-8"))。
发布于 2017-02-27 21:00:56
当我将被刮掉的web内容保存到一个文件中时,我得到了相同的UnicodeEncodeError。为了修复它,我替换了以下代码:
with open(fname, "w") as f:
f.write(html)在这方面:
with open(fname, "w", encoding="utf-8") as f:
f.write(html)如果您需要支持Python 2,请使用以下命令:
import io
with io.open(fname, "w", encoding="utf-8") as f:
f.write(html)如果要使用与UTF-8不同的编码,请指定encoding的实际编码。
发布于 2018-10-08 16:20:18
在Python3.7中,运行Windows 10起作用(我不确定它是否能在其他平台和/或其他版本的Python上工作)
取代这一行:
with open('filename', 'w') as f:
在这方面:
with open('filename', 'w', encoding='utf-8') as f:
它工作的原因是因为在使用文件时编码被更改为UTF-8,所以UTF-8中的字符可以转换为文本,而不是在遇到当前编码不支持的UTF-8字符时返回错误。
https://stackoverflow.com/questions/27092833
复制相似问题