我试着用漂亮的汤解析一个HTML文档,但我遇到了麻烦。用windows-1252编码打开HTML文档的最佳方式是什么?
我尝试使用iconv将其转换为utf-8格式,但同样不起作用。
doc = open("e.html").read()
soup = BeautifulSoup(doc)
soup.findAll('p')UnicodeEncodeError:'ascii‘编解码器无法对位置103中的字符u'\xfc’进行编码:序数不在范围内(128)
当我打开它时没有使用iconv,我得到了同样的错误。
完整回溯:
>>> soup.findAll('p')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 103: ordinal not in range(128)发布于 2017-03-05 06:59:35
我得到了一个类似的错误:
UnicodeDecodeError:'utf-8‘编解码器无法解码位置723617处的字节0xe9 :无效的继续字节
对我来说起作用的是像这样指定输入编码:
page = open("page.html", encoding="windows-1252")
soup = BeautifulSoup(page.read(), "html.parser")发布于 2011-05-11 17:07:28
尝试如下所示:
doc = open("e.html").read()
doc = doc.decode('cp1252')
soup = BeautifulSoup(doc)
soup.findAll('p')https://stackoverflow.com/questions/5961053
复制相似问题