文章/答案/技术大牛

发布

社区首页 >问答首页 >如何用windows-1252编码打开HTML页面

问如何用windows-1252编码打开HTML页面
EN

Stack Overflow用户

提问于 2011-05-11 16:02:26

回答 2查看 2.4K关注 0票数 4

我试着用漂亮的汤解析一个HTML文档，但我遇到了麻烦。用windows-1252编码打开HTML文档的最佳方式是什么？

我尝试使用iconv将其转换为utf-8格式，但同样不起作用。

doc = open("e.html").read()

soup = BeautifulSoup(doc)

soup.findAll('p')

UnicodeEncodeError：'ascii‘编解码器无法对位置103中的字符u'\xfc’进行编码:序数不在范围内(128)

当我打开它时没有使用iconv，我得到了同样的错误。

完整回溯：

>>> soup.findAll('p')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 103: ordinal not in range(128)

encoding

beautifulsoup

python

回答 2

Stack Overflow用户

发布于 2017-03-05 06:59:35

我得到了一个类似的错误：

UnicodeDecodeError：'utf-8‘编解码器无法解码位置723617处的字节0xe9 :无效的继续字节

对我来说起作用的是像这样指定输入编码：

page = open("page.html", encoding="windows-1252")

soup = BeautifulSoup(page.read(), "html.parser")

票数 1

Stack Overflow用户

发布于 2011-05-11 17:07:28

尝试如下所示：

doc = open("e.html").read()

doc = doc.decode('cp1252')

soup = BeautifulSoup(doc)

soup.findAll('p')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5961053

复制

相似问题

问如何用windows-1252编码打开HTML页面
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何用windows-1252编码打开HTML页面EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何用windows-1252编码打开HTML页面
EN