首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python解析html页面:如何解码�字符?

python解析html页面:如何解码�字符?
EN

Stack Overflow用户
提问于 2014-05-30 09:13:17
回答 1查看 52关注 0票数 0

我正试图像这样解析HTML页面

代码语言:javascript
复制
# coding: utf8
[...]
def search(self, a, b):
    word = self.champ_rech_canal.get_text()
    url_canal = "http://www.canalplus.fr/pid3330-c-recherche.html?rechercherSite=" + mot_canal
    try:
       f = urllib.urlopen(url_canal)
       self.feuille_canal = f.read()
       f.close()
    except: 
       self.champ_rech_canal.set_text("La recherche a échoué")
       pass
    print self.feuille_canal

结果是好的,我也有�作为"é“或”o“,我如何解码它呢?试过:

代码语言:javascript
复制
self.feuille_canal = self.feuille_canal.decode("utf-8")

结果:

代码语言:javascript
复制
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe9 in position 8789: invalid continuation byte
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-05-30 09:16:00

您正在尝试将ISO-8859-1页解码为UTF-8,但无法工作.请参阅返回的HTML中的内容标题:

代码语言:javascript
复制
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23950955

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档