文章/答案/技术大牛

发布

社区首页 >问答首页 >漂亮的Soup解析分析

问漂亮的Soup解析分析
EN

Stack Overflow用户

提问于 2020-03-13 07:34:30

回答 1查看 40关注 0票数 0

我试着用漂亮的汤从HTML中获取某些类的文本。我已经成功地得到了文本，但是，其中有一些异常(无法识别的字符)，如下图所示。如何使用python代码来解决这个问题，而不是手动删除这些异常。

代码：

    try:
        html =requests.get(url)
    except:
        print("no conection")
    try:
        soup = BS(html.text,'html.parser')
    except:
        print("pasre error")
    print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())

html

python-3.x

web-scraping

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-13 09:44:47

访问html.text时，请求尝试确定字符编码，以便正确解码从服务器接收到的原始字节。timesofindia发送的content-type头是text/html; charset=iso-8859-1，这就是请求的内容。字符编码几乎肯定是utf-8。

您可以通过在访问encoding of html之前将html.text设置为utf-8来解决此问题。

    try:
        html =requests.get(url)
        html.encoding = 'utf-8'
    except:
        print("no conection")
    try:
        soup = BS(html.text,'html.parser')
    except:
        print("pasre error")
    print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())

或将html.content解码为utf-8，并将其传递给BS而不是html.text

    try:
        html =requests.get(url)
    except:
        print("no conection")
    try:
        soup = BS(html.content.decode('utf-8'),'html.parser')
    except:
        print("pasre error")
    print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())

我强烈建议您学习字符编码和Unicode。很容易被它绊倒。我们都去过那里。

汤姆·斯科特( Tom )和肖恩·莱利( Sean ) 字符、符号和Unicode奇迹-计算机

大卫·辛格拉夫( David C. Zentgraf )著的“每个程序员绝对、积极地需要了解编码和字符集才能处理文本。”

每个软件开发人员绝对、积极的绝对最低限度必须了解Unicode和字符集(没有借口！) (乔尔·斯波斯基)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60666528

复制

相似问题

问漂亮的Soup解析分析
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问漂亮的Soup解析分析EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问漂亮的Soup解析分析
EN