我一直在阅读“美丽汤”编码的文档,尝试用特殊的字符来解析我的html。但是那里的用例与我的不匹配。
这个html <p>Kimi Räikkönen</p>是在Kimi Räikkönen被刮掉后返回的,我的应用程序不能处理这个。当实际的标记中包含unicode (我没有)时,文档指示如何将内容转换为<p>Sacr\xc3\xa9 bleu!</p>到<p>Sacré bleu!</p>。
奇怪的是,当我进入soup.original_encoding时,我总是得到None,即使是正常的内容。
我试过这里的文档和其他问题中的所有例子,但是到目前为止,没有一个能奏效。我使用Beatiful作为刮板和解析器。
我希望能就如何处理这件事提出建议。
发布于 2019-08-04 04:49:41
这不是一个美丽的汤问题,而是一个问题与requests。
page = requests.get("https://www.formula1.com/en/drivers/kimi-raikkonen.html")这是我在刮刀里面的第一行,它没有返回正确的编码。这个解决方案可能会被认为是麻烦事,但我只是添加了以下内容来解决这个问题:
page.encoding = 'utf-8'https://stackoverflow.com/questions/57260904
复制相似问题