首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Requests_HTML中,为什么.find返回整个页面代码?

在Requests_HTML中,为什么.find返回整个页面代码?
EN

Stack Overflow用户
提问于 2022-04-06 04:06:27
回答 1查看 155关注 0票数 0

我试着用‘resquests’库学习web抓取,在所有的教程中,选择器html.find('.class')可以很好地找到一个CSS 'class‘并返回里面的文本。

我的例子:

代码语言:javascript
复制
from requests_html import HTMLSession

s = HTMLSession()


link = 'https://prev.lifestylegarden.uk/simple-page.html'

f = s.get(link)

title = f.html.find('.title', first=True).text
print(title)

在我的测试HTML页面中,我有:<h1 id="title">Welcome to our simple page project</h1>和我想返回:

# Welcome to our simple page project

但是在最后,我得到了从H1开始到结束的整个页面文本,没有HTML标记。

我遵循2-3个不同的教程和不同的网站进行测试,每个人都是这样写的,并且正确地从“类”中获得字符串,而不是整个站点。

我是不是遗漏了什么?

谢谢你的大力支持。

EN

回答 1

Stack Overflow用户

发布于 2022-04-07 04:16:52

我找到了问题的根源。

发生此错误时,我使用的是Python3.9

我不得不将该版本降级为3.6,以使其正常工作:

代码语言:javascript
复制
conda create -n envpy-3.6 python=3.6 anaconda

这将创建一个名为envpy- 3.6 的本地环境,该环境允许我创建一个本地版本的3.6来处理这些项目。

代码语言:javascript
复制
activate envpy-3.6

这确实激活了环境。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71760941

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档