文章/答案/技术大牛

发布

社区首页 >问答首页 >使用BeautifulSoup进行网络抓取的问题

问使用BeautifulSoup进行网络抓取的问题
EN

Stack Overflow用户

提问于 2020-04-20 04:17:10

回答 1查看 50关注 0票数 0

我是使用beautifulSoup的新手，有一个问题；感谢您的帮助：

from bs4 import BeautifulSoup as soup
import requests

URL = 'https://www.kbb.com/car-values/'
page = requests.get(URL)
soup1 =  soup(page.content, 'html-parser')

print(soup1.prettify())

同时，我在单独的浏览器中访问URL并检查该页面，以获得该页面的HTML版本以建立模式。我找到了两个独立的模式来满足我的需求

yyyy1

和

yyyy2

P.S. xxxx1、xxxx2、yyyy1和yyyy2只是字符串

我返回到prettify()输出并搜索模式xxxx1，我找到了它，但是当我搜索模式xxxx2时，我找不到它吗？看起来soup对象没有包含HTML页面中的所有信息？或者我没有看到正确的HTML页面？我猜不出我做错了什么，怎么做对？

谢谢

web-scraping

beautifulsoup

python

html

回答 1

Stack Overflow用户

发布于 2020-04-20 04:34:16

最初需要修改才能运行您的代码，将'html-parser‘改为'html.parser’。这修复了HTMLbs4.FeatureNotFound:找不到具有您所请求的特性的树构建器：-parser。你需要安装解析器库吗？

在本地，当我尝试你的代码时，我得到了：

Access Denied
You don't have permission to access "http://www.kbb.com/" on this server.

Reference #18.afe17b5c.1587328194.c07350f

对某些国家有限制吗？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61311052

复制

相似问题

问使用BeautifulSoup进行网络抓取的问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用BeautifulSoup进行网络抓取的问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用BeautifulSoup进行网络抓取的问题
EN