问BeautifulZoup，Selenium网络抓取
EN

Stack Overflow用户

提问于 2016-12-27 20:17:41

回答 0查看 42关注 0票数 1

我正在尝试从一个网站(www.hotpads.com)上抓取一些房产信息。

我正在加载一个url，里面有许多列表(例如link)，并试图进入每个属性并获得更多详细信息，以便下载到Excel中。

如果我“检查”元素，我可以看到href链接在页面加载后由一个“Linker”类标识，但如果我使用Selenium加载页面，请确保它已加载，然后搜索这些不存在的链接。

我做错了什么？你能给我指点一下如何做这件事吗？请注意，我正在等待页面加载。如果我右击并查看链接，我可以看到我想要什么，但如果我查看页面源代码，链接就不在那里。

在获取和访问各个链接方面，这是我的代码：

driver.get(url)
time.sleep(10)

response = requests.get(url)
html = response.content

soup = bs4.BeautifulSoup(html, "html.parser")

data = soup.findAll('a', attrs={'class': 'Linker'})
if DEBUG:
    for d in data:
        print url_base+d['href']

for d in data:
    if DEBUG: print d

    #set the link value and open it
    link = url_base+d['href']
    driver.get(link)

javascript

python

selenium

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41345063

复制

相似问题

问BeautifulZoup，Selenium网络抓取
EN

回答

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BeautifulZoup，Selenium网络抓取EN

回答

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BeautifulZoup，Selenium网络抓取
EN