我正在尝试从一个网站(www.hotpads.com)上抓取一些房产信息。
我正在加载一个url,里面有许多列表(例如link),并试图进入每个属性并获得更多详细信息,以便下载到Excel中。
如果我“检查”元素,我可以看到href链接在页面加载后由一个“Linker”类标识,但如果我使用Selenium加载页面,请确保它已加载,然后搜索这些不存在的链接。
我做错了什么?你能给我指点一下如何做这件事吗?请注意,我正在等待页面加载。如果我右击并查看链接,我可以看到我想要什么,但如果我查看页面源代码,链接就不在那里。
在获取和访问各个链接方面,这是我的代码:
driver.get(url)
time.sleep(10)
response = requests.get(url)
html = response.content
soup = bs4.BeautifulSoup(html, "html.parser")
data = soup.findAll('a', attrs={'class': 'Linker'})
if DEBUG:
for d in data:
print url_base+d['href']
for d in data:
if DEBUG: print d
#set the link value and open it
link = url_base+d['href']
driver.get(link)https://stackoverflow.com/questions/41345063
复制相似问题