所以im使用selenium抓取链接。我可以用循环打印我的链接,但是我无法导航到它们,因为我得到了以下错误:
selenium.common.exceptions.StaleElementReferenceException:消息:元素引用是陈旧的;要么元素不再附加到DOM中,要么不在当前框架上下文中,要么文档已经刷新了。
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("https://www.famousgraphicdesigners.org/")
links = driver.find_elements_by_xpath('//*[@id="pages-2"]/div/ul/li/a')
links_total = len(links)
print("Found", links_total, "total links.\n")
for i in links:
# print(i.get_attribute('href')) # This works
driver.get(i.get_attribute('href')) # This doesnt work
driver.quit()发布于 2019-11-24 09:06:10
当您导航到一个新页面时,先前定位的元素会变得陈旧,在这种情况下,links中的元素就会失效,因此您无法访问href属性。在字符串列表中的所有href,并对其进行迭代。
links = driver.find_elements_by_xpath('//*[@id="pages-2"]/div/ul/li/a')
links_hrefs = [link.get_attribute('href') for link in links]
for i in links_hrefs:
driver.get(i)发布于 2019-11-24 10:20:00
之所以这样做,是因为您所引用的元素已从DOM结构中删除。
解决方案:
from selenium.webdriver.common.by import By
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
links = []
driver = webdriver.Chrome(executable_path=r"C:\New folder\chromedriver.exe")
driver.maximize_window()
driver.get('https://www.famousgraphicdesigners.org/')
all_Links = WebDriverWait(driver, 15).until(EC.presence_of_all_elements_located((By.XPATH, "//*[@id='pages-2']/div/ul/li/a[@href]")))
for link in all_Links:
print link.get_attribute("href")
links.append(link.get_attribute("href"))
for link in links:
driver.get(link)发布于 2021-11-18 08:15:12
在调用相同的元素之前,我遇到了相同的问题,并且"browser.refresh()“解决了我的问题。
https://stackoverflow.com/questions/59016107
复制相似问题