文章/答案/技术大牛

发布

问TimeoutException Selenium
EN

Stack Overflow用户

提问于 2021-01-26 22:30:34

回答 1查看 29关注 0票数 0

启动抓取器后，奇怪的事情发生了:它要么正常工作，在访问第二个页面并单击下一步按钮后结束，要么以某种方式结束在属性页上，当我使用当前注释掉的代码行时。然而，当这行代码像现在这样放置时，它似乎起作用了，它访问所有页面并抓取它们，最终，我得到了一个超时。我不确定问题出在哪里？有什么建议吗？当前代码：

class PropertyFoxSpider(scrapy.Spider):
    name = 'property_fox'
    start_urls = [
        'https://propertyfox.co.za/listing-search?currentpage=1&term_id=62515&keywords=Western+Cape&orderby=createddate:desc&status%5B%5D=Active'
    ]


    def __init__(self):
        #path to driver
        self.driver = webdriver.Chrome('my_path')
    

    def parse(self,response):
        url = self.driver.get(response.url)
        while True:
            WebDriverWait(self.driver, 10).until(lambda driver: self.driver.current_url != url) 
            try: 
                elem = WebDriverWait(self.driver, 10).until(EC.element_to_be_clickable((By.ID, "pagerNext")))
                elem.click()
                #WebDriverWait(self.driver, 10).until(lambda driver: self.driver.current_url != url)
                url = self.driver.current_url
                yield scrapy.Request(url=url, callback=self.parse_page, dont_filter=False)
            except TimeoutException:
                break



    def parse_page(self, response):
        for prop in response.css('div.property-item'):
            link = prop.css('a::attr(href)').get()
            banner = prop.css('div.property-figure-icon div::text').get()
            sold_tag = None
            if banner:
                banner = banner.strip()
                sold_tag = 'sold' if 'sold' in banner.lower() else None

            yield scrapy.Request(
                link,
                callback=self.parse_property,
                meta={'item': {
                    'agency': self.name,
                    'url': link,
                    'offering': 'buy',
                    'banners': banner,
                    'sold_tag':  sold_tag,
                }},
            )

    def parse_property(self, response):
        item = response.meta.get('item')
    ...

web-scraping

scrapy

python

selenium

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-26 23:12:49

似乎Selenium甚至将Next按钮禁用为可点击元素，甚至在最后一页仍然尝试单击它。您可以尝试以下代码以使其工作：

def parse(self,response):
    self.driver.get(response.url)
    url = self.driver.current_url
    while True:
        try: 
            elem = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, '//span[@id="pagerNext" and not(@class="disabled")]')))
            elem.click()
        except TimeoutException:
            break
        WebDriverWait(self.driver, 10).until(lambda driver: self.driver.current_url != url)
        url = self.driver.current_url
        yield scrapy.Request(url=url, callback=self.parse_page, dont_filter=False)

请注意，我将(By.ID, "pagerNext")定位器替换为(By.XPATH, '//span[@id="pagerNext" and not(@class="disabled")]')，因此现在只会单击已启用的下一步按钮

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65903249

复制

相似问题

问TimeoutException Selenium
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问TimeoutException SeleniumEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问TimeoutException Selenium
EN