所需的table的tr元素在开发人员工具中可以看到,但在webscraping的源代码中看不到,对于一个特定的url,我也尝试了selenium和其他所有东西,但都没有用,无论我做什么尝试,我得到的输出都是[],如果有人能帮助我解决这个问题,那将是非常有帮助的。首先我尝试了beautifulsoup,然后是proxycrawl,然后是其他几种方法,但我无法将其抓取,它有下载选项,但我需要将它抓取到存储在亚马逊网络服务中,自动获取每天下午6点的数据,一旦更新就可以在powerbi上流传输。url为http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5
发布于 2019-04-16 19:58:51
您真的应该使用WebDriverWait来等待表的呈现,但是我对它有问题,所以还是使用了time.sleep
但是,您可以通过让Selenium单击download csv按钮轻松地获取整个表。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
url = 'http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5'
driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
driver.get(url)
time.sleep(10)
driver.find_element_by_id("dwnld").click()
time.sleep(2)
driver.find_element_by_id("CsvExport").click()https://stackoverflow.com/questions/55704975
复制相似问题