首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从彭博这样的安全网站中提取数据

如何从彭博这样的安全网站中提取数据
EN

Stack Overflow用户
提问于 2019-06-11 06:18:02
回答 1查看 785关注 0票数 1

我试着在这个网址上刮些东西:

代码语言:javascript
复制
"https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker"

我只想得到标题和日期发布,任何你能给我的样例代码,甚至飞溅等等。

到目前为止我尝试的是

代码语言:javascript
复制
 def parse(self, response):
   yield scrapy.Request('https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker -H x-crawlera-use-https:1',
        headers={'X-Crawlera-Session': create,
        'X-Crawlera-Timeout': 40000,
        'X-Crawlera-Max-Retries': 5,
        'X-Crawlera-Cookies': disable,
        'X-Crawlera-Session': self.session_id
        },
        callback=self.parse_sub,
        )

 def parse_sub(self, response):
    response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
    response.xpath("//meta[@property = 'og:title']/@content").extract_first()
    response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()
   print(response.text)

我也使用爬虫,但它一直在探测我作为一个机器人。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-11 07:22:42

仅用来提取标题--当巴克莱称其为“利基汽车制造商”和发布日期(即2019年5月30日,5:26 PM GMT+5:30 )时,特斯拉( Tesla )又受到了打击,你必须为visibility_of_element_located()诱导WebDriverWait,你可以使用以下解决方案:

  • 码块 = webdriver.Firefox(executable_path=r'C:\Utility\BrowserDrivers\geckodriver.exe') driver.get('https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker') print(WebDriverWait( driver,10).until(EC.visibility_of_element_located((By.XPATH,“//divtext()=‘h11’)).get_attribute(”innerHTML“)“//divtext()=‘markets’//以下: h11//following::div@class='lede-text-v2__times'/time@itemprop='datePublished'"))).get_attribute("innerHTML")) driver.quit()
  • 控制台输出: 当巴克莱称特斯拉为“利基汽车制造商”时,特斯拉又受到了另一个打击,2019年5月30日下午5:26 GMT+5:30
  • 注意事项:您必须添加以下导入: 从selenium导入from驱动程序从selenium.webdriver.support.ui导入WebDriverWait从selenium.webdriver.common.by导入从selenium.webdriver.support导入expected_conditions作为EC
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56537590

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档