文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Scrapy抓取特定类或样式中的h2标记

问使用Scrapy抓取特定类或样式中的h2标记
EN

Stack Overflow用户

提问于 2020-10-09 15:15:26

回答 1查看 161关注 0票数 1

我正在尝试抓取这个网站的https://www.tahko.com/fi/tapahtumat/。我已经能够抓取主表上的事件，但现在需要抓取每个表对应的月份。

月份(例如，Lokaku2020或Marrasku2020)在h2标签内，样式为"font-size:32px;“，并且在类内(这是整个td区域)”col lg-8 col md-8 col sm-12 col xs-12“。

这是HTML代码。它被放在一个带有上述类的div中。

<h2 style="font-size:32px;">LOKAKUU 2020</h2>

这几个月我怎么省钱呢？

到目前为止，我尝试的是：

fetch("https://www.tahko.com/fi/tapahtumat/")

full = response.xpath('//*[@class="col-lg-8 col-md-8 col-sm-12 col-xs-12"]')

months = full.xpath('/*[@style="font-size:32px;"]')

奖励问题:将这几个月与下面的事件表进行匹配的最简单方法是什么？

scrapy

html

python-3.x

xpath

web-scraping

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-09 17:51:57

我不想建立一个完整的scrapy项目，但我希望这应该能让你开始。

import requests
from lxml import html

header_month_xpath = '//*[@style="font-size:32px;"]/text()'
month_widget_xpath = '//*[@class="widget"]/a/text()'

page = requests.get("https://www.tahko.com/fi/tapahtumat/").text

print(html.fromstring(page).xpath(header_month_xpath))
print(html.fromstring(page).xpath(month_widget_xpath))

输出：

['LOKAKUU 2020', 'MARRASKUU 2020', 'JOULUKUU 2020']
['Kaikki menovinkit', 'Tammikuu 2021', 'Helmikuu 2021', 'Maaliskuu 2021', 'Huhtikuu 2021', 'Toukokuu 2021', 'Kesäkuu 2021', 'Heinäkuu 2021', 'Elokuu 2021', 'Syyskuu 2021', 'Lokakuu 2020', 'Marraskuu 2020', 'Joulukuu 2020']

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64275512

复制

相似问题

问使用Scrapy抓取特定类或样式中的h2标记
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Scrapy抓取特定类或样式中的h2标记EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Scrapy抓取特定类或样式中的h2标记
EN