首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Scrapy抓取特定类或样式中的h2标记

使用Scrapy抓取特定类或样式中的h2标记
EN

Stack Overflow用户
提问于 2020-10-09 15:15:26
回答 1查看 161关注 0票数 1

我正在尝试抓取这个网站的https://www.tahko.com/fi/tapahtumat/。我已经能够抓取主表上的事件,但现在需要抓取每个表对应的月份。

月份(例如,Lokaku2020或Marrasku2020)在h2标签内,样式为"font-size:32px;“,并且在类内(这是整个td区域)”col lg-8 col md-8 col sm-12 col xs-12“。

这是HTML代码。它被放在一个带有上述类的div中。

代码语言:javascript
复制
<h2 style="font-size:32px;">LOKAKUU 2020</h2>

这几个月我怎么省钱呢?

到目前为止,我尝试的是:

代码语言:javascript
复制
fetch("https://www.tahko.com/fi/tapahtumat/")

full = response.xpath('//*[@class="col-lg-8 col-md-8 col-sm-12 col-xs-12"]')

months = full.xpath('/*[@style="font-size:32px;"]')

奖励问题:将这几个月与下面的事件表进行匹配的最简单方法是什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-09 17:51:57

我不想建立一个完整的scrapy项目,但我希望这应该能让你开始。

代码语言:javascript
复制
import requests
from lxml import html

header_month_xpath = '//*[@style="font-size:32px;"]/text()'
month_widget_xpath = '//*[@class="widget"]/a/text()'

page = requests.get("https://www.tahko.com/fi/tapahtumat/").text

print(html.fromstring(page).xpath(header_month_xpath))
print(html.fromstring(page).xpath(month_widget_xpath))

输出:

代码语言:javascript
复制
['LOKAKUU 2020', 'MARRASKUU 2020', 'JOULUKUU 2020']
['Kaikki menovinkit', 'Tammikuu 2021', 'Helmikuu 2021', 'Maaliskuu 2021', 'Huhtikuu 2021', 'Toukokuu 2021', 'Kesäkuu 2021', 'Heinäkuu 2021', 'Elokuu 2021', 'Syyskuu 2021', 'Lokakuu 2020', 'Marraskuu 2020', 'Joulukuu 2020']
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64275512

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档