我正在尝试抓取这个网站的https://www.tahko.com/fi/tapahtumat/。我已经能够抓取主表上的事件,但现在需要抓取每个表对应的月份。
月份(例如,Lokaku2020或Marrasku2020)在h2标签内,样式为"font-size:32px;“,并且在类内(这是整个td区域)”col lg-8 col md-8 col sm-12 col xs-12“。
这是HTML代码。它被放在一个带有上述类的div中。
<h2 style="font-size:32px;">LOKAKUU 2020</h2>这几个月我怎么省钱呢?
到目前为止,我尝试的是:
fetch("https://www.tahko.com/fi/tapahtumat/")
full = response.xpath('//*[@class="col-lg-8 col-md-8 col-sm-12 col-xs-12"]')
months = full.xpath('/*[@style="font-size:32px;"]')奖励问题:将这几个月与下面的事件表进行匹配的最简单方法是什么?
发布于 2020-10-09 17:51:57
我不想建立一个完整的scrapy项目,但我希望这应该能让你开始。
import requests
from lxml import html
header_month_xpath = '//*[@style="font-size:32px;"]/text()'
month_widget_xpath = '//*[@class="widget"]/a/text()'
page = requests.get("https://www.tahko.com/fi/tapahtumat/").text
print(html.fromstring(page).xpath(header_month_xpath))
print(html.fromstring(page).xpath(month_widget_xpath))输出:
['LOKAKUU 2020', 'MARRASKUU 2020', 'JOULUKUU 2020']
['Kaikki menovinkit', 'Tammikuu 2021', 'Helmikuu 2021', 'Maaliskuu 2021', 'Huhtikuu 2021', 'Toukokuu 2021', 'Kesäkuu 2021', 'Heinäkuu 2021', 'Elokuu 2021', 'Syyskuu 2021', 'Lokakuu 2020', 'Marraskuu 2020', 'Joulukuu 2020']https://stackoverflow.com/questions/64275512
复制相似问题