我使用scrapy来获取一些web内容,以这样的方式:
class PitchforkTracks(scrapy.Spider):
name = "pitchfork_tracks"
allowed_domains = ["pitchfork.com"]
start_urls = [
"http://pitchfork.com/reviews/best/tracks/?page=1",
"http://pitchfork.com/reviews/best/tracks/?page=2",
"http://pitchfork.com/reviews/best/tracks/?page=3",
]一切都很好。
现在,我不想直接点击页面,而是刮掉相同页面的google caches。
实现这一目标的适当syntax是什么?
PS:,我试过"cache:http://pitchfork.com/reviews/best/tracks/?page=1",,但没有用。
发布于 2016-10-15 05:58:09
您可以使用下面的Google来抓取缓存页面
http://webcache.googleusercontent.com/search?q=cache:http://pitchfork.com/reviews/best/tracks/?page=1
https://stackoverflow.com/questions/40051215
复制相似问题