我试图让我的网络刮刀通过几个链接,然后才真正抓取网站,我似乎找不到如何使它工作。
我想要搜索的网站是亚马逊。
假设我从https://www.amazon.com/开始(这就是我的'start_url')。一旦我到了那里,我想在亚马逊搜索栏中搜索一些东西,例如,“笔记本电脑”,然后进行搜索。
这是如何做到的呢?如果强制使用start url (例如,用于搜索笔记本电脑的网址:noss?url=search-alias%3Daps&field-keywords=Laptop),我可以提取数据,但在从亚马逊主页开始时,我似乎无法获得该url。
发布于 2018-12-07 12:18:03
如果您有几个请求要搜索,也许最好以另一种方式调用它们:
search_url = 'https://www.amazon.com/s?field-keywords={}'
def start_requests(self):
keywords = ['laptop', 'something other']
for keyword in keywords:
yield Request(self.search_url.format(keyword))
def parse(self, response)
# parse your pages herehttps://stackoverflow.com/questions/53669313
复制相似问题