我想建立一个网络爬虫与用户界面,允许用户输入一系列的零件编号,然后爬虫将挖掘约6网址的(制造商/供应商网站),并拉回该零件的库存值和警报,如果它更新到1+ (通常情况下,我们正在寻找的零件坐在0库存数周)
我查看了Scrapy,并试图在我们的服务器上实现它,直到意识到它永远不会在我们通过HostGator使用的共享服务器上工作,因为他们不允许Python install或GCC。
下一个选择是使用Scrapy Cloud,但从我的阅读来看,每次需要抓取不同的部件号时,我都必须手动更新爬行器。
有没有办法(基于Windows应用程序或基于web应用程序)允许用户输入不同的零件号,将这些零件号发送到JSON文件(爬虫),抓取“库存”值并返回?
发布于 2019-03-21 20:13:54
您可以将Part Numbers作为JSON文件上传到某个位置,并覆盖start_requests方法来请求它。在这种情况下,您需要启动请求以在parse_part_numbers方法中爬行。
def start_requests(self):
yield scrapy.Request(http://url_to_your_json_file.json, self.parse_part_numbers)
def parse_part_numbers(self, response):
part_numbers = json.loads(response.text)
for url in self.urls_to_crawl:
yield scrapy.Request(url)
def parse(self, response):
...https://docs.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests
其他选项是覆盖start_requests以从外部数据库请求它。像Python Scrapy - populate start_urls from mysql这样的东西
https://stackoverflow.com/questions/55279603
复制相似问题