文章/答案/技术大牛

发布

社区首页 >问答首页 >Web Crawler - Windows应用程序

问Web Crawler - Windows应用程序
EN

Stack Overflow用户

提问于 2019-03-21 19:37:57

回答 1查看 241关注 0票数 2

我想建立一个网络爬虫与用户界面，允许用户输入一系列的零件编号，然后爬虫将挖掘约6网址的(制造商/供应商网站)，并拉回该零件的库存值和警报，如果它更新到1+ (通常情况下，我们正在寻找的零件坐在0库存数周)

我查看了Scrapy，并试图在我们的服务器上实现它，直到意识到它永远不会在我们通过HostGator使用的共享服务器上工作，因为他们不允许Python install或GCC。

下一个选择是使用Scrapy Cloud，但从我的阅读来看，每次需要抓取不同的部件号时，我都必须手动更新爬行器。

有没有办法(基于Windows应用程序或基于web应用程序)允许用户输入不同的零件号，将这些零件号发送到JSON文件(爬虫)，抓取“库存”值并返回？

python

web-scraping

automation

web-crawler

回答 1

Stack Overflow用户

发布于 2019-03-21 20:13:54

您可以将Part Numbers作为JSON文件上传到某个位置，并覆盖start_requests方法来请求它。在这种情况下，您需要启动请求以在parse_part_numbers方法中爬行。

def start_requests(self):
    yield scrapy.Request(http://url_to_your_json_file.json, self.parse_part_numbers)

def parse_part_numbers(self, response):
    part_numbers = json.loads(response.text)
    for url in self.urls_to_crawl:
        yield scrapy.Request(url)

def parse(self, response):
    ...

https://docs.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests

其他选项是覆盖start_requests以从外部数据库请求它。像Python Scrapy - populate start_urls from mysql这样的东西

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55279603

复制

相似问题

问Web Crawler - Windows应用程序
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web Crawler - Windows应用程序EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web Crawler - Windows应用程序
EN