首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Web Crawler - Windows应用程序

Web Crawler - Windows应用程序
EN

Stack Overflow用户
提问于 2019-03-21 19:37:57
回答 1查看 241关注 0票数 2

我想建立一个网络爬虫与用户界面,允许用户输入一系列的零件编号,然后爬虫将挖掘约6网址的(制造商/供应商网站),并拉回该零件的库存值和警报,如果它更新到1+ (通常情况下,我们正在寻找的零件坐在0库存数周)

我查看了Scrapy,并试图在我们的服务器上实现它,直到意识到它永远不会在我们通过HostGator使用的共享服务器上工作,因为他们不允许Python install或GCC。

下一个选择是使用Scrapy Cloud,但从我的阅读来看,每次需要抓取不同的部件号时,我都必须手动更新爬行器。

有没有办法(基于Windows应用程序或基于web应用程序)允许用户输入不同的零件号,将这些零件号发送到JSON文件(爬虫),抓取“库存”值并返回?

EN

回答 1

Stack Overflow用户

发布于 2019-03-21 20:13:54

您可以将Part Numbers作为JSON文件上传到某个位置,并覆盖start_requests方法来请求它。在这种情况下,您需要启动请求以在parse_part_numbers方法中爬行。

代码语言:javascript
复制
def start_requests(self):
    yield scrapy.Request(http://url_to_your_json_file.json, self.parse_part_numbers)

def parse_part_numbers(self, response):
    part_numbers = json.loads(response.text)
    for url in self.urls_to_crawl:
        yield scrapy.Request(url)

def parse(self, response):
    ...

https://docs.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests

其他选项是覆盖start_requests以从外部数据库请求它。像Python Scrapy - populate start_urls from mysql这样的东西

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55279603

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档