搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

按Scrapy-Splash返回图片内容

我正在使用Scrapy-Splash请求来获取页面的渲染屏幕截图，但我还需要该页面上的图像。我使用管道下载这些图像，但我在想-这不是对同一图像发出了两个请求吗？有没有办法获取Scrapy-Splash请求返回的图像？

浏览 7提问于2017-07-19得票数 2

回答已采纳

1回答

docker无法运行scrapy-splash

我想用splash和scrapy .When抓取动态内容我遵循Linux '‘中的安装文档我不能用命令运行镜像：docker run -p 8050:8050 scrapinghub/splash我得到了以下错误：我不知道在哪里可以找到该文件来更改其权限。

浏览 26修改于2020-05-28得票数 0

1回答

Scrapy-Splash如何实现代理配置文件？

我在使用Scrapy-Splash和HTTP proxy (参见)时遇到了一些问题，即使我试图在之后设置一个代理配置文件。为了更好地理解发生了什么，我正在寻找Scrapy-Splash源代码的一部分，，它解析/etc/splash/proxy-profiles中的.ini文件中指定的代理host和port。有人能给我解释一下代理分析是如何在Scrapy-Splash中实现的吗？

浏览 5提问于2017-07-13得票数 3

1回答

因为我无法登录到，所以我尝试了许多不同的方法，比如selenium，我成功地登录了这些方法，但是没有成功地开始爬行。如果我以飞溅的方式呈现页面，我会看到以下图片：那么，应该有一个loginform，如用户名和密码，但刮刮看不见吗？我的最后一个问题甚至没有得到一个答案，现在我再试一次。当我登录手册时，我被重定向到"/login?returnUrl="，其中只有以下form_data：我的代码 # -*- coding:

浏览 3修改于2020-09-23得票数 1

回答已采纳

1回答

使用Scrapy-splash导航动态页

背景：我正在使用Scrapy从http://shop.nordstrom.com/c/mens-tshirts抓取和刮取产品数据。页面是动态生成的，所以我使用Scrapy来处理JavaScript。问题是，单击页面底部的"Next“按钮是进入后续产品页面的唯一方法。如果您复制第2页的url并将其粘贴到一个新的选项卡中，则该页上没有产品。问题：是否有一种方法将我提取的html/javascript源代码传递到Splash (在码头容器中运

浏览 2修改于2017-07-17得票数 1

2回答

scrapy-splash如何处理无限滚动？

我想通过向下滚动网页生成的内容反向工程。问题出在url https://www.crowdfunder.com/user/following_page/80159?user_id=80159&limit=0&per_page=20&screwrand=933中。screwrand似乎不遵循任何模式，所以反向urls不起作用。我正在考虑使用Splash进行自动渲染。如何使用Splash来像浏览器一样滚动？非常感谢!以下是两个请求的代码： 'https://www.crowdfu

浏览 3修改于2020-03-01得票数 8

1回答

scrapy-splash不使用CrawlerSpider递归抓取

我在我的CrawlerSpider process_request中集成了scrapy splash，规则如下： request.meta['splash']={ # set rendering arguments here } return request 问题是爬虫只呈现第一深度中的urls，我也想知道如何才能获得响应，即使

浏览 0提问于2016-11-14得票数 1

3回答

Scrapy-splash找不到图像源url

就像这个:fetch('http://localhost:8050/render.html?

浏览 27修改于2021-05-16得票数 1

回答已采纳

1回答

如何强制scrapy-splash重试失败的项目？

因此，我想让scrapy-splash重试这些失败的urls，而不是简单地删除项目。我该怎么做呢？

浏览 7提问于2017-03-01得票数 0

2回答

单击Scrapy-Splash中的显示按钮

我正在抓取下面的网页使用scrapy splash，http://www.starcitygames.com/buylist/，我必须登录到它，以获得我需要的数据。这很好用，但是为了获得我需要的数据，我需要单击display按钮，这样我就可以抓取这些数据，在单击按钮之前，我需要的数据是不可访问的。我已经得到了一个答案，告诉我我不能简单地点击显示按钮并刮掉显示的数据，我需要刮掉与该信息相关的JSON网页，但我担心的是，刮掉JSON将是网站所有者的一个危险信号，因为大多数人不打开JSON数据页面，与计算机相比，需要几分钟的时间才能找到它，这将是快得多的。所以我想我的问题是，有没有办法刮掉我的点击

浏览 28修改于2019-06-27得票数 5

回答已采纳

1回答

如何在scrapy-splash中同时返回png和html？

如果我有一个从scrapy-splash请求返回的html和png，如何在使用png保存png图像的同时使用该html抓取元素？我可以写response.html和response.png吗？

浏览 14修改于2020-08-11得票数 1

1回答

如何在scrapy-splash中设置启动超时？

我使用抓取网页，并在docker上运行splash服务。docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600"error": {"info": {"timeout": 30}, "description": "Timeout exceeded rendering page", "error": 504, "type": "GlobalTimeoutError

浏览 34修改于2019-11-20得票数 10

回答已采纳

1回答

将真实URL通过Scrapy-Splash传递到字典

当试图通过('url‘：response.request.url)将url保存到字典中时，Scrapy从Scrapy中保存所有相同的url ()from scrapy import Spiderfrom scrapy.utils.response import open_in_browserimport scrapy from scrapy_splash import SplashReque

浏览 2提问于2019-02-01得票数 2

回答已采纳

1回答

使用Scrapy-Splash持续得到"502 Bad Gateway“错误

我正在使用Scrapy-Splash帮助！注意:代理中间件与我的其他爬行器工作得很好，所以我不认为有任何问题。此外，我可以使用splash web界面渲染所有内容。

浏览 168修改于2020-08-06得票数 1

1回答

如何确保scrapy-splash成功渲染了整个页面？

当我爬行整个网站时发生的问题，使用splash来渲染整个目标Page.Some页面没有随机成功，所以我是假的，以获取信息，支持存在时，渲染作业有Done.That意味着我只是从渲染结果的一部分信息，虽然我可以从其他渲染结果获得全部信息。yield SplashRequest(url,self.splash_parse,args = {"wait": 3,},endpoint="render.html") SPLASH_URL = 'XXX'

浏览 12提问于2017-03-28得票数 3

0回答

使用scrapy-splash选择依赖下拉列表

它有一个两个下拉菜单，第二个取决于第一个，所以我选择通过scrapy-splash使用scrapy和splash。我需要自动更改位置，首先选择州，然后选择城市。

浏览 0修改于2019-11-20得票数 2

回答已采纳

1回答

从scrapy-splash python项目中获取.exe

我有一个scrapy splash项目，我试图用这个setup.py脚本获取一个.exe文件： 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'process.start() 现在pyi

浏览 5修改于2021-04-30得票数 1

1回答

Scrapy-Splash如何将返回变量添加到响应

Scrapy-Splash文档也没有真正解释如何获取这些变量。所以我的问题是-如何通过scrapy_plash.SplashRequest调用从我的lua脚本接收任意返回变量？

浏览 14修改于2020-09-27得票数 1

1回答

网络抓取w/ Scrapy-Splash -不同代理的不同结果？

我有一个代理地址列表，我正在随机选择，并输入到一个SplashRequest中的刮除蜘蛛。为了确认这是可行的，我决定尝试从中获取结果。在随机选择代理时，我注意到基于IP的三种不同的响应：编辑我在一个Docker容器中有一个Splash实例，我正在创建一个SplashReqeuest (不是一个刮掉的请求)，并给它一个随机选择的代理IP。对于一

浏览 4修改于2019-10-03得票数 0

回答已采纳

1回答

刮擦javascript生成的结果- scrapy-splash

当您在字典搜索框中引入一些缩略词时，我正在尝试刮取javascript函数生成的结果。这是我使用的代码：from scrapy_splash import SplashFormRequest name = 'sedom-spider' def parse(

浏览 1提问于2021-05-11得票数 0

第 2 页第 3 页第 4 页第 5 页

点击加载更多

按Scrapy-Splash返回图片内容

docker无法运行scrapy-splash

Scrapy-Splash如何实现代理配置文件？

尝试使用Scrapy-Splash登录

使用Scrapy-splash导航动态页

scrapy-splash如何处理无限滚动？

scrapy-splash不使用CrawlerSpider递归抓取

Scrapy-splash找不到图像源url

如何强制scrapy-splash重试失败的项目？

单击Scrapy-Splash中的显示按钮

如何在scrapy-splash中同时返回png和html？

如何在scrapy-splash中设置启动超时？

将真实URL通过Scrapy-Splash传递到字典

使用Scrapy-Splash持续得到"502 Bad Gateway“错误

如何确保scrapy-splash成功渲染了整个页面？

使用scrapy-splash选择依赖下拉列表

从scrapy-splash python项目中获取.exe

Scrapy-Splash如何将返回变量添加到响应

网络抓取w/ Scrapy-Splash -不同代理的不同结果？

刮擦javascript生成的结果- scrapy-splash

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐