搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

用Java 11实现风暴爬虫

尝试将Java版本从Java 8更新到Java 11，以编译和运行StromCrawler。我的问题-在Java11上支持Storm吗？

浏览 0提问于2020-11-19得票数 2

1回答

如何在node.js中发出https请求

我要做个爬虫。对于http请求，我曾经这样做过。', function () { }); http.request(options, callback).end(); ^at errnoException (dns.js:37

浏览 2修改于2015-01-18得票数 1

回答已采纳

1回答

使用http 405代码的页的风暴爬虫解决方案

我好像出了个405错误这页似乎有爬虫保护是否还可以使用风暴爬虫和selenium一起爬行呢？

浏览 1修改于2018-04-09得票数 1

回答已采纳

1回答

我有一个WP网站，为大约2%的Apache请求(主要是机器人和爬虫)创建500's错误。我无法用500's对大多数请求进行堆栈跟踪，也无法对PHP或MySQL错误以及Apache日志进行堆栈跟踪。用于爬虫的Apache访问日志示例： 41.79.186.247 - - [06/Oct/2015:11:23:49 -0400] "GET /international-chamber-of-commerce-icc-ud" "Mozilla/5.0 (Wi

浏览 0修改于2015-10-06得票数 0

回答已采纳

1回答

如何安全地将我在AWStats中找到的这些in列入黑名单？

看这个截图：我还检查了AWStats中的爬虫器，但是我没有看到IP地址，所以我无法知道它是从哪里来的。一个未知的机器人消耗了11 GB，而Googlebot只使用了1GB。我怎么才能挑出坏爬虫？

浏览 3提问于2017-10-29得票数 0

回答已采纳

1回答

使用lwjgl从Clojure REPL创建OpenGL窗口

在我用莱茵爬虫发动爬虫之后，我到目前为止所做的就是：(Display/setDisplayMode(DisplayMode. 800 600))(GL11/glClearColor1.0 0.0 0.0 1.0) (GL11/glCl

浏览 4修改于2016-03-23得票数 1

回答已采纳

1回答

如何避免爬虫中的重复

我用python中的scrapy框架编写了一个爬虫来选择一些链接和元tags.It，然后爬行起始urls，并将数据以JSON编码的格式写入到file.The上。问题是，当爬虫使用相同的起始urls运行两三次时，文件中的数据会被复制.To避免这一点我使用了scrapy中的一个下载中间件，即：但这不起作用，爬虫仍然会产生相同的结果，并在运行两次时将其附加到文件中i

浏览 1修改于2012-07-11得票数 2

1回答

Python Scrapy代理在几轮之后就死了？

我想建立一个与scrapy亚马逊爬虫。我不明白为什么..。用户代理工作，代理也旋转，他在每个下一个“死”代理上显示不同的IP和一些东西2019-11-06 21:52:40 [rotating_proxies.expire] DEBUG: Proxy<http://XXX:XXX@XXXX:8080> is DEAD 2019-11-06 21:52:40 [rot

浏览 18提问于2019-11-07得票数 1

1回答

我是否可以使用网络爬虫将新的youtube视频添加到播放列表？

我想编程一个网络爬虫去到IGN的你管页面在晚上11:00每晚，并添加过去24小时内上传的每个视频到一个新的播放列表，然后命名该播放列表与日期。例如："IGN新闻3.18.16“ 这是可以用Javascript的网络爬虫来完成的事情吗?如果是这样的话，我该怎么做呢？

浏览 5提问于2016-03-19得票数 0

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

2回答

如何从维基百科中提取统计数据？

维基百科上的所有死人都填写了以下字段：| birth_date = {{birth date|mf=yes|1847|02|11}}| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}} 我就得做个爬虫了？

浏览 0提问于2011-07-24得票数 1

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 510提问于2018-01-27

2回答

避免重定向

我正在尝试解析一个网站(用ASP编写)，爬虫被重定向到主网站。但我想要做的是解析给定的url，而不是重定向的url。有办法做到这一点吗？以下是爬虫程序的一些输出：2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (

浏览 3提问于2011-09-25得票数 2

回答已采纳

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

2回答

如何将新的URL传递给Scrapy Crawler

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0修改于2017-05-23得票数 2

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1修改于2012-12-25得票数 0

回答已采纳

1回答

如何阻止Web爬虫下载文件

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我

浏览 0提问于2013-07-27得票数 1

1回答

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

来自：User代理令牌在robots.txt中的用户代理:行中使用，以便在为站点编写爬行规则时匹配爬虫类型。有些爬虫有多个令牌，如表中所示；要应用规则，只需匹配一个爬虫令牌即可。此列表尚未完成，但涵盖了您可能在website.Full用户代理上看到的大多数爬虫字符串是对爬虫的完整描述，并显示在请求和web日志中。从上面的节选中我们可以看到，可以在robots.txt文件中使用用户代理令牌进行匹配，从而检测爬虫</

浏览 3修改于2019-11-01得票数 0

回答已采纳

1回答

在什么情况下，Scrapy抛出“连接完全关闭”错误？

在站点上运行爬虫时，我会多次收到以下错误消息：在不同的站点上运行爬虫时，我不会发现这个错误，而且它试图访问的页面我可以通过浏览器或curl访问。要澄清的是，完全错误的意思是： 2016-11-17 20:59:38 [scrapy] ERROR: Error downloading <GET http:/&#x

浏览 2修改于2016-11-17得票数 9

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

用Java 11实现风暴爬虫

如何在node.js中发出https请求

使用http 405代码的页的风暴爬虫解决方案

禁用垃圾收集？

如何安全地将我在AWStats中找到的这些in列入黑名单？

使用lwjgl从Clojure REPL创建OpenGL窗口

如何避免爬虫中的重复

Python Scrapy代理在几轮之后就死了？

我是否可以使用网络爬虫将新的youtube视频添加到播放列表？

爬虫和爬虫架构

如何从维基百科中提取统计数据？

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

避免重定向

如何在docker中使用此文件？

如何将新的URL传递给Scrapy Crawler

基于PHP的Web爬虫或基于JAVA的Web爬虫

如何阻止Web爬虫下载文件

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

在什么情况下，Scrapy抛出“连接完全关闭”错误？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐