搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Scrapy -基于正则表达式处理的异地请求

我必须抓取5-6个域名。我想写一个爬虫，这样离线请求如果包含一些子字符串的例子设置为aaa，bbb，ccc，如果离线url包含来自上面设置的子字符串，那么它应该被处理，而不是过滤掉。

浏览 11提问于2016-08-23得票数 0

回答已采纳

2回答

我正在尝试使用PHP和cURL库来编写我的第一个爬虫。我的目标是系统地从一个站点获取数据，这意味着代码不会跟踪给定站点上的所有超链接，而只是特定的链接。一旦完成，爬虫就会转到页面上的那些分类站点，并查看该分类是否有多个页面。如果是这样，它还会将子页面存储在另一个数组中。最后，我合并数组以获得需要抓取的站点的所有链接，并开始获取所需的数据。问题是爬虫运行了5-6分钟，然后停止，并且没有获取所有需要的子页面链接。我打印数组的内容来检查结果。我在日志中看不到任何http错误，所有站点都给出了http 200状态代码。我假设网站在

浏览 0修改于2013-01-01得票数 1

回答已采纳

2回答

有没有一种简单快速的方法来生成JavaScript？

(在5-6次点击后)页面通过执行javascript生成更多的评论。也许有某种技术，或者其他任何东西可以改进我的解决方案，我们将非常感谢您的帮助。

浏览 0修改于2015-05-04得票数 0

2回答

根据条件在现有列中添加新行

range weather flag calculation 5-6 good n 14 5-6 worse y 5 输出如下： range weather flag calculation 0-5 worse n null 0-5 worse y

浏览 11提问于2020-01-13得票数 1

回答已采纳

2回答

jq合并json数组元素

我的数据位于以下json数组中： { "min": 5, "max": 6}]1-2,5-6.[] |[ .min, .max|tostring ] | join("-")"1-2"我不知道如何从那个表达到想要的"1-2"，"5-6“。

浏览 0提问于2018-12-10得票数 3

回答已采纳

1回答

从长文本文件中的字符串数组中找到相应的数字。

我有一个文本文件，它的单个字符串格式如下，每个数字nad名称都是唯一的：我还有一个Python数组，它包含200个唯一的名称字符串，我想遍历这个数组来找到匹配的5-6位数字，并将其存储为一个元组。由于文本文件中的单个字符串有"5-6位数字“：”name“位24,000次，所以问题是不确定有什么合适的方法来做到这一点。

浏览 2提问于2021-11-23得票数 1

回答已采纳

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 538提问于2018-01-27

1回答

PHP使用解析器创建多维数组

', '116 (5-6)', 1921, 'n.A.', '128 (7-8)', 4626, 'n.A.', '140 (9-10)', 4222, 'n.A.', '116 (5-6)', 18834, 'n.A.', '128 (7-8)', 30662, 'n.A.', '140 (9-10)', 28981, '

浏览 3修改于2011-11-17得票数 1

2回答

Rails 5-6:获取完整URL

我想知道在Rails5或6中是否有获取当前访问的完整url的方法。例如： http://localhost:3000/#about http://localhost:3000/books/#reference 我尝试过request.fullpath，但它不能处理特殊字符，如来自http://localhost:3000/#about或http://localhost:3000/books/#reference的# 我只需要完整的网址，因为它是。有没有办法做到这一

浏览 12提问于2020-01-30得票数 1

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

2回答

如何将新的URL传递给Scrapy Crawler

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0修改于2017-05-23得票数 2

1回答

ANTLR3的奇怪行为

我知道为什么12*(5-6)被接受，为什么12*(5-6 )不被接受，但我无法解释这种行为。

浏览 3修改于2017-06-10得票数 1

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1修改于2012-12-25得票数 0

回答已采纳

1回答

如何阻止Web爬虫下载文件

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我

浏览 0提问于2013-07-27得票数 1

1回答

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

来自：User代理令牌在robots.txt中的用户代理:行中使用，以便在为站点编写爬行规则时匹配爬虫类型。有些爬虫有多个令牌，如表中所示；要应用规则，只需匹配一个爬虫令牌即可。此列表尚未完成，但涵盖了您可能在website.Full用户代理上看到的大多数爬虫字符串是对爬虫的完整描述，并显示在请求和web日志中。从上面的节选中我们可以看到，可以在robots.txt文件中使用用户代理令牌进行匹配，从而检测爬虫</

浏览 3修改于2019-11-01得票数 0

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

在多台计算机上运行crawler4j

我正在尝试使用实现一个爬虫。一切都很好直到：是否可以：防止根数据文件夹锁定。(因此，我可以同时运行多个爬虫副本。)

浏览 3修改于2014-05-11得票数 0

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue如果数据库最终是一致的，我如何防止多个爬虫获得相同的URL两次

浏览 5提问于2011-12-28得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Scrapy -基于正则表达式处理的异地请求

PHP cURL crawler无法获取所有数据

有没有一种简单快速的方法来生成JavaScript？

根据条件在现有列中添加新行

jq合并json数组元素

从长文本文件中的字符串数组中找到相应的数字。

爬虫和爬虫架构

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

PHP使用解析器创建多维数组

Rails 5-6:获取完整URL

如何在docker中使用此文件？

如何将新的URL传递给Scrapy Crawler

ANTLR3的奇怪行为

基于PHP的Web爬虫或基于JAVA的Web爬虫

如何阻止Web爬虫下载文件

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

在多台计算机上运行crawler4j

爬行时管理URL的常见方法是什么？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐