搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

未知302重定向到根。爬行器不能继续前进

当我注意到Facebook、Debugger和其他爬虫工具无法解析我的页面时，整个事情就开始了。Facebook抛出一个关键错误，称它无法遵循重定向。我相信搜索引擎机器人也达到了同样的目的。案例1:试图访问根目录，这是我在网络嗅探器模拟器中得到的案例1意见：案例2意见：正如您可能已经知道的，完全相同的情况1。再

浏览 1提问于2013-02-19得票数 0

回答已采纳

1回答

一个典型的http请求在EC2上生成多少数据传输？

我正试图评估在EC2上运行爬虫所需的费用。这个说数据传输是免费的，而数据传输不是免费的。因此，如果我向某个站点发出HTTP GET请求，使用GET头长度，比如200个字节，响应20000字节是否有案例研究，或解释他们如何衡量它？

浏览 3提问于2014-11-14得票数 0

回答已采纳

2回答

对于快速持久缓存，有什么好的解决方案吗？

我需要真正快速和持久的缓存为我的网络爬虫。它不需要像Java语言中的ConcurrentSkipListSet那样快，但肯定不能像我尝试过的那样使用基于散列索引的表的MySQL。有没有人知道或听说过对这个案例有用的东西？谢谢你的任何提示。

浏览 3修改于2014-05-15得票数 6

回答已采纳

1回答

对于SEO，图像名称应该包含页面标题(这会给图像提供更多的描述)

如果图像被命名为多伦多-市中心-Place1Name或Place1Name在这里，我们假设爬虫将根据页面描述确定上下文

浏览 0修改于2016-12-23得票数 2

1回答

用于Angular.js创建的自定义元素的SEO

我有一个用户案例，我们在服务器上呈现角2应用程序，以便Google能够看到DOM。<body></body> 这对爬虫有效吗？这会影响我的整体评级吗？

浏览 0修改于2016-11-29得票数 2

回答已采纳

1回答

NUXT构建vs生成和站点地图

我的案例:我想拥有动态路径(例如:页面/1)。我想有可访问的网页，也没有JS，因为搜索引擎优化和爬虫。所以我用asyncData加载数据。没事的。我有nodejs主机。

浏览 1提问于2021-01-15得票数 0

回答已采纳

1回答

IMAP UID的可靠性如何？

我正在编写一个IMAP爬虫，它是开源应用程序的一部分，对于增量爬行，我想使用消息UID来确定我是否已经看到了特定的消息。现在我找到了2007年的，上面说IMAP并不总是可靠的。所以我的问题是，我是必须认真对待UIDNOTSTICKY=true的案例，还是具有非粘性UID的IMAP服务器是遗留的东西，不再(广泛)使用？

浏览 0提问于2010-12-21得票数 4

回答已采纳

1回答

使用python twisted编写web爬虫

我正在使用Twisted编写一个由Selenium驱动的网络爬虫。我的想法是，我为一个扭曲的客户机和一个扭曲的服务器产生扭曲的线程，后者将代理HTTP请求到服务器。问题是twisted是允许这种类型的应用程序，还是被认为只将Client和Server作为不同的进程运行(因为这是我在任何地方都看到的典型案例)。

浏览 1提问于2015-04-14得票数 2

1回答

管道中的IO操作？

这可能是一个相当晦涩难懂的案例，但请耐心听我说。我正在编写一个网络爬虫，需要下载网页并将其保存到本地磁盘。同时，作为一个爬虫，它需要找到每个页面上的超链接，并下载这些链接的页面。

浏览 0提问于2013-04-16得票数 2

回答已采纳

1回答

Schemacrawler根据表的数量对大型模式进行分区

我有一个使用案例，我使用schemacrawler从不同的数据库抓取元数据。然后在我的下游系统中使用这些元数据。我有很多可变大小的数据库需要抓取。表的数量从20到2000个不等。现在，我正在使用Schemacrawler API来运行爬虫。如果源数据库中的表数更多，我的应用程序就会崩溃，因为它试图一次抓取所有的表。在schemacrawler中有没有办法批量抓取数据库。

浏览 38提问于2020-11-02得票数 0

1回答

如何在满足管道条件后立即停止所有蜘蛛和引擎？

有几个蜘蛛，还有一个几个级联管道，用于所有爬虫传递的所有项目。管道组件之一查询google服务器的地理编码地址。我曾核对过其他类似的问题，但这些问题的答案并没有奏效：

浏览 5修改于2017-05-23得票数 14

回答已采纳

3回答

用PHP解释JavaScript

的基本原理：--我正在用进行屏幕抓取，并且遇到了许多情况，其中的数据是由JavaScript在前端生成的，我想避免编写专门的过滤函数，以便在每个案例的基础上对JavaScript进行操作，因为这需要很多时间否决：--我不知道这个问题有什么争议，现代的网络爬虫都知道，唯一的区别是它们往往不是用PHP编写的。1

浏览 6修改于2010-12-19得票数 15

回答已采纳

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 494提问于2018-01-27

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

1回答

Laravel应用程序Dusk对PHPUnit

现在我读到Dusk为DOM测试提供了一个爬虫。我是否可以同时使用这两种方法(可能吗？)还是我应该迁移到杜斯克？从现在开始，由于50:50的测试案例，我有点卡住了，因为我也需要测试DOM是否提供了正确的信息。提前谢谢你！

浏览 6提问于2020-05-14得票数 1

回答已采纳

3回答

我有一个相对简单的案例。我基本上想存储各种网站之间的链接数据，不想限制域名。我知道我可以使用一些http客户端库编写自己的爬虫程序，但我觉得我会做一些不必要的工作--确保页面不会被多次检查，弄清楚如何读取和使用robots.txt文件，甚至可能尝试使其并发和分布式，我确信还有很多其他我还没有想到的事情大多数爬虫似乎认为你是在为搜索索引网页，这不好，我需要一些可定制的东西。我希望将链接信息存储在数据库中，因此我需要能够指定链接在框架中的存储方式。

浏览 0提问于2009-08-20得票数 2

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0修改于2017-05-23得票数 2

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1修改于2012-12-25得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

未知302重定向到根。爬行器不能继续前进

一个典型的http请求在EC2上生成多少数据传输？

对于快速持久缓存，有什么好的解决方案吗？

对于SEO，图像名称应该包含页面标题(这会给图像提供更多的描述)

用于Angular.js创建的自定义元素的SEO

NUXT构建vs生成和站点地图

IMAP UID的可靠性如何？

使用python twisted编写web爬虫

管道中的IO操作？

Schemacrawler根据表的数量对大型模式进行分区

如何在满足管道条件后立即停止所有蜘蛛和引擎？

用PHP解释JavaScript

爬虫和爬虫架构

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

如何在docker中使用此文件？

Laravel应用程序Dusk对PHPUnit

可扩展/可定制的Web爬行引擎/框架/库？

如何将新的URL传递给Scrapy Crawler

基于PHP的Web爬虫或基于JAVA的Web爬虫

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐