搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

使用多线程改进网络爬虫/爬虫

我已经开始学习网络爬虫，在一篇文章的帮助下，我构建了下面这个简单的爬虫。此外，如果您有任何其他建议或改进，请随时分享这个爬虫。

浏览 3修改于2014-04-16得票数 0

回答已采纳

1回答

抓痕爬虫

Scrapy 2.0.1，scrapy_crawlera 1.7.0。我认为scrapy_crawlera应该以不同的方式访问元数据()2020-04-02 06:02:36 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2020-04-02 06:02:36 [officedepot] INFO: Spider o

浏览 5提问于2020-04-02得票数 0

5回答

爬虫/爬虫IP地址的良好来源

我在哪里可以找到爬虫或蜘蛛IP地址的全面列表。我需要从谷歌，雅虎，微软和其他搜索引擎，定期爬行我的网站的IP。我不想禁用它们，因此将robots.txt文件排除在答案之外。

浏览 0修改于2014-04-15得票数 5

回答已采纳

4回答

自动网络爬虫

我正在编写一个爬虫，需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫？如果网站的结构发生变化，我是否需要重写爬虫，或者是否有其他方法？谢谢!

浏览 0提问于2012-07-20得票数 1

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1修改于2012-12-25得票数 0

回答已采纳

3回答

BeautifulSoup爬虫解析

我正在尝试使用bs4制作一个爬虫，这是我要从 <html>~~ <head>...

浏览 0修改于2018-04-12得票数 2

回答已采纳

2回答

爬虫标头

我正在创建一个简单的爬虫，它将从预定义的站点列表中抓取。我的问题很简单:有没有爬虫应该特别使用的http头？什么被认为是必需的，什么是需要定义的？

浏览 3提问于2016-11-18得票数 2

1回答

Gevent链接爬虫

在这里，我使用python和漂亮的汤编写了代码，将该页面上的所有链接解析为一个链接库。接下来，它从刚刚创建的存储库中获取任何url的内容，将这个新内容中的链接解析到存储库中，并对存储库中的所有链接继续这个过程，直到获取给定数量的链接为止。class Crawler(object):

浏览 3修改于2013-10-06得票数 1

回答已采纳

1回答

简易网络爬虫

我在python中为非常简单的网络爬虫编写了下面的程序，但是当我运行它时，它会返回'NoneType‘对象是不可调用的，您能帮我吗？

浏览 2修改于2012-12-01得票数 1

1回答

java web爬虫

嗨，谁能推荐一个简单的java网络爬虫，爬行一个网站，并返回一个链接列表的网站？不，我不需要解析器。感谢您的关注。

浏览 2提问于2011-03-01得票数 0

1回答

柔性Web爬虫

我被我的网络爬虫暂时塞住了。

浏览 1提问于2016-05-01得票数 0

回答已采纳

1回答

Web爬虫错误

所以我做了这个网络爬虫只是为了练习，我很确定我的代码是好的。我有下面的代码，我可以发布它所引起的错误，但是它实际上是值得的，所有的错误都来自请求包。我能修好这个吗？我只是想学习一些Python，如果我能创建一个功能良好的web爬虫，我会非常高兴的。

浏览 2修改于2015-12-24得票数 0

3回答

web爬虫性能

我有兴趣知道在一个非常一般的情况下(一个自制的业余网络爬虫)会有什么样的表现。更具体地说，一个爬虫程序可以处理多少个页面。

浏览 3修改于2010-09-13得票数 1

回答已采纳

10回答

如何编写爬虫？

我曾经想过尝试写一个简单的爬虫，它可以爬行，并为我们的NPO的网站和内容生成一个搜索结果列表。有没有人对如何做到这一点有什么想法？你从哪里开始抓取爬虫？它是如何传回它的发现并继续爬行的呢？

浏览 5修改于2014-04-14得票数 64

2回答

php爬虫检测

我想将爬虫重定向到我的sitemap.xml，因为这将是最新的页面，并将包含他们需要的所有信息，但我希望我的老读者在php页面上显示一个html站点地图。

浏览 0修改于2011-09-20得票数 2

回答已采纳

2回答

Android GUI爬虫

有谁知道抓取android应用程序GUI的好工具吗？我找到了，但不知道如何运行它...

浏览 0提问于2013-06-28得票数 3

回答已采纳

1回答

运行网站爬虫

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

1回答

PHP网络爬虫

我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接，并告诉我，如果链接被打破。问题不是抓取链接，而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL，因为我尝试将搜索链接的深度设置为4，但爬虫在浏览器中超时。

浏览 0修改于2017-05-23得票数 0

1回答

识别网络爬虫

以下属性是否足够可靠以识别搜索引擎web爬虫？也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话，请有人建议一个当前的爬虫名称列表，我相信必应机器人，例如，是所谓的bingbot，如提到的。

浏览 0修改于2012-08-03得票数 2

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多