搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何处理爬虫和过时的资产？

error][yii\web\HttpException:404]"assets/7adcf7ba文件夹7adcf7ba已经不存在了，所以我认为爬虫以某种方式使用了缓存数据。我可以使用r

浏览 0提问于2017-12-04得票数 0

1回答

识别搜索爬行器

我有一个网站，统计有多少人访问了这个特定的网页，但我不想计数什么时候搜索爬虫访问他们。java是否有任何方法来识别它是爬虫还是真正的用户？使用Java7和tomcat 谢谢

浏览 2提问于2015-10-21得票数 1

回答已采纳

1回答

Symfony DomCrawler如何单击执行js代码的链接

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？我试着这样做，但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt7 DJuf"]')->link();

浏览 82修改于2021-02-07得票数 0

1回答

添加列时，应该如何更改Glue Crawler设置？

有7种数据，所以我将它们保存到S3的7个子文件夹中。我设置了下面的爬虫：-Create为每个S3路径创建一个单一模式进展得很好。但是有一天，新数据的列将被添加，您能告诉我如何更改爬虫的设置以获得包含所有列的新模式吗？

浏览 5提问于2022-11-24得票数 0

回答已采纳

1回答

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。是否有可能继续从同一主机运行爬虫，但在某种程度上平衡负载，以便脚本不会扼杀网站？我会找什么样的主机/服务器来托

浏览 3修改于2014-03-06得票数 10

回答已采纳

5回答

URL中的^符号是什么意思？

我需要从网页中抓取一些链接数据，我使用了一个简单的手写PHP爬虫。爬虫通常工作得很好；然后我找到了一个URL，如下所示：此URL在浏览器中键入时工作正常，但我的爬虫程序无法检索此页面

浏览 1提问于2010-02-25得票数 5

回答已采纳

1回答

Vue.js /Crawler无法跟踪v生成的链接

看起来谷歌爬虫无法跟踪v-for生成的链接。Google说：Not found: vergleichen/%7B%7B%20anbieter.slug%20%7D%7D和我认识的所有页面爬虫都无法抓取链接。我做错什么了？有解决办法吗？

浏览 3修改于2016-04-25得票数 1

1回答

刮除不同数量的url返回

我已经建立了一个爬虫在一个固定的领域内的螃蟹和提取url匹配的修复正则表达式。如果看到某个特定的url，则爬虫将跟踪该链接。爬虫可以很好地提取url，但是每次我运行爬虫时，它都会返回不同数量的链接，也就是说，每次运行它时，链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗？start_urls = ["http://www.xyz.nl/Vacancies"] rules = (Rule(SgmlLinkExtractor(allow=[r'\&

浏览 3修改于2014-04-07得票数 2

回答已采纳

1回答

调试Glue Crawler EOFException

我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错，但是当我检查日志时，我会收到下面的EOF异常通知。ERROR : Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27我尝试将一个简单的测试json文件上传到同一个S3桶中，并对它运行爬虫，它完美地解析了模式。因此，我不认为这是一个权限或爬虫配置的问题。对于如何进一步调试有任

浏览 9提问于2022-09-16得票数 0

回答已采纳

1回答

如何在Heroku上连续运行和托管Node.js脚本？

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。

浏览 0修改于2021-01-21得票数 1

回答已采纳

3回答

Scrapy -如何启动同一爬虫进程的多个实例？

我在启动同一爬虫的多个实例时被卡住了。我想让它像一个爬虫实例的1url一样运行。我必须处理50k个urls，为此，我需要为每个urls启动单独的实例。在我的主要爬虫脚本中，我设置了7分钟的closedpider超时，以确保我不会爬行很长时间。但之后当传递第二个url时，它会显示以下错误：ReactorNotRestartable 请建议我应该做些什么才能让它为同一个爬虫的多个实例运行

浏览 1修改于2015-11-13得票数 6

2回答

AWS Glue Crawler -单唱片CSV

例如：当我运行爬虫时，它会为每个分开的表创建文件。问题：谢谢

浏览 0修改于2018-07-31得票数 4

1回答

SharePoint 2019年爬行错误:第一次尝试爬行此对象失败。(未能从URI中退休.)

它工作正常，但当我启动爬虫时，它总是显示以下错误消息：爬虫服务帐户获得了完整的读取权限。

浏览 4修改于2020-05-19得票数 0

1回答

Drupal、Crawler和从基于查询字符串的站点迁移到清洁URL站点

来自各地的爬虫在站点上横冲直撞，导致CPU利用率很高(在任何时候都是50%)。我启用了缓存以及JavaScript和CSS聚合。/?p=1%7C26%7C31%7C33%7C2%7C7&page=publications.php 在目前的方案中，在我看来，应该只返回404，因为这根本不代表什么。事实上，爬虫现在查看的每一个“页面”90%的时间都是返回主页，因为它要么是在查看/index.

浏览 0修改于2012-03-23得票数 0

回答已采纳

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

仅带prerender.io客户端的Prerender 7 SPA

我有一个Angular 7应用程序，我正在尝试预先渲染页面以支持网络爬虫/ SEO。我决定使用prerender.io来帮助这些爬虫预先渲染、缓存和提供静态超文本标记语言，但是我很难在我的Angular 7应用程序中安装它们的中间件。根据their docs的说法，我可以安装一个中间件，当网络爬虫发出页面请求时，它会检测到，并将请求重定向到预渲染服务器。然而，我发现的所有示例都涉及到修改一些后端节点服务器。

浏览 19修改于2019-02-26得票数 1

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 510提问于2018-01-27

1回答

Scrapy response.xpath无效语法

我正在尝试从一个网站上拉价格信息(学习如何建立一个实践网络爬虫)。我正在使用scrapy来构建我的爬虫，并且在我的价格蜘蛛中，我尝试使用以下代码行来拉取价格的html字段的xpath：当我运行这个程序时，我得到了“语法错

浏览 23提问于2017-07-19得票数 1

回答已采纳

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何处理爬虫和过时的资产？

识别搜索爬行器

Symfony DomCrawler如何单击执行js代码的链接

添加列时，应该如何更改Glue Crawler设置？

托管爬虫的最佳解决方案？

URL中的^符号是什么意思？

Vue.js /Crawler无法跟踪v生成的链接

刮除不同数量的url返回

调试Glue Crawler EOFException

如何在Heroku上连续运行和托管Node.js脚本？

Scrapy -如何启动同一爬虫进程的多个实例？

AWS Glue Crawler -单唱片CSV

SharePoint 2019年爬行错误:第一次尝试爬行此对象失败。(未能从URI中退休.)

Drupal、Crawler和从基于查询字符串的站点迁移到清洁URL站点

爬虫和爬虫架构

仅带prerender.io客户端的Prerender 7 SPA

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

Scrapy response.xpath无效语法

如何在docker中使用此文件？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐