腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用http 405代码的页的风暴
爬虫
解决
方案
www.notebooksbilliger.de/lenovo+320+15abr+80xs009bge/incrpc/topprod with status 405 in msec 53 这页似乎有
爬虫
保护是否还可以使用风暴
爬虫
和selenium一起爬行呢?
浏览 1
修改于2018-04-09
得票数 1
回答已采纳
0
回答
WordPress如何通过静态化解决高并发
爬虫
抓取问题?
负载均衡
、
爬虫
、
wordpress
、
解决方案
、
网页爬虫
wordpress如何实现全站静态化,有没有好的解决
方案
?现在装了缓存插件,但是还是无法应对大量的
爬虫
,又想被
爬虫
抓取收录,又无法应对大量的
爬虫
,加了cdn也没有好转,wordpress如何实现全站静态化,有没有好的解决
方案
?
浏览 90
提问于2025-12-15
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络
爬虫
程序,但现在我想知道:存储所有urls的最佳方法是什么,这样
爬虫
就可以一起工作,但不会干扰。 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue如果数据库最终是一致的,我如何防止多个
爬虫
获得相同的URL两次
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
5
回答
.Net 4中的多线程C#队列
我正在开发一个简单的网页
爬虫
。我搜索并找到了很多实现多线程
爬虫
的解决
方案
。创建线程安全队列以包含唯一URL的最佳方法是什么? 编辑:.Net 4.5中有没有更好的解决
方案
?
浏览 3
修改于2012-04-10
得票数 1
回答已采纳
1
回答
托管
爬虫
的最佳解决
方案
?
我有一个
爬虫
,爬行几个不同的领域为新的帖子/内容。总内容数为十万页,每天都有很多新的内容添加。因此,为了能够通过所有这些内容,我需要我的
爬虫
爬行24/7。目前,我将
爬虫
脚本托管在与
爬虫
添加内容的站点相同的服务器上,而且我只能在夜间运行cron作业来运行脚本,因为当我这样做时,网站基本上停止工作,因为脚本的加载。换句话说,一个非常糟糕的解决
方案
。所以基本上,我想知道对于这种解决
方案
,我的最佳选择是什么? 是否有可能继续从同一主机运行
爬虫
,但在某种程
浏览 3
修改于2014-03-06
得票数 10
回答已采纳
3
回答
如何让
爬虫
忽略我的免责声明
问题是,我根本不想让
爬虫
遇到免责声明。它所做的就是忽略了Googlebot用户代理。这是唯一的解决
方案
吗?通过
爬虫
的UA来识别
爬虫
?如何检测cookie -如果我没有cookie,这意味着它是一个
爬虫
? 谢谢
浏览 1
提问于2011-12-14
得票数 1
回答已采纳
2
回答
如何允许用户复制我的电子邮件地址而不是
爬虫
?
我有一个问题,一些
爬虫
爬虫
从我的网站上的电子邮件地址,并发送垃圾邮件。解决
方案
1 .name::after {} content: '.com';
浏览 3
提问于2020-09-15
得票数 2
回答已采纳
7
回答
对使用Lucene或Solr的
爬虫
工具的建议?
对于HTML和XML文档(本地或基于web),什么是一个好的
爬虫
(
爬虫
),并且在Lucene / Solr解决
方案
空间中工作得很好?可以是基于Java的,但不一定是。
浏览 13
提问于2008-11-12
得票数 16
回答已采纳
1
回答
将默认表属性分配给
爬虫
创建的表
我试图将表属性分配给用
爬虫
创建的表。我检查了
爬虫
创建界面中的选项,但没有看到这样的选项。如果这在默认的
爬虫
功能中是不可能的,那么将表属性附加到使用某个
爬虫
创建的每个表上的可行方法是什么?编辑:一个可能的解决
方案
是创建一个lambda函数,检查胶水表中是否存在自定义参数,如果没有创建它们。
浏览 2
修改于2021-01-25
得票数 0
回答已采纳
1
回答
如何在AJAX网站上实现结构化数据进行SEO?
我们有一个网站,所有的数据都是通过javascript加载,我称之为AJAX网站,搜索引擎优化是当前的大任务,我结束了我自己的解决
方案
后,通过网络搜索:,但现在我被结构化数据:,因为它不需要的最终用户,我想要一个解决
方案
,像我自己的解决
方案
,只提供
爬虫
这样的信息。问:是否可以在页面中生成仅供
爬虫
使用的JSON-LD信息?
浏览 0
提问于2015-05-11
得票数 1
1
回答
Laravel删除站点地图生成器中的重复urls
我有这个GenerateSitemap.php文件,我可以在其中配置
爬虫
程序,但我不知道如何让
爬虫
程序删除一些特定的URL,例如() () ()。我将spatie in laravel用于此解决
方案
,并尝试下面的解决
方案
,但它不起作用 { SitemapGenerator
浏览 2
修改于2021-09-22
得票数 0
4
回答
是否存在任何开放的、简单的可扩展的网络
爬虫
?
我寻找一个网络
爬虫
解决
方案
,可以是足够成熟的,可以简单地扩展。我对以下特性感兴趣..。
爬虫
应该能够为我探索Web的一部分,并且它应该能够决定哪些站点符合给定的标准 上面的这些事情可以一个一个地完成,而无需付出很大的努力,但我对提供可定制的、可扩展的
爬虫
的任何解决
方案
都感兴趣。
浏览 1
修改于2021-02-13
得票数 7
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决
方案
会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
4
回答
如何在Python中每隔十分钟执行一个程序一整天
我正在工作的网络
爬虫
应用程序下载股票价格每十分钟。我能够提取引用,但我不确定如何安排它在一整天每十分钟运行一次。请给我建议要么是时间循环的东西,要么是网络
爬虫
应用程序本身的解决
方案
。我需要一个在Windows上工作的解决
方案
。
浏览 1
修改于2015-03-05
得票数 2
3
回答
如何重定向特定IP地址
我正在寻找一个解决
方案
,可以嵌入到网页HTML,以便蜘蛛被重定向离开之前,影响我的页面访问量。比如说javascript,
爬虫
的IP地址,以及
爬虫
的引用url,这是可能的吗?
浏览 0
提问于2013-12-13
得票数 0
1
回答
如何使用PhantonJS Scraper在页面函数中访问Apify SDK
我注意到Apify
爬虫
上下文确实公开了PhantonJS对象,而其他
爬虫
都是这样做的。 一种可能的解决
方案
是在pageFunction中使用并使用。
浏览 1
提问于2020-01-03
得票数 1
1
回答
如何解决“没有模块名为proxy”的错误?
我正在学习
爬虫
,在一些基本的
爬虫
之后,我尝试从github下载谷歌学者
爬虫
大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决
方案
,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。
浏览 3
修改于2018-03-07
得票数 0
5
回答
如何使jar文件在启动时运行&以及何时退出?
更多详情:
爬虫
是用java编写的,因此现在它是一个jar。此外,我希望它继续运行,即使当我注销。我不确定这是可能的,但大多数时候我都是注销的,而且我仍然希望它能够爬行。 有什么想法吗?只是在寻找最简单的解决
方案
。
浏览 0
修改于2012-02-01
得票数 29
回答已采纳
1
回答
爬虫
的Jetty - capping会话/匿名
我正在寻找一种方法来限制在我的webapp (在Jetty上运行)上为
爬虫
和/或匿名用户创建的会话数量。我想减少应用程序上的会话数量。有多个为爬网程序创建的会话,因为它们中的许多不尊重cookies。tomcat (‘
爬虫
会话阀’)已经有一个解决
方案
了,但我需要Jetty的解决
方案
。谢谢,JB
浏览 0
提问于2013-07-23
得票数 0
回答已采纳
2
回答
最佳网络
爬虫
-用于内容提取
结构化网络
爬虫
解决
方案
,以获取特定网站的内容,如ebay?
浏览 0
修改于2013-07-16
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券