腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(44)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何在Google Cloud中计划网站爬行?
我想在谷歌云中存储一个
网络
爬行
软件
尖叫
青蛙
的副本。这将位于Compute引擎实例或Kubernetes容器中。我可以使用linux shell在我的计算机上本地运行
尖叫
青蛙
爬行: screamingfrogseospider --crawl https://www.example.com --headless
浏览 2
修改于2020-04-04
得票数 0
1
回答
用于抓取网站状态、标题和h1的大型网站的网站
爬虫
我想抓取大网站(例如,与1000,000内部链接),这是太多的工具,我现在使用(
尖叫
青蛙
和Xenu)。你知道任何PHP
爬虫
,它发送有关链接到数据库的数据,并可以为我提供解决方案?
浏览 3
提问于2014-09-11
得票数 0
1
回答
被恶意
软件
入侵的网站
Sucuri站点检查告诉我我的站点被恶意
软件
感染了。
尖叫
的
青蛙
告诉我mywebsite.com/about被永久移动了(301) 知道怎么解决这个问题吗?
浏览 0
修改于2015-10-14
得票数 0
回答已采纳
1
回答
为什么我的javascript呈现的navbar不被爬行?
callback(); dataType: 'html'} </ul>
浏览 4
提问于2016-08-12
得票数 0
1
回答
错误地生成额外的分页页
我们不知道这些是从哪里来的,他们不提供任何其他功能,除了风险我们的搜索引擎优化和混乱的任何网站
爬虫
报告。 一只
尖叫
的
青蛙
爬行返回超过4,000页,因为这些参数被附加到这么多页面。
浏览 0
提问于2016-11-03
得票数 0
1
回答
HTTP重定向的Cyrillic :这个例子工作,没有URL被编码。为什么?
http://goo.gl/m5fDF0 我运行了不同的工具,包括谷歌Chrome开发者,位置字段肯定是编码的,但使用卷发或
软件
,比如
尖叫
青蛙
,返回一个用西里尔字符写的位置。
浏览 0
修改于2021-10-07
得票数 1
2
回答
刮除CrawlSpider: URL深度
response.meta.get('depth', 0)在这里,比较爬行统计(同一网站,限制在第一至500页)之间的
爬虫
和
尖叫
青蛙
我想知道是否有人能指出我正在做的错误,或者帮助我提出如何存储
爬虫
通过的所有页面的建议,以达到当前的页面。可视化将如下所示:
浏览 4
修改于2020-02-21
得票数 0
回答已采纳
1
回答
保护nginx免受
尖叫
的
青蛙
和太快的
爬虫
(所以没有真正的ddos,但接近)
我们已经看到了几个操作,其中一个简单的
尖叫
青蛙
操作几乎会关闭我们的服务器(它不会停止,但它会减慢到几乎停止,PHP进程变得疯狂)。我们运行Magento ;)但是我想知道有没有更严格或者更好的方法来踢掉gready爬行者和
尖叫
的
青蛙
爬行者。
浏览 1
提问于2015-10-05
得票数 0
1
回答
将Snort IDS与Webcrawler结合使用
我完全是Snort IDS
软件
和IDS概念的新手,我需要知道是否可以使用Snort来检测隐形-恶意-
网络
爬虫
!换句话说,我可以定义snort规则来检测恶意
网络
爬虫
吗?!!
浏览 4
修改于2014-09-21
得票数 0
1
回答
软件
/ API跟踪
网络
搜索中的新概念或想法
是否有谷歌、Twitter或其他搜索引擎或社交
网络
的
软件
或API来跟踪
网络
搜索中出现的或新的概念/想法(单词)或新组合,但不一定是“时髦的主题”?接受任何特定的网页
爬虫
,机器人,人工智能,新浏览器,API,
软件
,查询语言,图形
软件
等的建议。
浏览 0
提问于2019-03-06
得票数 1
1
回答
生成站点上使用的所有锚的列表的Web
爬虫
工具
我正在寻找一个
网络
爬虫
工具,将通过所有锚文本在整个网站上,并生成一个列表供我检查。我想确保所有的锚在上下文之外都是描述性的。我不在乎它是基于
网络
的还是基于桌面的
软件
。
浏览 0
提问于2011-12-13
得票数 1
1
回答
如何从Nutch爬行网页数据库中获取XML格式的信息
Nutch为我提供了优秀的
网络
爬虫
,但我想要非常具体的信息,如书名,书价,ISBN,作者等。如何从
爬虫
页面提取这些信息?如果可能的话,我想以XML格式获取这些信息。用其他开源
软件
能更好地做到这一点吗?
浏览 0
修改于2013-04-10
得票数 1
回答已采纳
2
回答
如何检测正在使用哪个电子商务
软件
我正在C#中制作一个
网络
爬虫
,它需要找到网站商店。我的问题是,我需要检测网页是否是一个
网络
商店。如果是的话,我需要知道它使用的是哪种类型的电子商务
软件
。但问题是,我不知道如何在源代码中检测到它。我也只有一个Chrome插件,名为builtwith,可以检测各种
软件
。但我还没有弄清楚他们是如何做到的。 如果有人能帮我解决这个问题,那就太好了
浏览 4
提问于2016-08-31
得票数 1
回答已采纳
3
回答
如何使用Java创建PostgreSQL连接池?
是
软件
、驱动程序还是数据库?我需要一个代码示例。我正在做一个
网络
爬虫
,它有很多到数据库的连接。
浏览 0
修改于2011-06-23
得票数 16
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取
网络
上的图像。然后,我们将根据Hadoop中的Map/Reduce工具,在HDFS中存储的图像上运行我们自己的索引
软件
。除了我们自己的索引之外,我们不会使用其他索引。哪种
爬虫
最适合抓取图像?哪种
爬虫
最适合分布式爬行系统,在这种系统中我们使用多台服务器一起进行爬行?Nutch:众所周知的规模。我想使用它,因为它是一个pyth
浏览 5
修改于2009-07-28
得票数 3
3
回答
网络
爬虫
反馈?
有时我需要一个目录中的一堆URL,有时我需要一个XML站点地图(是的,我知道有很多
软件
用于这个和在线服务)。 可以建立JDBC连接,以将链接存储在数据库中,而不是跟踪对象中已处理的链接和排队链接。如果存在上述限制,这
浏览 12
修改于2010-05-29
得票数 2
回答已采纳
1
回答
如何在PHP基础
软件
中添加“用户帐号”功能?
我把它放在我自己的
网络
主机上。此
软件
创建时没有任何“用户帐户”功能-它只是一个实例,甚至没有受到登录/密码按钮的适当保护。我想完成这个云托管
软件
的开发,然后能够以每月订阅的方式将其出售给人们。显然,我需要一种方法来为每个注册的人创建一个帐户-这样他们每个人都可以访问他们自己的
软件
帐户,以及他们想要进入
软件
的任何网站的数据库(换句话说,就是每个云
软件
是如何工作的)。什么类型的程序&
浏览 0
提问于2015-10-28
得票数 0
1
回答
我可以使用PowerDNS作为HTTP负载均衡器吗?
我想服务于多个web应用程序,并通过测试
网络
中的域名提供它们。因此,我想使用PowerDNS,因为它似乎有一个很好的API。web应用程序将由一小群
爬虫
来访问。PowerDNS可以指向负载较少的服务器,还是需要另一段
软件
来实现这一点?我需要找什么?比如"HTTP负载均衡器“?这样的
软件
如何与DNS一起工作呢?
浏览 0
提问于2016-02-23
得票数 0
回答已采纳
1
回答
如何使用regex从html youtube页面中获取匹配组之间的文本
我用
尖叫
的
青蛙
刮youtube视频关键词。我知道这个
软件
会显示一个选项卡,准确地捕捉到这个元信息,但它只显示了160个字符,所以具有更大数量关键字的视频不会在其中显示。无论如何,我也尝试通过
软件
上的自定义提取特性使用CSS选择器和Xpath,但是没有得到任何东西。 我最后能想到的是使用自定义提取中的正则表达式来直接从html页面捕获和提取关键字。
浏览 1
修改于2017-06-07
得票数 0
1
回答
Python urllib2 crawler崩溃路由器
这是因为一个写得不好的
爬虫
吗?有没有办法在不增加调度差距的情况下减少请求/
网络
负载? 难道P2P
软件
不能成功地发送更多的请求吗?
浏览 0
提问于2011-03-14
得票数 0
第 2 页
第 3 页
点击加载更多
领券