搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何在Google Cloud中计划网站爬行？

我想在谷歌云中存储一个网络爬行软件尖叫青蛙的副本。这将位于Compute引擎实例或Kubernetes容器中。我可以使用linux shell在我的计算机上本地运行尖叫青蛙爬行： screamingfrogseospider --crawl https://www.example.com --headless

浏览 2修改于2020-04-04得票数 0

1回答

用于抓取网站状态、标题和h1的大型网站的网站爬虫

我想抓取大网站(例如，与1000,000内部链接)，这是太多的工具，我现在使用(尖叫青蛙和Xenu)。你知道任何PHP爬虫，它发送有关链接到数据库的数据，并可以为我提供解决方案？

浏览 3提问于2014-09-11得票数 0

1回答

被恶意软件入侵的网站

Sucuri站点检查告诉我我的站点被恶意软件感染了。尖叫的青蛙告诉我mywebsite.com/about被永久移动了(301) 知道怎么解决这个问题吗？

浏览 0修改于2015-10-14得票数 0

回答已采纳

1回答

为什么我的javascript呈现的navbar不被爬行？

callback(); dataType: 'html'} </ul>

浏览 4提问于2016-08-12得票数 0

1回答

错误地生成额外的分页页

我们不知道这些是从哪里来的，他们不提供任何其他功能，除了风险我们的搜索引擎优化和混乱的任何网站爬虫报告。一只尖叫的青蛙爬行返回超过4,000页，因为这些参数被附加到这么多页面。

浏览 0提问于2016-11-03得票数 0

1回答

HTTP重定向的Cyrillic :这个例子工作，没有URL被编码。为什么？

http://goo.gl/m5fDF0 我运行了不同的工具，包括谷歌Chrome开发者，位置字段肯定是编码的，但使用卷发或软件，比如尖叫青蛙，返回一个用西里尔字符写的位置。

浏览 0修改于2021-10-07得票数 1

2回答

刮除CrawlSpider: URL深度

response.meta.get('depth', 0)在这里，比较爬行统计(同一网站，限制在第一至500页)之间的爬虫和尖叫青蛙我想知道是否有人能指出我正在做的错误，或者帮助我提出如何存储爬虫通过的所有页面的建议，以达到当前的页面。可视化将如下所示：

浏览 4修改于2020-02-21得票数 0

回答已采纳

1回答

保护nginx免受尖叫的青蛙和太快的爬虫(所以没有真正的ddos，但接近)

我们已经看到了几个操作，其中一个简单的尖叫青蛙操作几乎会关闭我们的服务器(它不会停止，但它会减慢到几乎停止，PHP进程变得疯狂)。我们运行Magento ;)但是我想知道有没有更严格或者更好的方法来踢掉gready爬行者和尖叫的青蛙爬行者。

浏览 1提问于2015-10-05得票数 0

1回答

将Snort IDS与Webcrawler结合使用

我完全是Snort IDS软件和IDS概念的新手，我需要知道是否可以使用Snort来检测隐形-恶意-网络爬虫！换句话说，我可以定义snort规则来检测恶意网络爬虫吗?!！

浏览 4修改于2014-09-21得票数 0

1回答

软件/ API跟踪网络搜索中的新概念或想法

是否有谷歌、Twitter或其他搜索引擎或社交网络的软件或API来跟踪网络搜索中出现的或新的概念/想法(单词)或新组合，但不一定是“时髦的主题”？接受任何特定的网页爬虫，机器人，人工智能，新浏览器，API，软件，查询语言，图形软件等的建议。

浏览 0提问于2019-03-06得票数 1

1回答

生成站点上使用的所有锚的列表的Web爬虫工具

我正在寻找一个网络爬虫工具，将通过所有锚文本在整个网站上，并生成一个列表供我检查。我想确保所有的锚在上下文之外都是描述性的。我不在乎它是基于网络的还是基于桌面的软件。

浏览 0提问于2011-12-13得票数 1

1回答

如何从Nutch爬行网页数据库中获取XML格式的信息

Nutch为我提供了优秀的网络爬虫，但我想要非常具体的信息，如书名，书价，ISBN，作者等。如何从爬虫页面提取这些信息？如果可能的话，我想以XML格式获取这些信息。用其他开源软件能更好地做到这一点吗？

浏览 0修改于2013-04-10得票数 1

回答已采纳

2回答

如何检测正在使用哪个电子商务软件

我正在C#中制作一个网络爬虫，它需要找到网站商店。我的问题是，我需要检测网页是否是一个网络商店。如果是的话，我需要知道它使用的是哪种类型的电子商务软件。但问题是，我不知道如何在源代码中检测到它。我也只有一个Chrome插件，名为builtwith，可以检测各种软件。但我还没有弄清楚他们是如何做到的。如果有人能帮我解决这个问题，那就太好了

浏览 4提问于2016-08-31得票数 1

回答已采纳

3回答

如何使用Java创建PostgreSQL连接池？

是软件、驱动程序还是数据库？我需要一个代码示例。我正在做一个网络爬虫，它有很多到数据库的连接。

浏览 0修改于2011-06-23得票数 16

回答已采纳

2回答

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。然后，我们将根据Hadoop中的Map/Reduce工具，在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外，我们不会使用其他索引。哪种爬虫最适合抓取图像？哪种爬虫最适合分布式爬行系统，在这种系统中我们使用多台服务器一起进行爬行？Nutch:众所周知的规模。我想使用它，因为它是一个pyth

浏览 5修改于2009-07-28得票数 3

3回答

网络爬虫反馈？

有时我需要一个目录中的一堆URL，有时我需要一个XML站点地图(是的，我知道有很多软件用于这个和在线服务)。可以建立JDBC连接，以将链接存储在数据库中，而不是跟踪对象中已处理的链接和排队链接。如果存在上述限制，这

浏览 12修改于2010-05-29得票数 2

回答已采纳

1回答

如何在PHP基础软件中添加“用户帐号”功能？

我把它放在我自己的网络主机上。此软件创建时没有任何“用户帐户”功能-它只是一个实例，甚至没有受到登录/密码按钮的适当保护。我想完成这个云托管软件的开发，然后能够以每月订阅的方式将其出售给人们。显然，我需要一种方法来为每个注册的人创建一个帐户-这样他们每个人都可以访问他们自己的软件帐户，以及他们想要进入软件的任何网站的数据库(换句话说，就是每个云软件是如何工作的)。什么类型的程序&

浏览 0提问于2015-10-28得票数 0

1回答

我可以使用PowerDNS作为HTTP负载均衡器吗？

我想服务于多个web应用程序，并通过测试网络中的域名提供它们。因此，我想使用PowerDNS，因为它似乎有一个很好的API。web应用程序将由一小群爬虫来访问。PowerDNS可以指向负载较少的服务器，还是需要另一段软件来实现这一点？我需要找什么？比如"HTTP负载均衡器“？这样的软件如何与DNS一起工作呢？

浏览 0提问于2016-02-23得票数 0

回答已采纳

1回答

如何使用regex从html youtube页面中获取匹配组之间的文本

我用尖叫的青蛙刮youtube视频关键词。我知道这个软件会显示一个选项卡，准确地捕捉到这个元信息，但它只显示了160个字符，所以具有更大数量关键字的视频不会在其中显示。无论如何，我也尝试通过软件上的自定义提取特性使用CSS选择器和Xpath，但是没有得到任何东西。我最后能想到的是使用自定义提取中的正则表达式来直接从html页面捕获和提取关键字。

浏览 1修改于2017-06-07得票数 0

1回答

Python urllib2 crawler崩溃路由器

这是因为一个写得不好的爬虫吗？有没有办法在不增加调度差距的情况下减少请求/网络负载？难道P2P软件不能成功地发送更多的请求吗？

浏览 0提问于2011-03-14得票数 0

第 2 页第 3 页

点击加载更多

如何在Google Cloud中计划网站爬行？

用于抓取网站状态、标题和h1的大型网站的网站爬虫

被恶意软件入侵的网站

为什么我的javascript呈现的navbar不被爬行？

错误地生成额外的分页页

HTTP重定向的Cyrillic :这个例子工作，没有URL被编码。为什么？

刮除CrawlSpider: URL深度

保护nginx免受尖叫的青蛙和太快的爬虫(所以没有真正的ddos，但接近)

将Snort IDS与Webcrawler结合使用

软件/ API跟踪网络搜索中的新概念或想法

生成站点上使用的所有锚的列表的Web爬虫工具

如何从Nutch爬行网页数据库中获取XML格式的信息

如何检测正在使用哪个电子商务软件

如何使用Java创建PostgreSQL连接池？

最适合用于图像爬行的开源、可扩展爬虫

网络爬虫反馈？

如何在PHP基础软件中添加“用户帐号”功能？

我可以使用PowerDNS作为HTTP负载均衡器吗？

如何使用regex从html youtube页面中获取匹配组之间的文本

Python urllib2 crawler崩溃路由器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐