搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

网页爬虫超载网站

我们有一个问题，我们的一些网站，雅虎，谷歌，Yandex，必应Ahrefs和其他所有索引网站在同一时间，这杀死了网站。我们已经尝试过将站点放在cloudflare后面，但是这也没有什么区别，我们所能做的就是阻止源is。目前，我们正在使用Nagios监视站点，当站点变得没有响应能力时，nginx就会重新启动nginx，但这似乎远远不够理想。Robots.txt文件在这里：-Di

浏览 5修改于2017-07-04得票数 1

1回答

如何分析网页爬虫？

我有一个稍微不同的版本的网络爬虫。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择：同时运行它们，比较所用的时间。

浏览 4提问于2012-09-15得票数 0

1回答

让网页爬虫解析网站

我试着告诉爬虫从它找到的网站上阅读文本，并搜索一个给定的单词。

浏览 2修改于2017-05-23得票数 1

回答已采纳

2回答

网页爬虫摘录链接元素

我想从网页中提取元素。该函数返回完整的html文件，我只想要内部和外部链接将它们保存在数据库中。

浏览 0修改于2018-07-01得票数 0

1回答

C# -用网页爬虫下载网站ajax页面

我用c# (使用Microsoft WebCrawler)编写了一个简单的网络爬虫项目，它可以下载特定站点的内容。正如Marcom建议的那样，我从我的网页爬虫和网页浏览器上看到了小提琴的响应。当我的网页爬虫导航到网页时，他会在与网页相反的一个仿真器上接收假信息。有线索吗？

浏览 1修改于2011-08-09得票数 0

2回答

我如何使这个网页爬虫无限？

这是我正在尝试编写的代码(一个web爬虫，它遍历一个链接列表，其中第一个链接是原始链接，然后站点上的链接被追加到列表中，for循环继续遍历列表，因为某种原因，当大约150个链接被追加和打印时，脚本一直停止

浏览 1修改于2015-08-18得票数 0

回答已采纳

1回答

使用python的动态网页爬虫

所以，经过4周的试验后，我来到这里，所有的问题都归结于我这个爬虫似乎无法阅读网页的内容，即使在所有的喧闹之后。最初的问题是，所有的信息没有出现在一个页面上，所以使用按钮导航网站本身的内容.爬虫无法读取页面的原因似乎是robot.txt文件(单个页面的爬虫等待时间为3600页，文章大约有10页，这是可以忍受的，但如果它说100+会发生什么情况)，我不知道如何绕过它或绕过它。

浏览 5提问于2020-08-31得票数 0

回答已采纳

1回答

如何用网页爬虫打印网页上的所有标题？

这是我写的，但它不起作用(我只想要标题，或“时间”的巴士在网页上)； from bs4 import BeautifulSoup def RuterBuss(max_pages

浏览 1修改于2016-12-14得票数 2

1回答

抓取网页爬虫教程中的错误

我正在做这个简单的刮刮爬虫教程给在刮刮官方网站，但得到一些错误。我第一次做这件事，对这一切一无所知。我需要在我的应用程序中实现web爬虫，我发现刮伤可以满足我的需求，所以从教程开始，并在我粘贴到下面的错误后结束。有谁能解释一下密码有什么问题吗..？这是我的爬虫代码 allowed_domains

浏览 0修改于2016-02-21得票数 3

回答已采纳

1回答

对于那些希望自己的网站尽可能被发现的人(而谁不想发现呢？)，微软的Azure网站(azurewebsites.net)是否是一个可行的网站托管域？除了URL之外，这两个站点都是完全相同的；每当我更新代码时，我都会将站点重新发布到/在这两个地方。很明显，它们都有相同的H1和H2元素。在搜索我的H1标签中的值/内容时，我发现我的.com站点在谷歌上列出了#3，在必应和雅虎上都列出了#2；OTOH，我的azurewebsites.net站点根本没有出现在第一个页面上，在任何一个页面中

浏览 0提问于2013-10-23得票数 1

回答已采纳

2回答

网页爬虫将网页或图像存储到文件夹中。

我正在使用谷歌Abot网络爬虫，并想知道如何存储单独的网页或只是图像到一个文件夹。我查看了论坛，其中显示了以下内容。但是我不能多次存储在同一个文件中，这是否意味着每次我必须创建一个不同的文件名，还是有一种更简单的方式来存储网页。另外，如果我只想存储图像，我应该使用什么选项？crawledPage.HtmlDocument.Save(@"C://TESTCRAWL/FILE"+rnd.Next(1,100).ToString()+".html"，System.Text.En

浏览 0修改于2015-04-14得票数 1

回答已采纳

1回答

使网页爬虫在本地下载多个网页

我希望我的网页爬虫下载所有浏览网址的本地。在该分钟，它将下载每一个网站，但随后覆盖每个网站访问的本地文件。爬虫从www.bbc.co.uk开始，下载该文件，然后当它碰到另一个文件时，它用下一个URL覆盖该文件。如何将它们下载到单个文件中，以便在最后有一个集合？下面有这段代码，但我不知道从哪里开始。括号( URL )中的URL是一个字符串，用于操作所有浏览过的网页。

浏览 4提问于2015-04-14得票数 0

回答已采纳

2回答

浏览器限制会影响网页爬虫吗？

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

为什么这个简单的网页爬虫会失败？

我正在用一个非常简单的代码片段测试HtmlAgilityPack，但是它仍然失败，我不明白为什么。 var node2 = htmldoc2.DocumentNode.SelectSingleNode("//head/title"

浏览 16提问于2020-09-04得票数 0

回答已采纳

3回答

具有独立网页爬虫的替代搜索引擎

结果必须从它自己的网络爬虫和数据库中提取。我发现： Peekier.com和mojeek.com满足(1)但不满足(2)。

浏览 0修改于2019-05-23得票数 3

回答已采纳

1回答

“无限滚动网页”网络爬虫

我不知道如何抓取无限滚动页面(例如)，有没有人可以建议我哪一个"python工具箱“可以做到这一点或例子。

浏览 1提问于2014-08-01得票数 1

2回答

为什么我的网页爬虫方法找不到所有的链接？

我试图创建一个简单的网络爬虫，所以我写了如下：require 'nokogiri' def get_links

浏览 1修改于2015-04-13得票数 0

回答已采纳

1回答

创建一个查找和处理用户输入的网页爬虫

到目前为止，我所拥有的只是带有文章的网页和我用PHP创建的自定义搜索页面。有什么建议吗？

浏览 4提问于2015-10-02得票数 0

回答已采纳

1回答

使用网页爬虫/网络刮板从网站上获取cookie (PHP / cURL)

我正在寻找一种方法，从一个网站获得饼干使用一个网络爬虫。我已经调查过这种情况，但我找不到合适的图书馆/方法来解决我的问题。我并不是想从浏览器中获取cookie，而是试图从网站(任何网站)中获得它们。你好，迈克编辑：我知道关于这个爬虫库也有类似的文章。但这个帖子已经过时了，是2011年的。

浏览 2提问于2018-12-18得票数 2

回答已采纳

2回答

如何为网页爬虫和单页应用程序用户制作网站？

page_with_javascript; return serverside_render( page_with_javascript ); 这样，任何没有javascript (包括web爬虫

浏览 2提问于2016-01-07得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

网页爬虫超载网站

如何分析网页爬虫？

让网页爬虫解析网站

网页爬虫摘录链接元素

C# -用网页爬虫下载网站ajax页面

我如何使这个网页爬虫无限？

使用python的动态网页爬虫

如何用网页爬虫打印网页上的所有标题？

抓取网页爬虫教程中的错误

网页爬虫/蜘蛛索引蔚蓝网站吗？

网页爬虫将网页或图像存储到文件夹中。

使网页爬虫在本地下载多个网页

浏览器限制会影响网页爬虫吗？

为什么这个简单的网页爬虫会失败？

具有独立网页爬虫的替代搜索引擎

“无限滚动网页”网络爬虫

为什么我的网页爬虫方法找不到所有的链接？

创建一个查找和处理用户输入的网页爬虫

使用网页爬虫/网络刮板从网站上获取cookie (PHP / cURL)

如何为网页爬虫和单页应用程序用户制作网站？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐