腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
网页
爬虫
超载网站
我们有一个问题,我们的一些网站,雅虎,谷歌,Yandex,必应Ahrefs和其他所有索引网站在同一时间,这杀死了网站。我们已经尝试过将站点放在cloudflare后面,但是这也没有什么区别,我们所能做的就是阻止源is。目前,我们正在使用Nagios监视站点,当站点变得没有响应能力时,nginx就会重新启动nginx,但这似乎远远不够理想。Robots.txt文件在这里:-Di
浏览 5
修改于2017-07-04
得票数 1
1
回答
如何分析
网页
爬虫
?
我有一个稍微不同的版本的网络
爬虫
。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择: 同时运行它们,比较所用的时间。
浏览 4
提问于2012-09-15
得票数 0
1
回答
让
网页
爬虫
解析网站
我试着告诉
爬虫
从它找到的网站上阅读文本,并搜索一个给定的单词。
浏览 2
修改于2017-05-23
得票数 1
回答已采纳
2
回答
网页
爬虫
摘录链接元素
我想从
网页
中提取元素。该函数返回完整的html文件,我只想要内部和外部链接将它们保存在数据库中。
浏览 0
修改于2018-07-01
得票数 0
1
回答
C# -用
网页
爬虫
下载网站ajax页面
我用c# (使用Microsoft WebCrawler)编写了一个简单的网络
爬虫
项目,它可以下载特定站点的内容。正如Marcom建议的那样,我从我的
网页
爬虫
和
网页
浏览器上看到了小提琴的响应。当我的
网页
爬虫
导航到
网页
时,他会在与
网页
相反的一个仿真器上接收假信息。 有线索吗?
浏览 1
修改于2011-08-09
得票数 0
2
回答
我如何使这个
网页
爬虫
无限?
这是我正在尝试编写的代码(一个web
爬虫
,它遍历一个链接列表,其中第一个链接是原始链接,然后站点上的链接被追加到列表中,for循环继续遍历列表,因为某种原因,当大约150个链接被追加和打印时,脚本一直停止
浏览 1
修改于2015-08-18
得票数 0
回答已采纳
1
回答
使用python的动态
网页
爬虫
所以,经过4周的试验后,我来到这里,所有的问题都归结于我这个
爬虫
似乎无法阅读
网页
的内容,即使在所有的喧闹之后。 最初的问题是,所有的信息没有出现在一个页面上,所以使用按钮导航网站本身的内容.
爬虫
无法读取页面的原因似乎是robot.txt文件(单个页面的
爬虫
等待时间为3600页,文章大约有10页,这是可以忍受的,但如果它说100+会发生什么情况),我不知道如何绕过它或绕过它。
浏览 5
提问于2020-08-31
得票数 0
回答已采纳
1
回答
如何用
网页
爬虫
打印
网页
上的所有标题?
这是我写的,但它不起作用(我只想要标题,或“时间”的巴士在
网页
上); from bs4 import BeautifulSoup def RuterBuss(max_pages
浏览 1
修改于2016-12-14
得票数 2
1
回答
抓取
网页
爬虫
教程中的错误
我正在做这个简单的刮刮
爬虫
教程给在刮刮官方网站,但得到一些错误。我第一次做这件事,对这一切一无所知。我需要在我的应用程序中实现web
爬虫
,我发现刮伤可以满足我的需求,所以从教程开始,并在我粘贴到下面的错误后结束。有谁能解释一下密码有什么问题吗..?这是我的
爬虫
代码 allowed_domains
浏览 0
修改于2016-02-21
得票数 3
回答已采纳
1
回答
网页
爬虫
/蜘蛛索引蔚蓝网站吗?
对于那些希望自己的网站尽可能被发现的人(而谁不想发现呢?),微软的Azure网站(azurewebsites.net)是否是一个可行的网站托管域?除了URL之外,这两个站点都是完全相同的;每当我更新代码时,我都会将站点重新发布到/在这两个地方。很明显,它们都有相同的H1和H2元素。 在搜索我的H1标签中的值/内容时,我发现我的.com站点在谷歌上列出了#3,在必应和雅虎上都列出了#2;OTOH,我的azurewebsites.net站点根本没有出现在第一个页面上,在任何一个页面中
浏览 0
提问于2013-10-23
得票数 1
回答已采纳
2
回答
网页
爬虫
将
网页
或图像存储到文件夹中。
我正在使用谷歌Abot网络
爬虫
,并想知道如何存储单独的
网页
或只是图像到一个文件夹。我查看了论坛,其中显示了以下内容。但是我不能多次存储在同一个文件中,这是否意味着每次我必须创建一个不同的文件名,还是有一种更简单的方式来存储
网页
。另外,如果我只想存储图像,我应该使用什么选项?crawledPage.HtmlDocument.Save(@"C://TESTCRAWL/FILE"+rnd.Next(1,100).ToString()+".html",System.Text.En
浏览 0
修改于2015-04-14
得票数 1
回答已采纳
1
回答
使
网页
爬虫
在本地下载多个
网页
我希望我的
网页
爬虫
下载所有浏览网址的本地。在该分钟,它将下载每一个网站,但随后覆盖每个网站访问的本地文件。
爬虫
从www.bbc.co.uk开始,下载该文件,然后当它碰到另一个文件时,它用下一个URL覆盖该文件。如何将它们下载到单个文件中,以便在最后有一个集合?下面有这段代码,但我不知道从哪里开始。括号( URL )中的URL是一个字符串,用于操作所有浏览过的
网页
。
浏览 4
提问于2015-04-14
得票数 0
回答已采纳
2
回答
浏览器限制会影响
网页
爬虫
吗?
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
为什么这个简单的
网页
爬虫
会失败?
我正在用一个非常简单的代码片段测试HtmlAgilityPack,但是它仍然失败,我不明白为什么。 var node2 = htmldoc2.DocumentNode.SelectSingleNode("//head/title"
浏览 16
提问于2020-09-04
得票数 0
回答已采纳
3
回答
具有独立
网页
爬虫
的替代搜索引擎
结果必须从它自己的网络
爬虫
和数据库中提取。我发现: Peekier.com和mojeek.com满足(1)但不满足(2)。
浏览 0
修改于2019-05-23
得票数 3
回答已采纳
1
回答
“无限滚动
网页
”网络
爬虫
我不知道如何抓取无限滚动页面(例如),有没有人可以建议我哪一个"python工具箱“可以做到这一点或例子。
浏览 1
提问于2014-08-01
得票数 1
2
回答
为什么我的
网页
爬虫
方法找不到所有的链接?
我试图创建一个简单的网络
爬虫
,所以我写了如下:require 'nokogiri' def get_links
浏览 1
修改于2015-04-13
得票数 0
回答已采纳
1
回答
创建一个查找和处理用户输入的
网页
爬虫
到目前为止,我所拥有的只是带有文章的
网页
和我用PHP创建的自定义搜索页面。有什么建议吗?
浏览 4
提问于2015-10-02
得票数 0
回答已采纳
1
回答
使用
网页
爬虫
/网络刮板从网站上获取cookie (PHP / cURL)
我正在寻找一种方法,从一个网站获得饼干使用一个网络
爬虫
。我已经调查过这种情况,但我找不到合适的图书馆/方法来解决我的问题。我并不是想从浏览器中获取cookie,而是试图从网站(任何网站)中获得它们。你好,迈克 编辑:我知道关于这个
爬虫
库也有类似的文章。但这个帖子已经过时了,是2011年的。
浏览 2
提问于2018-12-18
得票数 2
回答已采纳
2
回答
如何为
网页
爬虫
和单页应用程序用户制作网站?
page_with_javascript; return serverside_render( page_with_javascript ); 这样,任何没有javascript (包括web
爬虫
浏览 2
提问于2016-01-07
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券