腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
抓取: Web抓取由于结构变化而停止
当抓取一个
网页
时,
网页
的结构一直在变化,我的意思是它的动态性导致我的
爬虫
停止工作。是否有一种机制可以在运行完整的
爬虫
程序之前识别
网页
结构的变化,以便识别结构是否已经改变。
浏览 32
修改于2020-10-01
得票数 0
1
回答
C# -用
网页
爬虫
下载网站ajax页面
我用c# (使用Microsoft WebCrawler)编写了一个简单的网络
爬虫
项目,它可以下载特定站点的内容。正如Marcom建议的那样,我从我的
网页
爬虫
和
网页
浏览器上看到了小提琴的响应。当我的
网页
爬虫
导航到
网页
时,他会在与
网页
相反的一个仿真器上接收假信息。 有线索吗?
浏览 1
修改于2011-08-09
得票数 0
1
回答
perl中的Web Crawler问题
我用Perl构建了一个网络
爬虫
。HTML::ContentExtractor 从
网页
中提取文本。示例代码的参考链接问题是,它不会从具有.aspx扩展名的
网页
中获取文本。它非常适合其他
网页
,我不知道为什么这个
爬虫
在aspx页面上会失败。
浏览 8
修改于2017-05-23
得票数 0
1
回答
从Flask路由开始scrapy
我想建立一个
爬虫
,需要抓取
网页
的网址,并将结果返回给一个
网页
。现在,我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时,我如何启动
爬虫
?
浏览 1
修改于2016-03-21
得票数 5
2
回答
使用单个Web
爬虫
以预定义的格式抓取多个带有附件的网站?
150个我需要抓取的
网页
。基于我的无知和缺乏研究,我开始构建每个
网页
的
爬虫
,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个
网页
上抓取什么信息,很明显,这些网站都有自己的结构。在积极的一面,我注意到每个网站的
网页
在其网站结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络
爬虫
,我可以用来抓取这些网站?或者,有没有更好的解决方案,可以减少我需要构建的网络
爬虫
的数量?此外,这些网络
爬虫
将仅用于下载我针对的网站的新
浏览 3
修改于2021-02-13
得票数 0
1
回答
当建立一个搜索引擎网站
爬虫
,它应该开始爬行整个互联网?
我试图建立一个搜索引擎,其中一个主要组成部分是一个网络
爬虫
,我被困在一点,在开始的时候,
爬虫
将开始爬行。它需要一个
网页
来爬行。第一个
网页
应该是什么?
浏览 8
修改于2021-12-08
得票数 1
1
回答
像Ultraseek和FAST这样的
爬虫
支持"allow“吗?
只是想知道是否有可能禁止整个网站的
爬虫
,而只允许特定的
网页
或部分?像FAST和Ultraseek这样的
爬虫
支持"allow“吗?
浏览 4
修改于2012-01-18
得票数 4
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
嗨,我想做一个
网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
修改于2015-01-27
得票数 0
回答已采纳
1
回答
Web
爬虫
更新策略
因此,我想知道,有什么好的策略,一个
网页
爬虫
得到更新的
网页
? 为了进一步说明这一点,我仍然需要解决以下问题:如何确定
网页
浏览 1
修改于2012-05-11
得票数 4
1
回答
Web Crawler的功能
网络
爬虫
是否只从
网页
中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
1
回答
爬虫
没有抓取
网页
大家好,我正在试着运行这个python ,但它没有给我所需的输出,那就是我想打印出所有可用的链接,但是它给出了这个,谢谢
浏览 2
修改于2015-09-04
得票数 0
2
回答
网页
爬虫
超载网站
我们有一个问题,我们的一些网站,雅虎,谷歌,Yandex,必应Ahrefs和其他所有索引网站在同一时间,这杀死了网站。我们已经尝试过将站点放在cloudflare后面,但是这也没有什么区别,我们所能做的就是阻止源is。目前,我们正在使用Nagios监视站点,当站点变得没有响应能力时,nginx就会重新启动nginx,但这似乎远远不够理想。Robots.txt文件在这里:-Di
浏览 5
修改于2017-07-04
得票数 1
1
回答
如何分析
网页
爬虫
?
我有一个稍微不同的版本的网络
爬虫
。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择: 同时运行它们,比较所用的时间。
浏览 4
提问于2012-09-15
得票数 0
1
回答
从整个WebSite中提取所有URL
我希望
爬虫
从
网页
中提取网址,我也希望
爬虫
遵循网址,以便我能够从网站中提取所有的网址。 我该怎么写呢?
浏览 1
修改于2015-04-18
得票数 0
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页然而,在相应的评论中,我从Stephen那里了解到,它将接近或接近60爬行(“获取”)。60 crawlings还是at most 30
浏览 0
修改于2020-03-04
得票数 1
1
回答
有没有一种方法来呈现一个不同的页面取决于谁是客户端,网络
爬虫
与网络应用-客户端?
我正在建立我的
网页
来支持ssr,我的问题来了,我能知道客户是否是一个网络
爬虫
,这样我就可以做ssr? 这样,我就可以为我的
网页
服务,就像它给不是web
爬虫
的客户端一样。
浏览 0
修改于2019-03-27
得票数 1
回答已采纳
2
回答
运行firefox插件命令行
有一个火狐插件来帮助检查每个
网页
上的网站现在我想结合WAVE addons +我的
爬虫
来自动检查网站是否符合508可访问性。
浏览 2
提问于2009-10-12
得票数 4
回答已采纳
2
回答
爬行器搜索问题
我正在使用ubuntu10.04和firefox进行
网页
浏览。突然,
爬虫
变成了我的搜索提供商,所以我进入搜索栏的右上方,从列表中删除了
爬虫
,还删除了所有看起来与其相关的附加组件。现在,每当我使用地址栏进行搜索时,它仍然在使用
爬虫
。我该如何摆脱这个欺骗性的小产品。
浏览 0
提问于2013-02-21
得票数 1
1
回答
什么是一个好的基于Java的
爬虫
,一个关于建立搜索引擎的学术项目?
好吧,过去两天我一直在寻找一台适合我需要的
爬虫
。我想建立一个搜索引擎,我想自己做索引。这将是一个学术项目的一部分。虽然我没有处理能力来抓取整个
网页
,我想使用一个
爬虫
,实际上是能够做到这一点。所以我要找的是一台
爬虫
我还找到了。这确实支持多线程,但在查找和跟踪
网页
链接方面似乎存在问题。虽然我不
浏览 3
修改于2013-01-31
得票数 2
3
回答
Python web crawler与MySQL数据库
我想创建或找到一个用Python编写的开源网络
爬虫
(
爬虫
/机器人)。它必须找到并跟踪链接,收集元标签和元描述,
网页
的标题和
网页
的网址,并将所有的数据放入一个MySQL数据库。
浏览 4
修改于2011-08-11
得票数 6
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券