腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
抓取: Web抓取由于结构变化而停止
当抓取一个
网页
时,
网页
的结构一直在变化,我的意思是它的动态性导致我的
爬虫
停止工作。是否有一种机制可以在运行完整的
爬虫
程序之前识别
网页
结构的变化,以便识别结构是否已经改变。
浏览 32
修改于2020-10-01
得票数 0
1
回答
C# -用
网页
爬虫
下载网站ajax页面
我用c# (使用Microsoft WebCrawler)编写了一个简单的网络
爬虫
项目,它可以下载特定站点的内容。正如Marcom建议的那样,我从我的
网页
爬虫
和
网页
浏览器上看到了小提琴的响应。当我的
网页
爬虫
导航到
网页
时,他会在与
网页
相反的一个仿真器上接收假信息。 有线索吗?
浏览 1
修改于2011-08-09
得票数 0
1
回答
perl中的Web Crawler问题
我用Perl构建了一个网络
爬虫
。HTML::ContentExtractor 从
网页
中提取文本。示例代码的参考链接问题是,它不会从具有.aspx扩展名的
网页
中获取文本。它非常适合其他
网页
,我不知道为什么这个
爬虫
在aspx页面上会失败。
浏览 8
修改于2017-05-23
得票数 0
1
回答
从Flask路由开始scrapy
我想建立一个
爬虫
,需要抓取
网页
的网址,并将结果返回给一个
网页
。现在,我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时,我如何启动
爬虫
?
浏览 1
修改于2016-03-21
得票数 5
2
回答
使用单个Web
爬虫
以预定义的格式抓取多个带有附件的网站?
150个我需要抓取的
网页
。基于我的无知和缺乏研究,我开始构建每个
网页
的
爬虫
,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个
网页
上抓取什么信息,很明显,这些网站都有自己的结构。在积极的一面,我注意到每个网站的
网页
在其网站结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络
爬虫
,我可以用来抓取这些网站?或者,有没有更好的解决方案,可以减少我需要构建的网络
爬虫
的数量?此外,这些网络
爬虫
将仅用于下载我针对的网站的新
浏览 3
修改于2021-02-13
得票数 0
1
回答
当建立一个搜索引擎网站
爬虫
,它应该开始爬行整个互联网?
我试图建立一个搜索引擎,其中一个主要组成部分是一个网络
爬虫
,我被困在一点,在开始的时候,
爬虫
将开始爬行。它需要一个
网页
来爬行。第一个
网页
应该是什么?
浏览 8
修改于2021-12-08
得票数 1
1
回答
像Ultraseek和FAST这样的
爬虫
支持"allow“吗?
只是想知道是否有可能禁止整个网站的
爬虫
,而只允许特定的
网页
或部分?像FAST和Ultraseek这样的
爬虫
支持"allow“吗?
浏览 4
修改于2012-01-18
得票数 4
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
嗨,我想做一个
网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
修改于2015-01-27
得票数 0
回答已采纳
1
回答
Web
爬虫
更新策略
因此,我想知道,有什么好的策略,一个
网页
爬虫
得到更新的
网页
? 为了进一步说明这一点,我仍然需要解决以下问题:如何确定
网页
浏览 1
修改于2012-05-11
得票数 4
1
回答
有时会发生- OutOfMemoryError
LogCat如下:
10-11
09:56:28.312 I/dalvikvm(13613): | group="main" sCount=0 dsCount=0 obj=0x40a32460 self=0x18e5828
10-11
09:56:28.312 I/dalvikvm
10-11
09:56:28.320
浏览 2
修改于2017-05-23
得票数 1
1
回答
Web Crawler的功能
网络
爬虫
是否只从
网页
中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
1
回答
爬虫
没有抓取
网页
大家好,我正在试着运行这个python ,但它没有给我所需的输出,那就是我想打印出所有可用的链接,但是它给出了这个,谢谢
浏览 2
修改于2015-09-04
得票数 0
2
回答
网页
爬虫
超载网站
我们有一个问题,我们的一些网站,雅虎,谷歌,Yandex,必应Ahrefs和其他所有索引网站在同一时间,这杀死了网站。我们已经尝试过将站点放在cloudflare后面,但是这也没有什么区别,我们所能做的就是阻止源is。目前,我们正在使用Nagios监视站点,当站点变得没有响应能力时,nginx就会重新启动nginx,但这似乎远远不够理想。Robots.txt文件在这里:-Di
浏览 5
修改于2017-07-04
得票数 1
1
回答
如何分析
网页
爬虫
?
我有一个稍微不同的版本的网络
爬虫
。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择: 同时运行它们,比较所用的时间。
浏览 4
提问于2012-09-15
得票数 0
3
回答
为什么不能将两个TextWatcher放在一个活动中,用于两个不同的edittext,从而改变彼此的值?
(DynamicLayout.java:261)
10-11
09:47:28.288: ERROR/AndroidRuntime(363): at android.widget.TextView.setText(EditText.java:75)
10-11
09:47:28.288: ERROR/Andr
浏览 1
修改于2011-10-11
得票数 0
回答已采纳
1
回答
打印多个PDF页面范围
我有一个200+可编辑的
网页
,需要硬编码打印成更小的PDF文件(即第1-2,3-8,9,
10-11
,12-14等)。 既然我每个月都做这个练习,有什么方法可以自动完成这个任务吗?
浏览 4
修改于2022-06-30
得票数 0
4
回答
软件包安装程序从Gmail应用程序启动时崩溃
PID: 1192 SIG: 3
10-11
06:06:34.166PID: 1192 SIG: 3
10-11
06:06:34.676
10-11
06:06:34.966: I/dalvik
浏览 3
修改于2012-10-15
得票数 0
回答已采纳
1
回答
从整个WebSite中提取所有URL
我希望
爬虫
从
网页
中提取网址,我也希望
爬虫
遵循网址,以便我能够从网站中提取所有的网址。 我该怎么写呢?
浏览 1
修改于2015-04-18
得票数 0
1
回答
我无法执行片段popBackStack来清除子片段
10-11
16:08:49.750: E/AndroidRuntime(13831): FATAL EXCEPTION: main
10-11
(13831): at android.support.v4.app.FragmentManagerImpl.c
浏览 2
修改于2013-10-11
得票数 2
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页然而,在相应的评论中,我从Stephen那里了解到,它将接近或接近60爬行(“获取”)。60 crawlings还是at most 30
浏览 0
修改于2020-03-04
得票数 1
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券