腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
在cronjob上
优化
爬虫
脚本
我在一个MySQL表中有大约6600万个域,我需要在所有域上运行
爬虫
,并在
爬虫
完成时更新行计数=1。 print script_respons
浏览 2
提问于2015-03-01
得票数 1
3
回答
自动化班次时间表
优化
爬虫
?
总体计划 获取我的课程信息以自动
优化
并选择我的uni课程时间表。
浏览 3
修改于2009-01-07
得票数 0
回答已采纳
2
回答
网络
爬虫
优化
我正在建立一个使用矢量空间模型的基本搜索引擎,这是返回500个URL的
爬虫
,并从内容中删除SGML标签。然而,它非常慢(仅检索URL就需要30分钟以上)。如何
优化
代码?
浏览 1
修改于2013-04-08
得票数 2
3
回答
用户代理识别和搜索引擎
优化
爬虫
数据库
特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或网络
爬虫
库?一个空的用户代理头是与
爬虫
有关还是与一个创作过程有关?
浏览 0
修改于2012-08-08
得票数 2
3
回答
搜索引擎
优化
,谷歌
爬虫
我已经实现了如下分页这意味着总共有213种产品,这是第一页。当我检查Google在我的网站中抓取了哪些页面时,我看到的结果如下这意味着google以某种方式将所有页码附加到URL的末尾,并爬行该URL。有人能
浏览 11
修改于2012-06-22
得票数 1
6
回答
c#网络
爬虫
优化
我有用C#写的网络
爬虫
,它使用多线程。目前,它可以下载和解析大约1000个链接/分钟,但当我运行ex。3个实例同时,每个实例可以达到1000个链接/分钟,所以我有3000个链接/分钟。
浏览 1
修改于2013-10-21
得票数 0
1
回答
如何
优化
Selenium webdriver
爬虫
?
所以,我必须在一个网站的每个网页中抓取一个表格,有324个网页(意味着324个表格),每个表格有1000行和7列,但1列是无用的,我没有使用那一列。代码如下:driver.get('https://beheshtezahra.tehran.ir/Default.aspx?tabid=92') part_count =
浏览 2
提问于2021-10-10
得票数 0
1
回答
为网络
爬虫
优化
PHP CURL
我正在尝试用curl编写一个基于PHP的
爬虫
。我有20,000-30,000网址的数据库,我必须抓取。每次调用curl来获取网页大约需要4-5秒。 我如何
优化
这一点并减少获取页面所需的时间?
浏览 0
提问于2012-12-06
得票数 0
回答已采纳
2
回答
优化
此.NET
爬虫
算法的技巧
我正在编写类似于web
爬虫
的东西,它的引擎遵循以下步骤: 如果链接是新链接
浏览 1
修改于2015-02-07
得票数 1
回答已采纳
2
回答
最
优化
的存储
爬虫
状态的方式?
我目前正在编写一个网络
爬虫
(使用python框架)。现在,我一直在使用mysql表来处理这些存储操作,主要用于快速原型设计。现在我想知道如何
优化
这一点,因为我认为数据库不应该是这里唯一可用的选择。所谓
优化
,我的意思是,使用一个非常简单和轻量级的系统,同时仍然能够在短时间内处理大量写入的数据 目前,它应该能够处理几十个域名的爬行,这意味着每秒存储几千个链接
浏览 0
修改于2009-11-16
得票数 4
回答已采纳
6
回答
使用node.js服务Backbone.js应用程序的内容,搜索搜索引擎
优化
爬虫
正如您所知,Backbone.js有一个弱点--它不能为页面
爬虫
(比如googlebot )呈现的html提供服务,因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎然后,node.js将能够提供从Backbone.js应用程序呈现到页面
爬虫
的html。这似乎是可行的,但我正在寻找一个更有经验的node.js,甚至更好的人,谁真的做了这件事,建议我这一点。我需要采取哪些步骤来允许我使用node.js向网络
爬虫
提供我的Backbone.js应用程序?而且,我的主干网应用程序使用了一个用Rails编写的AP
浏览 4
修改于2012-09-16
得票数 19
1
回答
为多卷曲的CURL
爬虫
优化
apache/php
我一直在运行有500个打开连接的多卷曲
爬虫
。为了获得最佳性能,您对apache/php设置有什么建议吗?
浏览 4
提问于2014-02-07
得票数 0
1
回答
Matlab
优化
查询,避免了
爬虫
这是一个简单的问题,我看不出更好的答案,也许其他人可以!以下是代码:nSim = 3000;data = zeros(1, 5, nRow);data (:, 5, :) = 1000; % 1 column of actual value算例计算 dataWithSim = repmat(data(:, 1:4,
浏览 1
修改于2014-10-23
得票数 2
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?HTML可能会导致搜索引擎
优化
优化
页面的快速TTFB。这可是件大事。
浏览 0
提问于2021-07-27
得票数 7
2
回答
如何阻止我的
爬虫
在Google Analytics中显示
我有一个应用程序,检查您的网站的问题,如断开链接和搜索引擎
优化
问题。几周后,这个
爬虫
的行为就会出现在访问过的网站的Google Analytics账户中。
爬虫
不执行任何javascript,并具有以下用户代理: Mozilla/5.0 (兼容;Appname Crawler;+)如何防止这种情况发生?
浏览 2
提问于2019-05-04
得票数 2
1
回答
将视图状态置于底部或禁用爬网程序的视图状态
我正在
优化
网站,使其搜索引擎
优化
友好。有些控件需要有视图状态。所以,我不能完全禁用它。将视图状态数据移动到页面底部。仅禁用爬网程序的视图状态。在我读到的地方,改变
爬虫
和普通用户的内容可以影响SEO排名。但对该语句不太确定,因为这最终会影响一个隐藏字段。 将视图状态移到底部似乎比禁用
爬虫
的视图状态占用更多的资源。
浏览 1
提问于2012-08-22
得票数 2
2
回答
基于AWS的粘性负载平衡
我刚刚为几个例子设置了一个AWS负载均衡器,因为搜索引擎
爬虫
正在摧毁这个站点(它有数百万页)。网站的部分内容允许您登录,因此我选择:一切都很好。我现在想知道这将如何影响我的搜索引擎
优化
和
爬虫
。当我选择粘性负载平衡时,这是否意味着一个
爬虫
将被卡在一个服务器上,从而击败负载均衡器中的点? 如有任何建议,将不胜感激。
浏览 0
修改于2012-07-01
得票数 2
回答已采纳
1
回答
抓取像"/search/ label /“这样的博客标签url安全吗?
关于博客搜索引擎
优化
的问题,我能不能从
爬虫
中禁止像/search或/label这样的URL,我应该通过允许标记吗?
浏览 4
修改于2021-12-10
得票数 0
1
回答
jQuery load()和SEO -指向导航的硬链接
html,...page100.html,nav.html (站点导航html) 使用jQuery加载主导航可能对可管理性有好处(只需编辑一个包含的文件"nav.html",减少重复代码),但对搜索引擎
优化
不利(
爬虫
看不到page1.html,page2.html等的导航,因此无法抓取站点)。这是我的问题:如果在每个页面上都有一个指向"nav.html“的硬编码链接,这是否有助于
爬虫
找到网站导航并绕过搜索引擎
优化
问题?假设我们不能使用php或任何其他服务器端选项来包含html。
爬虫</
浏览 3
提问于2012-11-23
得票数 2
回答已采纳
1
回答
Node.js
优化
模块可实现最佳性能
我正在编写一个
爬虫
模块,它递归地调用它自己,根据传递的depth选项参数下载越来越多的链接。我已经设置了一个express服务器,它的一个路由为用户定义的(查询字符串)主机启动
爬虫
。在为不同的主机启动了几个
爬虫
会话后,我注意到,有时我可以从只返回简单文本的其他路由获得非常慢的响应。 延迟可能在几毫秒到30秒之间,而且似乎是
浏览 0
提问于2016-09-23
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券