搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

在cronjob上优化爬虫脚本

我在一个MySQL表中有大约6600万个域，我需要在所有域上运行爬虫，并在爬虫完成时更新行计数=1。 print script_respons

浏览 2提问于2015-03-01得票数 1

3回答

自动化班次时间表优化爬虫？

总体计划获取我的课程信息以自动优化并选择我的uni课程时间表。

浏览 3修改于2009-01-07得票数 0

回答已采纳

2回答

网络爬虫优化

我正在建立一个使用矢量空间模型的基本搜索引擎，这是返回500个URL的爬虫，并从内容中删除SGML标签。然而，它非常慢(仅检索URL就需要30分钟以上)。如何优化代码？

浏览 1修改于2013-04-08得票数 2

3回答

用户代理识别和搜索引擎优化爬虫数据库

特别是，我必须从收集的user agent值开始识别爬虫。现在问题来了。是否有公共目录或网络爬虫库？一个空的用户代理头是与爬虫有关还是与一个创作过程有关？

浏览 0修改于2012-08-08得票数 2

3回答

搜索引擎优化，谷歌爬虫

我已经实现了如下分页这意味着总共有213种产品，这是第一页。当我检查Google在我的网站中抓取了哪些页面时，我看到的结果如下这意味着google以某种方式将所有页码附加到URL的末尾，并爬行该URL。有人能

浏览 11修改于2012-06-22得票数 1

6回答

c#网络爬虫优化

我有用C#写的网络爬虫，它使用多线程。目前，它可以下载和解析大约1000个链接/分钟，但当我运行ex。3个实例同时，每个实例可以达到1000个链接/分钟，所以我有3000个链接/分钟。

浏览 1修改于2013-10-21得票数 0

1回答

如何优化Selenium webdriver爬虫？

所以，我必须在一个网站的每个网页中抓取一个表格，有324个网页(意味着324个表格)，每个表格有1000行和7列，但1列是无用的，我没有使用那一列。代码如下：driver.get('https://beheshtezahra.tehran.ir/Default.aspx?tabid=92') part_count =

浏览 2提问于2021-10-10得票数 0

1回答

为网络爬虫优化PHP CURL

我正在尝试用curl编写一个基于PHP的爬虫。我有20,000-30,000网址的数据库，我必须抓取。每次调用curl来获取网页大约需要4-5秒。我如何优化这一点并减少获取页面所需的时间？

浏览 0提问于2012-12-06得票数 0

回答已采纳

2回答

优化此.NET爬虫算法的技巧

我正在编写类似于web爬虫的东西，它的引擎遵循以下步骤：如果链接是新链接

浏览 1修改于2015-02-07得票数 1

回答已采纳

2回答

最优化的存储爬虫状态的方式？

我目前正在编写一个网络爬虫(使用python框架)。现在，我一直在使用mysql表来处理这些存储操作，主要用于快速原型设计。现在我想知道如何优化这一点，因为我认为数据库不应该是这里唯一可用的选择。所谓优化，我的意思是，使用一个非常简单和轻量级的系统，同时仍然能够在短时间内处理大量写入的数据目前，它应该能够处理几十个域名的爬行，这意味着每秒存储几千个链接

浏览 0修改于2009-11-16得票数 4

回答已采纳

6回答

使用node.js服务Backbone.js应用程序的内容，搜索搜索引擎优化爬虫

正如您所知，Backbone.js有一个弱点--它不能为页面爬虫(比如googlebot )呈现的html提供服务，因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎然后，node.js将能够提供从Backbone.js应用程序呈现到页面爬虫的html。这似乎是可行的，但我正在寻找一个更有经验的node.js，甚至更好的人，谁真的做了这件事，建议我这一点。我需要采取哪些步骤来允许我使用node.js向网络爬虫提供我的Backbone.js应用程序？而且，我的主干网应用程序使用了一个用Rails编写的AP

浏览 4修改于2012-09-16得票数 19

1回答

为多卷曲的CURL爬虫优化apache/php

我一直在运行有500个打开连接的多卷曲爬虫。为了获得最佳性能，您对apache/php设置有什么建议吗？

浏览 4提问于2014-02-07得票数 0

1回答

Matlab优化查询，避免了爬虫

这是一个简单的问题，我看不出更好的答案，也许其他人可以！以下是代码：nSim = 3000;data = zeros(1, 5, nRow);data (:, 5, :) = 1000; % 1 column of actual value算例计算 dataWithSim = repmat(data(:, 1:4,

浏览 1修改于2014-10-23得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？HTML可能会导致搜索引擎优化优化页面的快速TTFB。这可是件大事。

浏览 0提问于2021-07-27得票数 7

2回答

如何阻止我的爬虫在Google Analytics中显示

我有一个应用程序，检查您的网站的问题，如断开链接和搜索引擎优化问题。几周后，这个爬虫的行为就会出现在访问过的网站的Google Analytics账户中。爬虫不执行任何javascript，并具有以下用户代理: Mozilla/5.0 (兼容；Appname Crawler；+)如何防止这种情况发生？

浏览 2提问于2019-05-04得票数 2

1回答

将视图状态置于底部或禁用爬网程序的视图状态

我正在优化网站，使其搜索引擎优化友好。有些控件需要有视图状态。所以，我不能完全禁用它。将视图状态数据移动到页面底部。仅禁用爬网程序的视图状态。在我读到的地方，改变爬虫和普通用户的内容可以影响SEO排名。但对该语句不太确定，因为这最终会影响一个隐藏字段。将视图状态移到底部似乎比禁用爬虫的视图状态占用更多的资源。

浏览 1提问于2012-08-22得票数 2

2回答

基于AWS的粘性负载平衡

我刚刚为几个例子设置了一个AWS负载均衡器，因为搜索引擎爬虫正在摧毁这个站点(它有数百万页)。网站的部分内容允许您登录，因此我选择：一切都很好。我现在想知道这将如何影响我的搜索引擎优化和爬虫。当我选择粘性负载平衡时，这是否意味着一个爬虫将被卡在一个服务器上，从而击败负载均衡器中的点？如有任何建议，将不胜感激。

浏览 0修改于2012-07-01得票数 2

回答已采纳

1回答

抓取像"/search/ label /“这样的博客标签url安全吗？

关于博客搜索引擎优化的问题，我能不能从爬虫中禁止像/search或/label这样的URL，我应该通过允许标记吗？

浏览 4修改于2021-12-10得票数 0

1回答

jQuery load()和SEO -指向导航的硬链接

html，...page100.html，nav.html (站点导航html) 使用jQuery加载主导航可能对可管理性有好处(只需编辑一个包含的文件"nav.html"，减少重复代码)，但对搜索引擎优化不利(爬虫看不到page1.html，page2.html等的导航，因此无法抓取站点)。这是我的问题:如果在每个页面上都有一个指向"nav.html“的硬编码链接，这是否有助于爬虫找到网站导航并绕过搜索引擎优化问题？假设我们不能使用php或任何其他服务器端选项来包含html。爬虫</

浏览 3提问于2012-11-23得票数 2

回答已采纳

1回答

Node.js优化模块可实现最佳性能

我正在编写一个爬虫模块，它递归地调用它自己，根据传递的depth选项参数下载越来越多的链接。我已经设置了一个express服务器，它的一个路由为用户定义的(查询字符串)主机启动爬虫。在为不同的主机启动了几个爬虫会话后，我注意到，有时我可以从只返回简单文本的其他路由获得非常慢的响应。延迟可能在几毫秒到30秒之间，而且似乎是

浏览 0提问于2016-09-23得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

在cronjob上优化爬虫脚本

自动化班次时间表优化爬虫？

网络爬虫优化

用户代理识别和搜索引擎优化爬虫数据库

搜索引擎优化，谷歌爬虫

c#网络爬虫优化

如何优化Selenium webdriver爬虫？

为网络爬虫优化PHP CURL

优化此.NET爬虫算法的技巧

最优化的存储爬虫状态的方式？

使用node.js服务Backbone.js应用程序的内容，搜索搜索引擎优化爬虫

为多卷曲的CURL爬虫优化apache/php

Matlab优化查询，避免了爬虫

HTML流的SEO/爬行性影响

如何阻止我的爬虫在Google Analytics中显示

将视图状态置于底部或禁用爬网程序的视图状态

基于AWS的粘性负载平衡

抓取像"/search/ label /“这样的博客标签url安全吗？

jQuery load()和SEO -指向导航的硬链接

Node.js优化模块可实现最佳性能

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐