搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

爬虫/搜索引擎是如何遍历网页的？

商业搜索引擎的爬虫是如何遍历web的：“识别种子页面并通过连接的链接找到其他页面”或“索引网站wwwroot目录下的每个文件”。在后一种情况下，搜索引擎甚至应该有索引的东西，这些东西没有被任何其他页面引用？

浏览 1修改于2012-06-23得票数 0

3回答

有没有可靠的和最新的包，可以帮助我检测爬虫？(主要来自Google，Facebook，...对于SEO)，或者如果没有包，我可以自己写吗？(可能基于最新的用户代理数据库) 更清楚地说，我正在尝试创建一个同构的/通用的React网站，我希望它可以被搜索引擎索引，它的标题/元数据可以由Facebook获取，但我不想在所有正常请求上预渲染，这样服务器就不会超载，所以我考虑的解决方案只是对来自爬虫的请求进行预渲染

浏览 0修改于2016-01-07得票数 5

2回答

为垂直搜索引擎开发爬虫和爬行器

我需要开发一个垂直搜索引擎作为网站的一部分。搜索引擎的数据来自特定类别的网站。我想我需要一个爬虫来抓取几个(几百个)站点(在一个特定的业务类别中)，并提取产品和服务的内容和urls。任何关于如何编写这样的爬虫和提取器的想法。我使用常见的ruby库编写了一些爬虫和内容提取器，但不是一个完全成熟的搜索引擎。我猜，crawler会时不时地从网站上唤醒并下载页面。如何同步爬虫和提取器？它们应该紧密地集成在一起吗？

浏览 3修改于2009-07-05得票数 6

1回答

删除搜索引擎爬虫的用户化身？

当搜索引擎访问我的网站时，不要加载化身会是个好主意吗？我知道谷歌的缓存页面会丢失它们，但它会不会加速我的网站，或许还能提高我页面的排名呢？

浏览 0提问于2012-03-13得票数 3

回答已采纳

3回答

为什么搜索引擎爬虫不运行javascript？

我想知道为什么爬虫不运行javascript来获得呈现的页面和索引。这背后有什么原因？或者这是搜索引擎未来可能会出现的一个缺失的特性？

浏览 4修改于2014-03-15得票数 17

回答已采纳

4回答

如何向公众隐藏elasticbeanstalk.com地址(搜索引擎爬虫)

问题是搜索引擎在搜索结果中显示abc.elasticbeanstalk.com，以查找与xyz.com相关的关键字。我想让abc.elasticbeanstalk.com对所有这些搜索引擎爬虫隐藏起来。以前有人遇到过这个问题吗？

浏览 0提问于2015-07-17得票数 0

4回答

AngularJS / AJAX应用程序和搜索引擎爬虫

我有一个网络应用程序，其中大量使用AngularJS / AJAX，我希望它是由谷歌和其他搜索引擎爬行。

浏览 1提问于2013-02-23得票数 1

回答已采纳

1回答

当建立一个搜索引擎网站爬虫，它应该开始爬行整个互联网？

我试图建立一个搜索引擎，其中一个主要组成部分是一个网络爬虫，我被困在一点，在开始的时候，爬虫将开始爬行。它需要一个网页来爬行。第一个网页应该是什么？

浏览 8修改于2021-12-08得票数 1

3回答

具有独立网页爬虫的替代搜索引擎

哪个网络搜索引擎符合以下要求？搜索结果不会从Google、Bing、Yahoo、Yandex、Ask、AOL、百度或Entireweb的结果中提取出来。结果必须从它自己的网络爬虫和数据库中提取。

浏览 0修改于2019-05-23得票数 3

回答已采纳

1回答

如何阻止搜索引擎爬虫为Lemoon站点建立索引？

我们有一个公共站点和一个在Lemoon 4.5.1中创建的测试站点，我们希望测试站点完全不被索引。有可能吗?我们该怎么做？在编辑页面时，有一个"Meta NoIndex“设置，这可能适合我们，但我们希望避免编辑每一页。

浏览 2修改于2014-05-20得票数 0

回答已采纳

2回答

如何防止搜索引擎爬虫在AWS上索引域？

除了在另一个域中运行生产环境之外，我们还有一个在.dev域上运行的暂存环境。我不希望我们的分期网站在谷歌搜索产品时被发现。应用程序托管在ECS上，前面有负载均衡器。

浏览 3修改于2021-10-09得票数 2

回答已采纳

1回答

将Solr暴露给搜索引擎爬虫(SEO)的策略

我不确定实际上允许爬虫遍历我们的内部搜索页面是否是一个好主意，因为这可能会潜在地影响Solr缓存和驱逐(负面？)。但在这种情况下，我如何将产品详细信息暴露给只能通过搜索结果访问的爬虫？(我知道AJAX的hashbang和SEO，所以这个问题是关于如何让爬虫发现我们通过Solr搜索服务器提供的产品？)

浏览 2修改于2012-10-11得票数 1

回答已采纳

1回答

搜索引擎网络爬虫会看到随着HTML5历史而改变的urls吗？

搜索引擎网络爬虫会看到这些新的网址吗？

浏览 0提问于2016-05-19得票数 3

1回答

搜索引擎爬虫会被重定向到多语种网站的英文页面(从而避免使用其他语言的页面)

Problem：当使用Ahrefs网站审核工具(对于搜索引擎爬虫，GoogleBot，.)时，我发现的爬虫会重定向到302，因此永远不会访问法语网站。实际上，当爬虫(可能设置为英语)访问example.com/fr/article123时，它将被重定向到example.com/article123。我想这些爬虫不考虑cookie，所以对所有页面都是一样的。我应该使用什么技术解决方案来避免搜索引擎机器人不正确地爬行多语种网站？TL;DR:我如何根据浏览器语言

浏览 4修改于2021-12-01得票数 0

1回答

当你让搜索引擎爬虫通过，但为用户增加了额外的步骤时，你会受到搜索引擎的惩罚吗？

希望搜索引擎索引内容，我正在为搜索引擎爬虫创建例外，以便它们可以轻松访问内容。我从页面中挑选了一些搜索引擎，我的解决方案是检查爬虫的IP地址(可以在我链接的页面上找到)，并根据授予的访问权限。

浏览 0修改于2017-03-19得票数 3

回答已采纳

3回答

为需要在查看任何内容之前登录的网站制作搜索引擎爬虫的站点地图

因此，我需要一个网站地图或其他方式，以便爬虫(每个搜索引擎)可以查看网站的内容，这需要登录。请只发布接受的或合乎道德的方式。我目前在我的网站内没有搜索，所以用户将无法通过它找到内容，所以我希望他们能够轻松地通过搜索引擎使用“搜索文本mydomain.com”。我读过这个，但没有找到解决方案。

浏览 6修改于2017-05-23得票数 0

回答已采纳

1回答

网址缩短器将如何影响搜索引擎爬虫和社交媒体？

我的问题和担忧是，它将如何影响搜索引擎爬虫，以及社交媒体网站。假设我有一篇帖子已经在社交网站上被链接了几十次，我网站上的计数器正确地反映了这一点，当我开始提供简短的urls时会发生什么？

浏览 2提问于2013-06-24得票数 0

5回答

搜索引擎爬虫能看到我用jQuery添加的内容吗？

javascript"> $(".test").html("hey");</script> 搜索引擎能够爬行

浏览 0提问于2011-07-06得票数 22

回答已采纳

2回答

如何使用asp.net mvc3和c#构建网络爬虫？

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：请任何人有任何想法或资源或书籍。请与我们分享。

浏览 8修改于2016-06-24得票数 2

3回答

用户代理识别和搜索引擎优化爬虫数据库

特别是，我必须从收集的user agent值开始识别爬虫。现在问题来了。是否有公共目录或网络爬虫库？一个空的用户代理头是与爬虫有关还是与一个创作过程有关？

浏览 0修改于2012-08-08得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬虫/搜索引擎是如何遍历网页的？

如何检测网络爬虫搜索引擎优化，使用Express？

为垂直搜索引擎开发爬虫和爬行器

删除搜索引擎爬虫的用户化身？

为什么搜索引擎爬虫不运行javascript？

如何向公众隐藏elasticbeanstalk.com地址(搜索引擎爬虫)

AngularJS / AJAX应用程序和搜索引擎爬虫

当建立一个搜索引擎网站爬虫，它应该开始爬行整个互联网？

具有独立网页爬虫的替代搜索引擎

如何阻止搜索引擎爬虫为Lemoon站点建立索引？

如何防止搜索引擎爬虫在AWS上索引域？

将Solr暴露给搜索引擎爬虫(SEO)的策略

搜索引擎网络爬虫会看到随着HTML5历史而改变的urls吗？

搜索引擎爬虫会被重定向到多语种网站的英文页面(从而避免使用其他语言的页面)

当你让搜索引擎爬虫通过，但为用户增加了额外的步骤时，你会受到搜索引擎的惩罚吗？

为需要在查看任何内容之前登录的网站制作搜索引擎爬虫的站点地图

网址缩短器将如何影响搜索引擎爬虫和社交媒体？

搜索引擎爬虫能看到我用jQuery添加的内容吗？

如何使用asp.net mvc3和c#构建网络爬虫？

用户代理识别和搜索引擎优化爬虫数据库

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐