腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
爬虫
/
搜索引擎
是如何遍历网页的?
商业
搜索引擎
的
爬虫
是如何遍历web的:“识别种子页面并通过连接的链接找到其他页面”或“索引网站wwwroot目录下的每个文件”。在后一种情况下,
搜索引擎
甚至应该有索引的东西,这些东西没有被任何其他页面引用?
浏览 1
修改于2012-06-23
得票数 0
3
回答
如何检测网络
爬虫
搜索引擎
优化,使用Express?
有没有可靠的和最新的包,可以帮助我检测
爬虫
?(主要来自Google,Facebook,...对于SEO),或者如果没有包,我可以自己写吗?(可能基于最新的用户代理数据库) 更清楚地说,我正在尝试创建一个同构的/通用的React网站,我希望它可以被
搜索引擎
索引,它的标题/元数据可以由Facebook获取,但我不想在所有正常请求上预渲染,这样服务器就不会超载,所以我考虑的解决方案只是对来自
爬虫
的请求进行预渲染
浏览 0
修改于2016-01-07
得票数 5
2
回答
为垂直
搜索引擎
开发
爬虫
和爬行器
我需要开发一个垂直
搜索引擎
作为网站的一部分。
搜索引擎
的数据来自特定类别的网站。我想我需要一个
爬虫
来抓取几个(几百个)站点(在一个特定的业务类别中),并提取产品和服务的内容和urls。任何关于如何编写这样的
爬虫
和提取器的想法。我使用常见的ruby库编写了一些
爬虫
和内容提取器,但不是一个完全成熟的
搜索引擎
。我猜,crawler会时不时地从网站上唤醒并下载页面。如何同步
爬虫
和提取器?它们应该紧密地集成在一起吗?
浏览 3
修改于2009-07-05
得票数 6
1
回答
删除
搜索引擎
爬虫
的用户化身?
当
搜索引擎
访问我的网站时,不要加载化身会是个好主意吗?我知道谷歌的缓存页面会丢失它们,但它会不会加速我的网站,或许还能提高我页面的排名呢?
浏览 0
提问于2012-03-13
得票数 3
回答已采纳
3
回答
为什么
搜索引擎
爬虫
不运行javascript?
我想知道为什么
爬虫
不运行javascript来获得呈现的页面和索引。这背后有什么原因?或者这是
搜索引擎
未来可能会出现的一个缺失的特性?
浏览 4
修改于2014-03-15
得票数 17
回答已采纳
4
回答
如何向公众隐藏elasticbeanstalk.com地址(
搜索引擎
爬虫
)
问题是
搜索引擎
在搜索结果中显示abc.elasticbeanstalk.com,以查找与xyz.com相关的关键字。我想让abc.elasticbeanstalk.com对所有这些
搜索引擎
爬虫
隐藏起来。以前有人遇到过这个问题吗?
浏览 0
提问于2015-07-17
得票数 0
4
回答
AngularJS / AJAX应用程序和
搜索引擎
爬虫
我有一个网络应用程序,其中大量使用AngularJS / AJAX,我希望它是由谷歌和其他
搜索引擎
爬行。
浏览 1
提问于2013-02-23
得票数 1
回答已采纳
1
回答
当建立一个
搜索引擎
网站
爬虫
,它应该开始爬行整个互联网?
我试图建立一个
搜索引擎
,其中一个主要组成部分是一个网络
爬虫
,我被困在一点,在开始的时候,
爬虫
将开始爬行。它需要一个网页来爬行。第一个网页应该是什么?
浏览 8
修改于2021-12-08
得票数 1
3
回答
具有独立网页
爬虫
的替代
搜索引擎
哪个网络
搜索引擎
符合以下要求? 搜索结果不会从Google、Bing、Yahoo、Yandex、Ask、AOL、百度或Entireweb的结果中提取出来。结果必须从它自己的网络
爬虫
和数据库中提取。
浏览 0
修改于2019-05-23
得票数 3
回答已采纳
1
回答
如何阻止
搜索引擎
爬虫
为Lemoon站点建立索引?
我们有一个公共站点和一个在Lemoon 4.5.1中创建的测试站点,我们希望测试站点完全不被索引。有可能吗?我们该怎么做?在编辑页面时,有一个"Meta NoIndex“设置,这可能适合我们,但我们希望避免编辑每一页。
浏览 2
修改于2014-05-20
得票数 0
回答已采纳
2
回答
如何防止
搜索引擎
爬虫
在AWS上索引域?
除了在另一个域中运行生产环境之外,我们还有一个在.dev域上运行的暂存环境。我不希望我们的分期网站在谷歌搜索产品时被发现。应用程序托管在ECS上,前面有负载均衡器。
浏览 3
修改于2021-10-09
得票数 2
回答已采纳
1
回答
将Solr暴露给
搜索引擎
爬虫
(SEO)的策略
我不确定实际上允许
爬虫
遍历我们的内部搜索页面是否是一个好主意,因为这可能会潜在地影响Solr缓存和驱逐(负面?)。但在这种情况下,我如何将产品详细信息暴露给只能通过搜索结果访问的
爬虫
?(我知道AJAX的hashbang和SEO,所以这个问题是关于如何让
爬虫
发现我们通过Solr搜索服务器提供的产品?)
浏览 2
修改于2012-10-11
得票数 1
回答已采纳
1
回答
搜索引擎
网络
爬虫
会看到随着HTML5历史而改变的urls吗?
搜索引擎
网络
爬虫
会看到这些新的网址吗?
浏览 0
提问于2016-05-19
得票数 3
1
回答
搜索引擎
爬虫
会被重定向到多语种网站的英文页面(从而避免使用其他语言的页面)
Problem:当使用Ahrefs网站审核工具(对于
搜索引擎
爬虫
,GoogleBot,.)时,我发现的
爬虫
会重定向到302,因此永远不会访问法语网站。实际上,当
爬虫
(可能设置为英语)访问example.com/fr/article123时,它将被重定向到example.com/article123。我想这些
爬虫
不考虑cookie,所以对所有页面都是一样的。 我应该使用什么技术解决方案来避免
搜索引擎
机器人不正确地爬行多语种网站?TL;DR:我如何根据浏览器语言
浏览 4
修改于2021-12-01
得票数 0
1
回答
当你让
搜索引擎
爬虫
通过,但为用户增加了额外的步骤时,你会受到
搜索引擎
的惩罚吗?
希望
搜索引擎
索引内容,我正在为
搜索引擎
爬虫
创建例外,以便它们可以轻松访问内容。 我从页面中挑选了一些
搜索引擎
,我的解决方案是检查
爬虫
的IP地址(可以在我链接的页面上找到),并根据授予的访问权限。
浏览 0
修改于2017-03-19
得票数 3
回答已采纳
3
回答
为需要在查看任何内容之前登录的网站制作
搜索引擎
爬虫
的站点地图
因此,我需要一个网站地图或其他方式,以便
爬虫
(每个
搜索引擎
)可以查看网站的内容,这需要登录。请只发布接受的或合乎道德的方式。我目前在我的网站内没有搜索,所以用户将无法通过它找到内容,所以我希望他们能够轻松地通过
搜索引擎
使用“搜索文本mydomain.com”。 我读过这个,但没有找到解决方案。
浏览 6
修改于2017-05-23
得票数 0
回答已采纳
1
回答
网址缩短器将如何影响
搜索引擎
爬虫
和社交媒体?
我的问题和担忧是,它将如何影响
搜索引擎
爬虫
,以及社交媒体网站。假设我有一篇帖子已经在社交网站上被链接了几十次,我网站上的计数器正确地反映了这一点,当我开始提供简短的urls时会发生什么?
浏览 2
提问于2013-06-24
得票数 0
5
回答
搜索引擎
爬虫
能看到我用jQuery添加的内容吗?
javascript"> $(".test").html("hey");</script>
搜索引擎
能够爬行
浏览 0
提问于2011-07-06
得票数 22
回答已采纳
2
回答
如何使用asp.net mvc3和c#构建网络
爬虫
?
我需要建立一个小的
搜索引擎
,如谷歌使用ASP.NET MVC3。对于这一个,我还需要建立网络
爬虫
,其中填充
搜索引擎
的数据。总而言之,我需要以下内容:请任何人有任何想法或资源或书籍。请与我们分享。
浏览 8
修改于2016-06-24
得票数 2
3
回答
用户代理识别和
搜索引擎
优化
爬虫
数据库
特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或网络
爬虫
库?一个空的用户代理头是与
爬虫
有关还是与一个创作过程有关?
浏览 0
修改于2012-08-08
得票数 2
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券