腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
风暴
爬虫
-
技术
栈和Apache Nutch
我听说Apache可以解决这个问题,但遗憾的是,它所需要的
技术
栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴
爬虫
上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴
爬虫
0.9吗?
浏览 3
修改于2018-04-11
得票数 1
回答已采纳
1
回答
不认识的反
爬虫
技术
,提示412错误,有高手知道?
爬虫
近期发现大量网站采用相似的反爬
技术
,Heritrix提示412,网址http://www.xgrsks.cn/,还有湖北省编制网、检察院、政府网都采用这种,网上查不到相关办法
浏览 1014
提问于2021-04-26
1
回答
最好的
爬虫
确定与
技术
建设?
Builtwith.com和类似的服务(收费)提供了使用SalesForce或NationBuilder等特定
技术
构建的域列表。有一些
技术
,我感兴趣的,与建设不扫描,可能是因为他们太小的市场存在。如果我们知道某个网页的某些签名显示了一种
技术
是用于一个网站,什么是最好的方式来识别尽可能多的这些网站?我们预计有1000个网站,我们感兴趣的是那些排名前一千万的网站。(我们不认为最大的网站使用这种
技术
。) 我有一个开源网络
爬虫
列表-- --但是我的用例似乎与
爬虫
的许多常规标准不同,因为我们只想
浏览 2
修改于2017-03-28
得票数 3
回答已采纳
2
回答
Elasticsearch HTTP API或python API
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个
技术
问题。真正的问题如下所示。哪种
技术
更适合我的场合?
浏览 4
提问于2015-12-01
得票数 1
3
回答
Kentico 10使用的Web Crawler引擎
根据文档,是否有更多关于Kentico 10使用的网络
爬虫
技术
/引擎的信息?我之所以问这个问题,是因为我想把它用于一个定制的
爬虫
项目,这个项目可以位于Kentico之外,并且仍然允许它与Kentico平台具有内在的兼容性。
浏览 0
修改于2017-08-31
得票数 7
回答已采纳
3
回答
聚合器是如何构建的?
比方说,我想要从许多来源(可以是旅行、
技术
或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢?或者Kayak.com如何聚合他们的数据?(这是一项旅游聚合服务。)
浏览 2
修改于2010-08-23
得票数 14
2
回答
SEO + ViewState =只适用于
爬虫
?是隐形吗?
这里有足够多的问号,所以我想避免这种
技术
。我对这两种情况都不满意,也找不到更多关于这个话题的东西。我潜在的解决方案是,只有当ViewState是一个
爬虫
时,才将UserAgent移动到页面底部,从而将这些
技术
结合起来。
爬虫
不使用ViewState,所以将ViewState
浏览 0
修改于2013-05-26
得票数 2
1
回答
在性能方面,为什么facebook不一次加载所有的JS文件?
所以,虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件),但我的问题是更通用的网站和网络
爬虫
的状态。我们应该担心这些
技术
(通过ajax加载主要内容)会影响网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/js/css)似乎是个好主意,但如果
爬虫
不能使用(当然是内容),就不是一个好主意。 谢谢!
浏览 2
修改于2017-05-23
得票数 3
3
回答
寻找关于搜索引擎背后的理论的好书
我正在做一个项目,要求我理解搜索引擎在网络上使用的不同
技术
。我是全新的学科,我正在寻找有用的资源和书籍的主题。如有任何建议,敬请见谅。
浏览 0
修改于2011-09-03
得票数 8
回答已采纳
2
回答
我们还应该关心ajax爬行规范吗?
似乎是谷歌
爬虫
运行js。但是ajax爬行文档
技术
仍然可以在谷歌开发者的网站上使用。 它们是否仍然有效,是否有必要加以遵循?
浏览 0
提问于2015-11-28
得票数 5
1
回答
抓取器正在获取相关链接。
我已经创建了一个使用scrapy.The
爬虫
爬虫
的网站和抓取链接。**所使用的
技术
:**Python,Scrapy Error抓取相对urls,因为刮刀器无法抓取网页。我要
爬虫
只取无源网址。
浏览 2
提问于2021-06-29
得票数 1
1
回答
获得由Shodan爬行的Screen发URL
当shodan爬行一个IP时,需要一个基于某种
技术
的屏幕截图(?)尽管如此,肖丹拍摄的大部分截图都是来自IP摄像头。 有什么方法可以访问
爬虫
在上面找到图像的URL吗?
爬虫
找到了"rtsp://blargh.com/1/stream",拍了一张那条小溪的截图。我能以某种方式访问这个确切的URL吗?
浏览 0
修改于2021-03-16
得票数 0
回答已采纳
2
回答
使用单个Web
爬虫
以预定义的格式抓取多个带有附件的网站?
基于我的无知和缺乏研究,我开始构建每个网页的
爬虫
,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个网页上抓取什么信息,很明显,这些网站都有自己的结构。我的百万美元的问题,有没有一个单一的
技术
或单一的网络
爬虫
,我可以用来抓取这些网站?我已经知道我想要的信息,这些网站很少在其网站结构方面进行更新,而且大多数网站都有需要下载的文档。或者,有没有更好的解决方案,可以减少我需要构建的网络
爬虫
的数量?此外,这些网络
爬虫
将仅用于下载我针对的网站的新信息。
浏览 3
修改于2021-02-13
得票数 0
1
回答
抓取
爬虫
:无法将多个urls存储到postgres中
我使用刮伤python.I创建了一个
爬虫
,我想将由
爬虫
获取的多个urls存储到postgres table.When中,启动
爬虫
,抓取urls并将表创建到postgres中,但是数据没有被存储。使用的
技术
: Scrapy错误:我无法存储所有的urls.The
爬虫
并不适用于所有的网站。
浏览 0
提问于2021-12-15
得票数 0
1
回答
如何抓取外部web搜索
例如,以下内容:它显示以下结果:单击每个名称旁边的任意一组数字将显示信息,例如:为了这个目的,我查看了抓取器、arachnode和其他网络
爬虫
,但我不太相信这是适合它的
技术
爬虫
能像用户一样爬行搜索吗?
浏览 2
修改于2014-05-30
得票数 0
回答已采纳
1
回答
无法在BlueMix容器中添加多个自定义日志
容器
爬虫
技术
有什么已知的问题吗?我可以做些什么来检查这些环境变量是否被正确地传递到
爬虫
程序中?
浏览 0
提问于2015-11-15
得票数 0
1
回答
为什么Kinesis或Crawler要在我的数据中创建分区?
上下文:根据胶水模式,我使用动态
技术
将来自lambda的数据流到一个S3桶中。然后,我在我的S3桶上运行一个
爬虫
来编目我的数据。但是,当数据存储在我的S3桶中时,数据存储在以下dir结构中:然后,当我在上面运行我的
爬虫
时,我的
爬虫
会创建4个额外的分区键问:为什么胶水
爬虫
要创建这些附加属性,我如何阻止它创建它们?或者,如何防止动态在S3中创建上面的dir结构,而只是转储带有时间戳的文件?
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
5
回答
防止机器人处理网站上的图像
我有一个用PHP
技术
创建的网站,我想阻止机器人从website.What中获取图像,这是防止机器人从网站上处理图像的最佳方法吗? 请确保它不会伤害SEO。请确保这不影响间谍和
爬虫
索引网站.
浏览 8
修改于2010-12-14
得票数 0
回答已采纳
1
回答
如何在python中创建基本语义搜索
我想用Python写一个基本的语义网络
爬虫
,我知道语义应用程序使用RDF文件,但还有什么?我安装了一些Python RDF模块,并且开始学习它们是如何工作的。你能向我介绍一下语义应用程序中使用的
技术
和技巧吗?
浏览 0
修改于2013-08-14
得票数 5
回答已采纳
1
回答
机器人/蜘蛛是否克隆公共git存储库?
虽然我想相信很多人正在找到我的代码并下载它,但其中一些代码的性质让我怀疑这些克隆是来自于机器人或搜索引擎
爬虫
/蜘蛛。有没有人知道克隆git存储库是搜索引擎
爬虫
的标准
技术
,还是我的代码比我想象的更受欢迎?
浏览 3
提问于2016-11-12
得票数 12
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券