腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
如何使用asp.net mvc3和c#
构建
网络
爬虫
?
对于这一个,我还需要建立网络
爬虫
,其中填充搜索引擎的数据。总而言之,我需要以下内容:请任何人有任何想法或资源或书籍。请与我们分享。
浏览 8
修改于2016-06-24
得票数 2
2
回答
良好的网络
爬虫
“礼仪”
指南
我正在
构建
一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会通过点击广告和各种各样的问题来制造麻烦。 那么,好的网络
爬虫
“礼仪”的
指南
是什么呢?阻止
爬虫
点击广告-这个在我的脑海中特别此刻.如何阻止我的机器人“点击”广告?如果它直接进入广告中的url,它是否被算为点击?
浏览 1
修改于2009-06-14
得票数 3
回答已采纳
1
回答
如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX
谷歌网站管理员
指南
解释说,web服务器应该处理包含_escaped_fragment_的url请求(
爬虫
将www.example.com/ajax.html#!我如何才能确保
爬虫
获得提要,我的网站获得索引?
浏览 0
提问于2012-10-09
得票数 6
1
回答
如何:获取Python Scrapy以运行简单的xpath检索
我是python的新手,正在尝试
构建
一个脚本,它最终会将页面标题和s从指定的URL提取到我指定格式的.csv中。我尝试过让
爬虫
在CMD中工作,方法是: response.xpath("/html/head/title/text()").get() 所以xpath必须是正确的。不幸的是,当我运行我的
爬虫
所在的文件时,它似乎从来都不能正常工作。我认为问题出在最后一段代码中,不幸的是,我遵循的所有
指南
似乎都使用CSS。
浏览 17
提问于2019-04-17
得票数 1
4
回答
构建
web
爬虫
我目前正在开发一个内置网络
爬虫
的自定义搜索引擎。由于某种原因,我不喜欢多线程,因此到目前为止,我的索引器是以单线程的方式编写的。现在,我在
构建
爬虫
时遇到了一个小难题。
浏览 2
修改于2013-09-27
得票数 1
2
回答
如何隐藏一个具有攻击性的
爬虫
?
我已经创建了一个
爬虫
,但我不想被禁止访问该网站。 有没有办法减少
爬虫
的攻击性,或者以某种方式隐藏它,这样就不会被“注意”,也不会给我正在爬行的提供商/网站带来问题?制作一个可接受的
爬虫
的ANy提示或
指南
?
浏览 1
提问于2012-12-25
得票数 2
2
回答
Sitemap.xml用单引号和逗号为URL生成404's
如果我将单引号保留在sitemap.xml loc条目中,一些
爬虫
(最显著的是必应)会将URL截断到单引号之前的点。 如果我根据'将单引号编码为本
指南
,一些
爬虫
会截断URL直到并包含符号。然而,根据
指南
,我的sitemap.xml是“正确的”,谷歌网站管理员展示了一个垃圾-吨404's -其中大多数显示谷歌
爬虫
使用的sitemap.xml编码形式的网址(例如,http://example.com电子邮件包含访问者尝试的URL (在本例中为
爬虫
)。在
浏览 0
提问于2015-02-17
得票数 2
回答已采纳
5
回答
有哪些好的基于Ruby的网络
爬虫
?
我正在考虑写我自己的,但我想知道是否有好的网络
爬虫
在那里是用Ruby编写的。 除了一个成熟的网络
爬虫
,任何可能有助于
构建
网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于
构建
网络
爬虫
的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
1
回答
Python-Selenium
爬虫
冻结,特别是在无头模式下(不可复制的bug)
我
构建
了一个
爬虫
,它获取用户输入的产品列表的产品信息。有时,
爬虫
会结冰,特别是如果产品列表很长,如果
爬虫
在无头模式下运行的话。因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测
爬虫
已经冻结,然后再试一次?
爬虫
是使用Selenium和Python
构建
的。
浏览 2
提问于2019-05-21
得票数 1
2
回答
如何从持久卷向elasticSearch摄取.json文件
我有一个网络
爬虫
,抓取数以千计的网站,并将其存储在Kubernetes上的永久卷中。 在这个pod终止之后,我想将PV中的.json文件摄取到ECK中。另外,我正在遵循
指南
。
浏览 20
修改于2021-09-21
得票数 0
1
回答
学习多线程Java
爬虫
的良好开端
我正在用Java开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用Java编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java
构建
和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
多语种网站的URL结构
它是用AngularJS
构建
的,我正在使用角度转换来提供i18n。 不知道这里是否也是问这样一个问题的最佳地点。
浏览 1
提问于2016-02-13
得票数 1
回答已采纳
1
回答
从阿帕奇·蒂卡开始吗?
我想编写一个使用Apache Tika下载网页文本内容的Java web
爬虫
,但我是使用Apache项目的新手,而且我还没有找到明确的源代码来明确如何将Tika集成到程序中。根据我从互联网上收集到的信息,我已经在命令行中使用Maven
构建
了Tika,但是我不知道从哪里开始使用Tika类(?)比如我的Java程序中的Parser等等。请原谅我的“初学者”的问题,但一步一步的
指南
准备Tika将被使用将不胜感激。
浏览 3
提问于2013-07-23
得票数 1
回答已采纳
1
回答
使用Bixo
构建
垂直
爬虫
我遇到了一个开源
爬虫
Bixo。有人试过吗?你能分享一下学习的过程吗?我们是否可以轻松地
构建
定向
爬虫
(与Nutch/Heritrix相比)?谢谢Nayn
浏览 1
提问于2010-07-19
得票数 3
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler
构建
URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个
浏览 0
修改于2017-05-23
得票数 2
5
回答
C#中任何好的开源网络爬行框架
我正在
构建
一个购物比较引擎,我需要
构建
一个爬行引擎来执行日常数据收集过程。 我已经决定在C#中
构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。因此,我决定不在它们的基础上进行
构建
。如果他们知道有什么好的开源
爬虫
框架,比如java有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序
浏览 2
修改于2010-12-06
得票数 9
回答已采纳
1
回答
Python
爬虫
。解析和执行ajax
我有一个
爬虫
的基本结构。现在我在一些php驱动的网站上发布了它,它就像一个护身符。不过,现在我想让它从ajax内容
构建
数据表。目前,我正在使用Mechanize for PYTHON和perl来
构建
我的
爬虫
。虽然机械化模块不执行AJAX。如何访问由异步ajax
构建
的内容?
浏览 2
提问于2012-01-26
得票数 2
回答已采纳
1
回答
vuejs SPA应用程序和预录制
指南
(+ sitemap)
I正在寻找通用
指南
(如何)。还有一个问题:我是否应该将这些预录制页面添加到我的站点地图中?
浏览 0
提问于2019-09-12
得票数 0
1
回答
gem安装失败
我试图通过使用gem命令安装instagram
爬虫
:但我收到以下错误:
构建
本机扩展。这需要一段时间..。错误:安装instagram
爬虫
时出错:错误:无法
构建
创业板本机扩展。
浏览 0
提问于2019-02-05
得票数 0
1
回答
Javascript:如何在不本地保存输出文件的情况下直接上传到S3?
我在使用nodejs/puppeteer开发
爬虫
时遇到了问题。旧的
爬虫
是: 如果你有这样的情况,我想收到一个
指南
。我非常感谢你的评论或答复:)
浏览 0
提问于2019-08-27
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券