腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
在python 2中使用漂亮的汤
我正在尝试用python2.7中的漂亮汤构建一个基本的web
爬虫
。://' # http:// or https://
r
'localhost|
浏览 3
修改于2017-05-23
得票数 1
回答已采纳
1
回答
将`www`‘重定向为’`www`‘,除非它的LetsEncrypt验证
我试图让LetsEncrypt autoSSL
爬虫
在我的htaccess上工作,它正在实现白名单方法。
爬虫
可以成功地验证我的域,因为它可以访问: RewriteCond %{HTTP_HOST} ^www\.(.+)$ [NC] RewriteRule ^ http:
浏览 0
修改于2018-03-01
得票数 0
回答已采纳
1
回答
SQL撇号导致web
爬虫
上的错误描述
我一直在研究网络
爬虫
。让我来描述一下这个问题。假设web
爬虫
将标题读取为堆栈溢出(当您放置url 时) 这是
爬虫
的密码。告诉我出了什么问题,希望如何解决,因为这让我发疯了。[a-z0-
9
]+;/i",'',(strip_tags(@$b
浏览 4
提问于2017-01-18
得票数 0
回答已采纳
1
回答
几乎没有痕迹的神秘的rails错误
一个
爬虫
出了个奇怪的问题。FATAL错误,但是跟踪非常有限,如下所示ArgumentError (invalid %-encoding (c ^ FK+
9
u=k \ ̕* ߚ>c+<O یo ʘ> C
R
! 2 D (5 x q#!` 4 p |8 I E lib/locale_middle
浏览 1
修改于2014-07-07
得票数 7
回答已采纳
2
回答
带
R
的with
爬虫
我需要创建一个可以加载到csv文件中的
R
代码。csv文件包含一个名为" link“的列,对于每个i(Row),有一个链接,代码需要从这个链接下载链接的内容,并将其放在一个单独的csv文件中。不出所料,我需要在这段代码中实现几样东西,这样它才能成为完成这一特定任务的好
爬虫
。 我想对每100次下载使用Sys.Sleep函数。这是我的硕士论文,这并不是真正的
R
编程,但我需要下载的内容,从许多网站,我已经被允许访问。接下来,我要对论文的内容进行分析,这也是我论文的重点所在
浏览 0
修改于2012-09-09
得票数 0
回答已采纳
2
回答
将旧的url动态301转换为新的url模式?
我已经从下面更新了我的url模式:至在Django中执行301的最简单方法是什么,而不是在我的Apache conf中硬编码Redirect 301?
浏览 3
提问于2010-10-01
得票数 1
回答已采纳
1
回答
刮除不同数量的url返回
我已经建立了一个
爬虫
在一个固定的领域内的螃蟹和提取url匹配的修复正则表达式。如果看到某个特定的url,则
爬虫
将跟踪该链接。
爬虫
可以很好地提取url,但是每次我运行
爬虫
时,它都会返回不同数量的链接,也就是说,每次运行它时,链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗?xyz.nl"] rules = (Rule(SgmlLinkExtractor
浏览 3
修改于2014-04-07
得票数 2
回答已采纳
1
回答
使用
R
的网络
爬虫
我想建立一个网络
爬虫
使用
R
程序为网站"",它可以访问与地址参数的网站,然后从网站获取生成的经度和纬度。这将对我拥有的数据集的长度重复。提前谢谢。
浏览 28
修改于2018-06-08
得票数 -2
1
回答
Scrapy暂停并启动
但是,如果crawler在服务器的后台静默运行,则无法执行ctrl+c 据我所知,ps -df会找到
爬虫
程序的进程,并以一种迫使
爬虫
程序关闭的方式杀死-s
9
id。但这将不可避免地中断
爬虫
的一些收尾工作。JOBDIR=crawls/somespider-1将在下次启动时丢失。我能做些什么来安全地停止
爬虫
?
浏览 23
提问于2019-08-16
得票数 0
1
回答
TYPO3 9.5: indexed_search不可用
到目前为止,没有问题,只需执行composer require "typo3/cms-indexed-search" ^
9
,因为indexed_search支持9.5。然后,文档告诉我安装
爬虫
扩展(据说是"aoepeople/ crawler ":"^6.7")。 问题是
爬虫
文档声明它支持最多8.7.99的TYPO3。没有风险-没有乐趣,所以试着安装
爬虫
,即使它不明确支持TYPO3 9.5。/www/html/pu
浏览 2
修改于2020-08-31
得票数 0
回答已采纳
1
回答
Haskell http-客户端集用户代理字符串
我在Haskell用手术刀写一个网络
爬虫
。request <- parseRequest weblink
r
<- return $ scrapeStringLike (L8.unpack p) torrentS mapM_ putStrLn我认为它检查用户代理字符串,并对真正的浏览器
浏览 2
提问于2017-05-08
得票数 0
回答已采纳
1
回答
上传从网站压缩到ftp服务的文件
我在做一个
爬虫
程序。我已经做了
爬虫
,从网页上塞新闻,它可以上传到我的本地计算机,但我想直接上传到FTP服务器。for i in range(0,len(a),2):
r
url, allow_redirects=True) fileName = datetime.now().strftime(
浏览 4
修改于2020-06-09
得票数 0
回答已采纳
1
回答
在JavaScript中使用正则表达式检测模式b.tech、m.tech等的问题
\:\/\/|\s)[a-z0-
9
-]+(\.[a-z0-
9
-]+)*(\.[a-z]{2,4})(\/+[a-z0-
9
_.\:\;-]*)*(\?[\&\%\|\+a-z0-
9
_=,\.\:\;-]*)?([\&\%\|\+&a-z0-
9
_=,\:\;\.-]*)([\!\#\/\&\%\|\+a-z0-
9
_=,\:\;\.-]*)}*/i;
浏览 0
修改于2014-06-24
得票数 0
1
回答
crawler JMeter中出错
我在JMeter中有一个
爬虫
测试(
爬虫
)的问题,我在java中也有本机代码,它不能工作,因为我需要在POST中发送一个名为javax.faces.ViewState的参数 .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_
9
_
浏览 2
提问于2017-04-06
得票数 0
1
回答
PHP pthread:向池中添加一个“线程”中的新对象
我的目标是创建一个小的网络
爬虫
。该过程应该继续,直到找不到新的URL。我的当前绘图如下:
爬虫
提取urls并将其放入池中。因此,每个Worker都有一个对池的引用,因此
爬虫
可以通过worker访问池对象。{ public functi
浏览 1
提问于2017-02-04
得票数 1
1
回答
scrapy -正在尝试获取“下一个”url
我正在使用scrapy,并试图提出一个restrict_xpaths规则,这样
爬虫
将总是只去下一个图像。我的目标是不断地抓取下一个。allowed_domains = ["flickr.com"]"https://www.flickr.com/photos/indymcduff/6632326011/in/photolist-
9
uQnYG-
9
SnqTY-qjXTHY-onEUN5-5d72
浏览 0
修改于2015-11-19
得票数 0
1
回答
Parse.com如何在Json中同步网络数据
我已经创建了一些
爬虫
,这些
爬虫
可以使用kimonolabs.com和parsehub.com从一些网站收集数据。我想根据
爬虫
获得的数据创建一个iPhone应用程序,并通过他们的api同步
爬虫
提供给我的数据。 因此,如果
爬虫
发现从网站的任何新的数据,我希望在这些数据的变化同步。在将数据导入parse.com之后,我需要分析这些数据,并将其中的一些数据(特定的查询数据)提供给iPhone应用程序,我将根据
爬虫
的数据创建该应用程序。apikey=8OBDXxQPcoAcW
9
A
浏览 3
修改于2015-12-29
得票数 0
回答已采纳
1
回答
facebook开放图和AngularJs
下面这篇文章描述了如何在一个有角度的应用程序中实现社会共享: <rule name="Imported Rule 1" stopProcessing="true"> <conditions> <add input="{HTTP_USE
浏览 2
修改于2015-01-07
得票数 3
4
回答
加快web抓取器速度
我对scrapy甚至python都是新手,但还是设法写了一个
爬虫
来完成这项工作。然而,它真的很慢(它需要大约。28小时爬行23770页)。我已经查看了scrapy网页、邮件列表和stackoverflow,但我似乎找不到初学者可以理解的编写快速
爬虫
的通用建议。也许我的问题不是
爬虫
本身,而是我运行它的方式。欢迎所有建议!so=1&type=Villa&type=Ejerlejlighed&type=
R
%%C3%%A6kkehus&kom=&amt=&fraPostnr=&
浏览 1
修改于2014-12-09
得票数 18
回答已采纳
2
回答
使用wget抓取网站并限制抓取的链接总数
我想通过使用wget工具来学习更多关于
爬虫
的知识。我有兴趣爬行我的部门的网站,并找到该网站上的前100个链接。到目前为止,下面的命令就是我所拥有的。如何限制
爬虫
在100个链接后停止?wget -
r
-o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"
浏览 0
修改于2011-02-12
得票数 3
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券