搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

在python 2中使用漂亮的汤

我正在尝试用python2.7中的漂亮汤构建一个基本的web爬虫。://' # http:// or https:// r'localhost|&#x

浏览 3修改于2017-05-23得票数 1

回答已采纳

1回答

将`www`‘重定向为’`www`‘，除非它的LetsEncrypt验证

我试图让LetsEncrypt autoSSL爬虫在我的htaccess上工作，它正在实现白名单方法。爬虫可以成功地验证我的域，因为它可以访问： RewriteCond %{HTTP_HOST} ^www\.(.+)$ [NC] RewriteRule ^ http:

浏览 0修改于2018-03-01得票数 0

回答已采纳

1回答

SQL撇号导致web爬虫上的错误描述

我一直在研究网络爬虫。让我来描述一下这个问题。假设web爬虫将标题读取为堆栈溢出(当您放置url 时) 这是爬虫的密码。告诉我出了什么问题，希望如何解决，因为这让我发疯了。[a-z0-9]+;/i",'',(strip_tags(@$b

浏览 4提问于2017-01-18得票数 0

回答已采纳

1回答

几乎没有痕迹的神秘的rails错误

一个爬虫出了个奇怪的问题。FATAL错误，但是跟踪非常有限，如下所示ArgumentError (invalid %-encoding (c ^ FK+ 9u=k \ ̕* ߚ>c+<O یo ʘ> C R! 2 D (5 x q#!` 4 p |8 I E lib/locale_middle

浏览 1修改于2014-07-07得票数 7

回答已采纳

2回答

我需要创建一个可以加载到csv文件中的R代码。csv文件包含一个名为" link“的列，对于每个i(Row)，有一个链接，代码需要从这个链接下载链接的内容，并将其放在一个单独的csv文件中。不出所料，我需要在这段代码中实现几样东西，这样它才能成为完成这一特定任务的好爬虫。我想对每100次下载使用Sys.Sleep函数。这是我的硕士论文，这并不是真正的R编程，但我需要下载的内容，从许多网站，我已经被允许访问。接下来，我要对论文的内容进行分析，这也是我论文的重点所在

浏览 0修改于2012-09-09得票数 0

回答已采纳

2回答

将旧的url动态301转换为新的url模式？

我已经从下面更新了我的url模式：至在Django中执行301的最简单方法是什么，而不是在我的Apache conf中硬编码Redirect 301？

浏览 3提问于2010-10-01得票数 1

回答已采纳

1回答

刮除不同数量的url返回

我已经建立了一个爬虫在一个固定的领域内的螃蟹和提取url匹配的修复正则表达式。如果看到某个特定的url，则爬虫将跟踪该链接。爬虫可以很好地提取url，但是每次我运行爬虫时，它都会返回不同数量的链接，也就是说，每次运行它时，链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗？xyz.nl"] rules = (Rule(SgmlLinkExtractor

浏览 3修改于2014-04-07得票数 2

回答已采纳

1回答

使用R的网络爬虫

我想建立一个网络爬虫使用R程序为网站""，它可以访问与地址参数的网站，然后从网站获取生成的经度和纬度。这将对我拥有的数据集的长度重复。提前谢谢。

浏览 28修改于2018-06-08得票数 -2

1回答

Scrapy暂停并启动

但是，如果crawler在服务器的后台静默运行，则无法执行ctrl+c 据我所知，ps -df会找到爬虫程序的进程，并以一种迫使爬虫程序关闭的方式杀死-s 9 id。但这将不可避免地中断爬虫的一些收尾工作。JOBDIR=crawls/somespider-1将在下次启动时丢失。我能做些什么来安全地停止爬虫？

浏览 23提问于2019-08-16得票数 0

1回答

TYPO3 9.5: indexed_search不可用

到目前为止，没有问题，只需执行composer require "typo3/cms-indexed-search" ^9，因为indexed_search支持9.5。然后，文档告诉我安装爬虫扩展(据说是"aoepeople/ crawler "："^6.7")。问题是爬虫文档声明它支持最多8.7.99的TYPO3。没有风险-没有乐趣，所以试着安装爬虫，即使它不明确支持TYPO3 9.5。/www/html/pu

浏览 2修改于2020-08-31得票数 0

回答已采纳

1回答

Haskell http-客户端集用户代理字符串

我在Haskell用手术刀写一个网络爬虫。request <- parseRequest weblink r<- return $ scrapeStringLike (L8.unpack p) torrentS mapM_ putStrLn我认为它检查用户代理字符串，并对真正的浏览器

浏览 2提问于2017-05-08得票数 0

回答已采纳

1回答

上传从网站压缩到ftp服务的文件

我在做一个爬虫程序。我已经做了爬虫，从网页上塞新闻，它可以上传到我的本地计算机，但我想直接上传到FTP服务器。for i in range(0,len(a),2): rurl, allow_redirects=True) fileName = datetime.now().strftime(

浏览 4修改于2020-06-09得票数 0

回答已采纳

1回答

在JavaScript中使用正则表达式检测模式b.tech、m.tech等的问题

\:\/\/|\s)[a-z0-9-]+(\.[a-z0-9-]+)*(\.[a-z]{2,4})(\/+[a-z0-9_.\:\;-]*)*(\?[\&\%\|\+a-z0-9_=,\.\:\;-]*)?([\&\%\|\+&a-z0-9_=,\:\;\.-]*)([\!\#\/\&\%\|\+a-z0-9_=,\:\;\.-]*)}*/i;

浏览 0修改于2014-06-24得票数 0

1回答

crawler JMeter中出错

我在JMeter中有一个爬虫测试(爬虫)的问题，我在java中也有本机代码，它不能工作，因为我需要在POST中发送一个名为javax.faces.ViewState的参数 .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_

浏览 2提问于2017-04-06得票数 0

1回答

PHP pthread:向池中添加一个“线程”中的新对象

我的目标是创建一个小的网络爬虫。该过程应该继续，直到找不到新的URL。我的当前绘图如下:爬虫提取urls并将其放入池中。因此，每个Worker都有一个对池的引用，因此爬虫可以通过worker访问池对象。{ public functi

浏览 1提问于2017-02-04得票数 1

1回答

scrapy -正在尝试获取“下一个”url

我正在使用scrapy，并试图提出一个restrict_xpaths规则，这样爬虫将总是只去下一个图像。我的目标是不断地抓取下一个。allowed_domains = ["flickr.com"]"https://www.flickr.com/photos/indymcduff/6632326011/in/photolist-9uQnYG-9SnqTY-qjXTHY-onEUN5-5d72

浏览 0修改于2015-11-19得票数 0

1回答

Parse.com如何在Json中同步网络数据

我已经创建了一些爬虫，这些爬虫可以使用kimonolabs.com和parsehub.com从一些网站收集数据。我想根据爬虫获得的数据创建一个iPhone应用程序，并通过他们的api同步爬虫提供给我的数据。因此，如果爬虫发现从网站的任何新的数据，我希望在这些数据的变化同步。在将数据导入parse.com之后，我需要分析这些数据，并将其中的一些数据(特定的查询数据)提供给iPhone应用程序，我将根据爬虫的数据创建该应用程序。apikey=8OBDXxQPcoAcW9A

浏览 3修改于2015-12-29得票数 0

回答已采纳

1回答

facebook开放图和AngularJs

下面这篇文章描述了如何在一个有角度的应用程序中实现社会共享： <rule name="Imported Rule 1" stopProcessing="true"> <conditions> <add input="{HTTP_USE

浏览 2修改于2015-01-07得票数 3

4回答

加快web抓取器速度

我对scrapy甚至python都是新手，但还是设法写了一个爬虫来完成这项工作。然而，它真的很慢(它需要大约。28小时爬行23770页)。我已经查看了scrapy网页、邮件列表和stackoverflow，但我似乎找不到初学者可以理解的编写快速爬虫的通用建议。也许我的问题不是爬虫本身，而是我运行它的方式。欢迎所有建议！so=1&type=Villa&type=Ejerlejlighed&type=R%%C3%%A6kkehus&kom=&amt=&fraPostnr=&

浏览 1修改于2014-12-09得票数 18

回答已采纳

2回答

使用wget抓取网站并限制抓取的链接总数

我想通过使用wget工具来学习更多关于爬虫的知识。我有兴趣爬行我的部门的网站，并找到该网站上的前100个链接。到目前为止，下面的命令就是我所拥有的。如何限制爬虫在100个链接后停止？wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

浏览 0修改于2011-02-12得票数 3

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

在python 2中使用漂亮的汤

将`www`‘重定向为’`www`‘，除非它的LetsEncrypt验证

SQL撇号导致web爬虫上的错误描述

几乎没有痕迹的神秘的rails错误

带R的with爬虫

将旧的url动态301转换为新的url模式？

刮除不同数量的url返回

使用R的网络爬虫

Scrapy暂停并启动

TYPO3 9.5: indexed_search不可用

Haskell http-客户端集用户代理字符串

上传从网站压缩到ftp服务的文件

在JavaScript中使用正则表达式检测模式b.tech、m.tech等的问题

crawler JMeter中出错

PHP pthread:向池中添加一个“线程”中的新对象

scrapy -正在尝试获取“下一个”url

Parse.com如何在Json中同步网络数据

facebook开放图和AngularJs

加快web抓取器速度

使用wget抓取网站并限制抓取的链接总数

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐