搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何使用Anemone仅“爬行”根URL？

在下面的例子中，我希望anemone只在根网址(example.com)上执行。我不确定是否应该应用on_page_like方法，如果应该，我需要什么模式。require 'anemone' anemone.on_pages_like

浏览 0提问于2013-01-09得票数 3

回答已采纳

1回答

使用Anemone匹配URL结构

现在，我正在对Anemone执行以下操作： anemone.on_every_pageAnemone.crawl("http://www.findbrowsenodes.com/", :delay => 3) do |anemone</

浏览 3提问于2013-09-04得票数 2

1回答

我正在创建一个不同类型的when爬虫，当我使用没有存储的Anemone来抓取一个站点时，它最终会因为内存问题而崩溃。因此，我安装了Redis，redis-rb等，并更改了代码以使用redis存储。/storage/redis.rb:82:在rget’anemone (0.5.0) lib/ anemone /storage/redis.rb:41:ineach‘anemone (0.5.0)lib/ anemone /storage&

浏览 6修改于2011-11-26得票数 0

1回答

gems/anemone-0.7.2/lib/anemone/storage.rb:28:in ` `MongoDB'：未初始化的常量Mongo::Connection (NameError)

使用Anemone时，我在尝试使用MongoDB时遇到以下错误：代码如下所示：require 'mongo' Anemone.crawl("my.

浏览 2提问于2015-08-28得票数 2

2回答

如何防止Anemone存储某些信息？

海葵可以很容易地做到这一点： anemone.storage = Anemone:但是，使用上面的代码，Anemone收集并存储了很多我不需要的信息，包括每个页面的响应。我只需要存储URL。而且，尽管我花时间和在一起，我还是想不出如何告诉Anemone不要存储某些信息。

浏览 1提问于2011-04-20得票数 0

回答已采纳

1回答

使用anemone从网站获取urls列表时出错

代码：Anemone.crawl("http://www.example.com/") do |anemone| anemone.on_every_page do

浏览 0修改于2012-09-04得票数 3

回答已采纳

1回答

如何使用Anemone* / Nokogiri网络刮刀处理NILs？*

(url) anemone.on_pages_like %[/events/detail/.*] do |pageopeners: page.doc.at_css('.details h2').text puts show end 在Anemone

浏览 2修改于2013-11-30得票数 0

1回答

Rails Anemone和Postgres只存储URL

Websites/SampleCalendar/tabid/89/Default.aspxnamespace :db do task :fetch_a4apps => :environment do Anemone<

浏览 2修改于2012-11-01得票数 2

回答已采纳

2回答

Anemone Ruby spider -创建不带域名的键值数组

启动爬网的代码如下所示： anemone.on_every_page

浏览 2提问于2013-10-23得票数 2

2回答

使用Anemone爬行子域

我用的是银莲花。我如何抓取子域？例如，如果我有网站www.abc.com，我的爬虫也应该爬行support.abc.com或blah.abc.com。我使用的是Ruby 1.8.7和Rails 3。

浏览 1修改于2012-06-22得票数 3

回答已采纳

1回答

使用Anemone* Web Spider进行HTTP基本身份验证*

在不使用身份验证的情况下，我将执行以下操作：Anemone.crawl("http://example.com/") do |anemone| anemone.on_every_page如果我尝试使用"Anemone.crawl("")“，那么我只有第一个页面标题，但其他链接具有样式，并且我收到401error。

浏览 1修改于2013-08-08得票数 2

回答已采纳

2回答

Ruby，Mongodb，Anemone:可能存在内存泄漏的网络爬虫？

# Sample web_crawler.rb with Anemone, Mongodb and Ruby.require 'anemone' module Anemone def to_hash:obey_robots_txt => true, :user_agent => "Example - Web Crawler", :large_scale_crawl => tr

浏览 0修改于2012-02-24得票数 7

回答已采纳

2回答

爬行页面，它需要使用Anemone登录。

我使用Anemone宝石的方式如下：从数据库加载下一个链接，再次保存其内容和任何其他链接

浏览 2提问于2016-04-16得票数 2

1回答

Anemone可以抓取本地存储在我硬盘上的html文件吗？

为了加快这个过程，我想我应该先把网站下载到我的硬盘上，然后再用Anemone + Nokogiri这样的东西来抓取它。代码如下： titles = [] ('title').inner_h

浏览 0提问于2012-06-01得票数 2

回答已采纳

1回答

Ruby Anemone爬行器为访问的每个url添加一个标签

我设置了一个爬网：anemone.on_every_page do |page|end然而，我希望蜘蛛在它访问的每个URL上都使用谷歌分析反跟踪标签，而不一定真的点击链接。

浏览 1修改于2014-01-13得票数 3

回答已采纳

2回答

使用Ruby的Anemone* Gem刮掉网站上的所有电子邮件地址*

require 'rubygems'require 'nokogiri'require 'uri' hasListing = false anemone.on_every_pa

浏览 2提问于2017-04-20得票数 1

回答已采纳

2回答

如何使用Anemone、Boilerpipe和Nokigiri处理500内部服务器错误和404页面未找到

Anemone.crawl(name) do |anemone| if not (page.nil?

浏览 1修改于2013-09-03得票数 2

2回答

Ruby+Anemone网络爬虫:匹配以一系列数字结尾的URL的正则表达式

假设我试着抓取一个网站，跳过一个页面，结果如下： ...Anemone.crawl(url, :depth_limit => 3, :obey_robots_txt => true) do |anemone| anemon

浏览 0修改于2017-05-23得票数 3

回答已采纳

1回答

如何使用Anemone仅爬网一个子文件夹

我们可以用海葵抓取一个洞网站(例如：https://stackoverflow.com/)，但如果我只想专注于某个文件夹(例如：questions)怎么办？我该怎么做呢？也许可以使用"focus_crawl“方法？

浏览 0修改于2017-05-23得票数 2

1回答

无法访问页面数据，请使用带有socksify gem和Tor的anemone

我写了一个红宝石脚本使用银莲花宝石爬行一个网站。直接使用时，脚本运行良好。

浏览 4修改于2013-09-08得票数 1

回答已采纳

第 2 页第 3 页第 4 页第 5 页

点击加载更多

如何使用Anemone仅“爬行”根URL？

使用Anemone匹配URL结构

Rails: Anemone和Redis问题

gems/anemone-0.7.2/lib/anemone/storage.rb:28:in ` `MongoDB'：未初始化的常量Mongo::Connection (NameError)

如何防止Anemone存储某些信息？

使用anemone从网站获取urls列表时出错

如何使用Anemone* / Nokogiri网络刮刀处理NILs？*

Rails Anemone和Postgres只存储URL

Anemone Ruby spider -创建不带域名的键值数组

使用Anemone爬行子域

使用Anemone* Web Spider进行HTTP基本身份验证*

Ruby，Mongodb，Anemone:可能存在内存泄漏的网络爬虫？

爬行页面，它需要使用Anemone登录。

Anemone可以抓取本地存储在我硬盘上的html文件吗？

Ruby Anemone爬行器为访问的每个url添加一个标签

使用Ruby的Anemone* Gem刮掉网站上的所有电子邮件地址*

如何使用Anemone、Boilerpipe和Nokigiri处理500内部服务器错误和404页面未找到

Ruby+Anemone网络爬虫:匹配以一系列数字结尾的URL的正则表达式

如何使用Anemone仅爬网一个子文件夹

无法访问页面数据，请使用带有socksify gem和Tor的anemone

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐