腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(81)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何使用
Anemone
仅“爬行”根URL?
在下面的例子中,我希望
anemone
只在根网址(example.com)上执行。我不确定是否应该应用on_page_like方法,如果应该,我需要什么模式。require '
anemone
'
anemone
.on_pages_like
浏览 0
提问于2013-01-09
得票数 3
回答已采纳
1
回答
使用
Anemone
匹配URL结构
现在,我正在对
Anemone
执行以下操作:
anemone
.on_every_page
Anemone
.crawl("http://www.findbrowsenodes.com/", :delay => 3) do |
anemone</
浏览 3
提问于2013-09-04
得票数 2
1
回答
Rails:
Anemone
和Redis问题
我正在创建一个不同类型的when爬虫,当我使用没有存储的
Anemone
来抓取一个站点时,它最终会因为内存问题而崩溃。 因此,我安装了Redis,redis-rb等,并更改了代码以使用redis存储。/storage/redis.rb:82:在rget’
anemone
(0.5.0) lib/
anemone
/storage/redis.rb:41:ineach‘
anemone
(0.5.0)lib/
anemone
/storage&
浏览 6
修改于2011-11-26
得票数 0
1
回答
gems/
anemone
-0.7.2/lib/
anemone
/storage.rb:28:in ` `MongoDB':未初始化的常量Mongo::Connection (NameError)
使用
Anemone
时,我在尝试使用MongoDB时遇到以下错误:代码如下所示:require 'mongo'
Anemone
.crawl("my.
浏览 2
提问于2015-08-28
得票数 2
2
回答
如何防止
Anemone
存储某些信息?
海葵可以很容易地做到这一点:
anemone
.storage =
Anemone
:但是,使用上面的代码,
Anemone
收集并存储了很多我不需要的信息,包括每个页面的响应。我只需要存储URL。而且,尽管我花时间和在一起,我还是想不出如何告诉
Anemone
不要存储某些信息。
浏览 1
提问于2011-04-20
得票数 0
回答已采纳
1
回答
使用
anemone
从网站获取urls列表时出错
代码:
Anemone
.crawl("http://www.example.com/") do |
anemone
|
anemone
.on_every_page do
浏览 0
修改于2012-09-04
得票数 3
回答已采纳
1
回答
如何使用
Anemone
/ Nokogiri网络刮刀处理NILs?
(url)
anemone
.on_pages_like %[/events/detail/.*] do |pageopeners: page.doc.at_css('.details h2').text puts show end 在
Anemone
浏览 2
修改于2013-11-30
得票数 0
1
回答
Rails
Anemone
和Postgres只存储URL
Websites/SampleCalendar/tabid/89/Default.aspxnamespace :db do task :fetch_a4apps => :environment do
Anemone<
浏览 2
修改于2012-11-01
得票数 2
回答已采纳
2
回答
Anemone
Ruby spider -创建不带域名的键值数组
启动爬网的代码如下所示:
anemone
.on_every_page
浏览 2
提问于2013-10-23
得票数 2
2
回答
使用
Anemone
爬行子域
我用的是银莲花。我如何抓取子域?例如,如果我有网站www.abc.com,我的爬虫也应该爬行support.abc.com或blah.abc.com。我使用的是Ruby 1.8.7和Rails 3。
浏览 1
修改于2012-06-22
得票数 3
回答已采纳
2
回答
Ruby,Mongodb,
Anemone
:可能存在内存泄漏的网络爬虫?
# Sample web_crawler.rb with
Anemone
, Mongodb and Ruby.require '
anemone
' module
Anemone
def to_hash:obey_robots_txt => true, :user_agent => "Example - Web Crawler", :large_scale_crawl => tr
浏览 0
修改于2012-02-24
得票数 7
回答已采纳
1
回答
使用
Anemone
Web Spider进行HTTP基本身份验证
在不使用身份验证的情况下,我将执行以下操作:
Anemone
.crawl("http://example.com/") do |
anemone
|
anemone
.on_every_page如果我尝试使用"
Anemone
.crawl("")“,那么我只有第一个页面标题,但其他链接具有样式,并且我收到401error。
浏览 1
修改于2013-08-08
得票数 2
回答已采纳
2
回答
爬行页面,它需要使用
Anemone
登录。
我使用
Anemone
宝石的方式如下: 从数据库加载下一个链接,再次保存其内容和任何其他链接
浏览 2
提问于2016-04-16
得票数 2
1
回答
Anemone
可以抓取本地存储在我硬盘上的html文件吗?
为了加快这个过程,我想我应该先把网站下载到我的硬盘上,然后再用
Anemone
+ Nokogiri这样的东西来抓取它。代码如下: titles = [] ('title').inner_h
浏览 0
提问于2012-06-01
得票数 2
回答已采纳
1
回答
Ruby
Anemone
爬行器为访问的每个url添加一个标签
我设置了一个爬网:
anemone
.on_every_page do |page|end然而,我希望蜘蛛在它访问的每个URL上都使用谷歌分析反跟踪标签,而不一定真的点击链接。
浏览 1
修改于2014-01-13
得票数 3
回答已采纳
2
回答
使用Ruby的
Anemone
Gem刮掉网站上的所有电子邮件地址
require 'rubygems'require 'nokogiri'require 'uri' hasListing = false
anemone
.on_every_pa
浏览 2
提问于2017-04-20
得票数 1
回答已采纳
2
回答
如何使用
Anemone
、Boilerpipe和Nokigiri处理500内部服务器错误和404页面未找到
Anemone
.crawl(name) do |
anemone
| if not (page.nil?
浏览 1
修改于2013-09-03
得票数 2
2
回答
Ruby+
Anemone
网络爬虫:匹配以一系列数字结尾的URL的正则表达式
假设我试着抓取一个网站,跳过一个页面,结果如下: ...
Anemone
.crawl(url, :depth_limit => 3, :obey_robots_txt => true) do |
anemone
|
anemon
浏览 0
修改于2017-05-23
得票数 3
回答已采纳
1
回答
如何使用
Anemone
仅爬网一个子文件夹
我们可以用海葵抓取一个洞网站(例如:https://stackoverflow.com/),但如果我只想专注于某个文件夹(例如:questions)怎么办?我该怎么做呢?也许可以使用"focus_crawl“方法?
浏览 0
修改于2017-05-23
得票数 2
1
回答
无法访问页面数据,请使用带有socksify gem和Tor的
anemone
我写了一个红宝石脚本使用银莲花宝石爬行一个网站。直接使用时,脚本运行良好。
浏览 4
修改于2013-09-08
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
点击加载更多
领券