我正在构建一个爬虫,我知道如何使用ruby机械化从网络中读取页面,使用以下代码:
require 'mechanize'
agent = Mechanize.new
agent.get "http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗?多么?
发布于 2011-09-29 00:49:15
在这种情况下,尝试使用机械化是没有意义的。也许你想解析一下HTML。然后尝试nokogiri (mechanize也将其用于解析)
例如,使用
Nokogiri::HTML(open('index.html'))而不是
session.get('http://www.google.com')发布于 2012-07-07 00:29:42
只需使用file://协议就可以了:
html_dir = File.dirname(__FILE__)
page = agent.get("file:///#{html_dir}/example-file.html")关于为什么有人会使用mechanize来读取本地html文件的问题:出于测试目的,我发现这是必要的--只需在本地存储一个示例文件并对其运行rspec即可。
发布于 2013-05-03 01:40:13
我无法让file://协议为我正确工作。相反,我通过在本地保存网页并注册URI来使用Fakeweb
stream = File.read("saved_google_page.html")
FakeWeb.register_uri(:get, "http://www.google.com", :body => stream, :content_type => "text/html")让Fakeweb通过正常的机械化过程在幕后返回它
agent = Mechanize.New
page = agent.get("http://www.google.com/")https://stackoverflow.com/questions/7586627
复制相似问题