首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Anemone、Boilerpipe和Nokigiri处理500内部服务器错误和404页面未找到

如何使用Anemone、Boilerpipe和Nokigiri处理500内部服务器错误和404页面未找到
EN

Stack Overflow用户
提问于 2013-09-03 04:35:51
回答 2查看 1.5K关注 0票数 2

我正在实现一个需要抓取网站的工具。我使用银莲花来爬行,在每个银莲花的页面上,我使用boilerpipe和Nokogiri来管理HTML格式,等等。

我的问题是:如果我得到500内部服务器错误,它使Nokogiri失败,因为没有页面。

代码语言:javascript
复制
Anemone.crawl(name) do |anemone|
   anemone.on_every_page do |page|
       if not (page.nil? && page.not_found?)
              result = Boilerpipe.extract(page.url, {:output => :htmlFragment, :extractor => :ArticleExtractor})
              doc = Nokogiri::HTML.parse(result)

       end
    end
end

在上面的例子中,如果有一个500内部服务器错误,应用程序将在Nokogiri::HTML.parse()上给出一个错误。我想避免这个问题。如果服务器给出一个错误,我想忽略这个页面继续计算。

有没有办法处理500内部服务器错误和404页找不到这些工具?

温馨的问候,雨果

EN

回答 2

Stack Overflow用户

发布于 2013-09-03 04:57:42

代码语言:javascript
复制
# gets the reponse of the link
res = Net::HTTP.get_response(URI.parse(url))

# if it returns a good code
if res.code.to_i >= 200 && res.code.to_i < 400 #good codes will be betweem 200 - 399
  # do something with the url
else
  # skip the object
  next
end
票数 5
EN

Stack Overflow用户

发布于 2013-09-03 04:56:04

我遇到了类似的问题。问题和答案在这里

How to handle 404 errors with Nokogiri

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18580441

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档