我需要解析数以千计的提要,性能是一个基本要求。你有什么意见建议?
提前感谢!
发布于 2009-02-14 14:29:00
我还没有尝试过,但我最近读到了Feedzirra (它声称是为性能而构建的) :-
Feedzirra是一个提要库,旨在尽可能快地获取和更新多个提要。这包括使用libcurl-multi通过taf2- libxml获得更快的http get,使用libxml通过nokogiri和sax-machine获得更快的解析。
发布于 2009-02-14 15:20:05
您可以使用RFeedParser,一个(著名的) Python Universal FeedParser的Ruby-port。它是基于Hpricot的,而且非常快速和易于使用。
http://rfeedparser.rubyforge.org/
举个例子:
require 'rubygems'
require 'rfeedparser'
require 'open-uri'
feed = FeedParser::parse(open('http://feeds.feedburner.com/engadget'))
feed.entries.each do |entry|
puts entry.title
end发布于 2009-02-15 06:37:13
当你只有一把锤子时,一切看起来都像钉子。考虑使用Ruby之外的其他解决方案。虽然我喜欢Ruby和Rails,但我不会因为web开发或特定领域的语言而放弃它们,但我更喜欢用Java、Python甚至C++来执行您所描述的那种繁重的数据提升。
由于这些解析数据的目标很可能是一个数据库,因此它可以作为解决方案的Rails部分和其他语言部分之间的共同点。然后,您使用最好的工具来解决您的每个问题,结果可能更容易处理,并真正满足您的需求。
如果速度真的很重要,为什么要在上面添加额外的约束,并说:“哦,只要我能使用Ruby,它就是最重要的。”
https://stackoverflow.com/questions/549127
复制相似问题