我正在考虑写我自己的,但我想知道是否有好的网络爬虫在那里是用Ruby编写的。
除了一个成熟的网络爬虫,任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。
发布于 2012-02-06 16:08:30
我正在构建袋熊,一个用于抓取网页和提取内容的Ruby DSL。在github https://github.com/felipecsl/wombat上查看它
它还处于早期阶段,但已经具备了基本功能。很快就会添加更多的东西。
发布于 2011-02-13 08:25:54
我过去常常为我的工作编写爬虫,页面抓取器和站点分析器,并且仍然定期编写它们来满足我的一些需要。
Ruby有一些很好的宝石,可以让它变得简单:
注意: OpenURI有一些缺陷和漏洞,可能会影响毫无戒心的程序员,所以它在某种程度上已经失宠了。:RestClient是一个非常有价值的继任者。
用于处理URL的
<a>标记的工作更多。就此而言,Mechanize也有返回页面中所有链接的links方法,但您仍然需要对它们进行过滤,以确定是要跟踪还是忽略它们。在这之后,您还需要让您的代码意识到适当的爬行规范:What are the key considerations when creating a web crawler?
发布于 2012-06-22 01:12:10
所以你想要一个好的基于Ruby的web crawler
尝试使用spider或anemone。根据RubyGems下载量,这两款应用的使用率都很高。
到目前为止,其他答案都很详细,也很有帮助,但他们并没有像激光一样专注于这个问题,这个问题要求为web 爬虫提供ruby库。看起来这种区别可能会变得混乱:请参阅my answer to "Crawling vs. Web-Scraping?"
https://stackoverflow.com/questions/4981379
复制相似问题