我想在GitHub上抓取某种类型的项目,比如我想抓取由特定作者和bla bla约束创建的源代码。Nutch有没有什么插件可以抓取这些信息,或者是抓取整个存储库的最佳方式。
我甚至想使用Nutch抓取公共托管版本控制系统的版本。有没有插件可以做同样的事情。
发布于 2012-01-12 01:53:05
Github附带了一个JSON API。使用存储库API获取特定用户的存储库列表,然后克隆它们。应该是几行shell的事情。
请参阅接口文档here。
发布于 2012-01-12 02:01:59
Nutch是一个搜索引擎,由Apache开发,基于Lucene后端。
看看github的robots.txt文件:https://github.com/robots.txt
除了特定的引擎(例如google),它还说:
User-agent: *
Disallow: /因此,你不能用Nutch抓取GitHub。
用搜索引擎抓取github似乎不是一个好主意。你会无缘无故地下载很多类似的页面。GitHub的搜索有什么问题?
请试着概括一下你的问题。你希望通过使用Nutch抓取github来达到什么目的?您希望执行哪种类型的搜索?
https://stackoverflow.com/questions/8816740
复制相似问题