首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬行版本控制系统

爬行版本控制系统
EN

Stack Overflow用户
提问于 2012-01-11 17:15:07
回答 2查看 440关注 0票数 0

我想在GitHub上抓取某种类型的项目,比如我想抓取由特定作者和bla bla约束创建的源代码。Nutch有没有什么插件可以抓取这些信息,或者是抓取整个存储库的最佳方式。

我甚至想使用Nutch抓取公共托管版本控制系统的版本。有没有插件可以做同样的事情。

EN

回答 2

Stack Overflow用户

发布于 2012-01-12 01:53:05

Github附带了一个JSON API。使用存储库API获取特定用户的存储库列表,然后克隆它们。应该是几行shell的事情。

请参阅接口文档here

票数 2
EN

Stack Overflow用户

发布于 2012-01-12 02:01:59

Nutch是一个搜索引擎,由Apache开发,基于Lucene后端。

看看github的robots.txt文件:https://github.com/robots.txt

除了特定的引擎(例如google),它还说:

代码语言:javascript
复制
User-agent: *
Disallow: /

因此,你不能用Nutch抓取GitHub。

用搜索引擎抓取github似乎不是一个好主意。你会无缘无故地下载很多类似的页面。GitHub的搜索有什么问题?

请试着概括一下你的问题。你希望通过使用Nutch抓取github来达到什么目的?您希望执行哪种类型的搜索?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8816740

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档