我需要写一个爬虫来提取一些信息从一些预先选定的网站只。
我知道这是一个直接的工作,但我正在考虑使用谷歌应用程序引擎来完成这项工作。
也许我可以尝试Nutch为我做这件事。
这种方法的可行性有多大?
1)在google基础设施上托管爬虫2) Nutch +应用引擎-这可能吗?
发布于 2010-12-07 13:54:47
只要浏览一下nutch docs,我就会看到这样的评论:“这是完全基于底层Hadoop平台的Nutch的第二个版本”,这让我怀疑它不会在App Engine上运行。应用程序引擎应用程序在Python或Java沙箱中运行。
也就是说,你应该能够把一个基本的爬虫放在App Egnine上。基本实现可能包括启动使用urlfetch抓取页面的tasks,然后可选地插入其他任务以处理文档链接。您可以使用scheduled tasks开始爬行。
https://stackoverflow.com/questions/4364950
复制相似问题