首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在谷歌应用程序引擎上为选定的网站运行网络爬虫?

在谷歌应用程序引擎上为选定的网站运行网络爬虫?
EN

Stack Overflow用户
提问于 2010-12-06 17:34:30
回答 1查看 1.8K关注 0票数 3

我需要写一个爬虫来提取一些信息从一些预先选定的网站只。

我知道这是一个直接的工作,但我正在考虑使用谷歌应用程序引擎来完成这项工作。

也许我可以尝试Nutch为我做这件事。

这种方法的可行性有多大?

1)在google基础设施上托管爬虫2) Nutch +应用引擎-这可能吗?

EN

回答 1

Stack Overflow用户

发布于 2010-12-07 13:54:47

只要浏览一下nutch docs,我就会看到这样的评论:“这是完全基于底层Hadoop平台的Nutch的第二个版本”,这让我怀疑它不会在App Engine上运行。应用程序引擎应用程序在PythonJava沙箱中运行。

也就是说,你应该能够把一个基本的爬虫放在App Egnine上。基本实现可能包括启动使用urlfetch抓取页面的tasks,然后可选地插入其他任务以处理文档链接。您可以使用scheduled tasks开始爬行。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4364950

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档