首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Web Crawler的常用输出格式

Web Crawler的常用输出格式
EN

Stack Overflow用户
提问于 2012-08-20 17:20:57
回答 1查看 851关注 0票数 0

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-08-22 02:16:58

这将有所不同,另外,你可能不想要一个输出‘文件’,因为网站可能很大。

我用ruby编写了一个叫做cobweb (http://github.com/stewartmckee/cobweb)的爬虫,它使用散列作为它的数据模型。当接收到每个页面时,系统会向您提供散列,以执行您希望执行的任何操作。

出于兴趣,你希望从爬虫中得到什么信息?我只是在想,一个相对简单的补充就是为cobweb创建一个web api,这是你可以使用的东西吗?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12035083

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档