问Web Crawler的常用输出格式
EN

Stack Overflow用户

提问于 2012-08-20 17:20:57

回答 1查看 851关注 0票数 0

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么？它会是XML，JSON吗？或者它会根据爬虫的不同而不同，例如: Python，Java？

回答已采纳

发布于 2012-08-22 02:16:58

这将有所不同，另外，你可能不想要一个输出‘文件’，因为网站可能很大。

我用ruby编写了一个叫做cobweb (http://github.com/stewartmckee/cobweb)的爬虫，它使用散列作为它的数据模型。当接收到每个页面时，系统会向您提供散列，以执行您希望执行的任何操作。

出于兴趣，你希望从爬虫中得到什么信息？我只是在想，一个相对简单的补充就是为cobweb创建一个web api，这是你可以使用的东西吗？

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12035083

复制

相似问题

问Web Crawler的常用输出格式EN