需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
发布于 2012-08-22 02:16:58
这将有所不同,另外,你可能不想要一个输出‘文件’,因为网站可能很大。
我用ruby编写了一个叫做cobweb (http://github.com/stewartmckee/cobweb)的爬虫,它使用散列作为它的数据模型。当接收到每个页面时,系统会向您提供散列,以执行您希望执行的任何操作。
出于兴趣,你希望从爬虫中得到什么信息?我只是在想,一个相对简单的补充就是为cobweb创建一个web api,这是你可以使用的东西吗?
https://stackoverflow.com/questions/12035083
复制相似问题