目前,我在import.io中设置了一个爬虫,它可以通过非常多的页面(数万页)进行爬行。一旦这个爬虫完成,我试图查看数据,但只看到它已经全部丢失,我认为这是由于纯粹的量。是否有一种方法来设置我的爬虫,以便在收集数据时实时地将数据写入我的硬盘上的文件?
发布于 2015-07-23 11:49:31
是的,可以,在开始爬行之前,在链接区域下面有一个选项。

1-保存流是您选择文件名和保存位置的地方,也使您可以在文件名中添加.csv或.json
2-流类型从下拉列表中选择输出类型。
https://stackoverflow.com/questions/31577325
复制相似问题