在python中创建了一个大型数据帧(几百万行,几千列)。该数据帧将使用PyRserve传递给R。这必须要快--最多几秒钟。
pandas中有一个to_json函数。对于这么大的对象,来回进行json对话是唯一的方法吗?对于这么大的物体可以吗?
我总是可以将它写入磁盘并读取它(使用fread时速度很快,这就是我所做的),但是最好的方法是什么呢?
发布于 2013-08-26 16:17:04
在没有尝试的情况下,to_json似乎是一个非常糟糕的想法,对于更大的数据帧来说,情况会变得更糟,因为这在写入和读取数据方面都有很多开销。
我推荐使用rpy2 (即supported directly by pandas),或者,如果您想要向磁盘写入某些内容(可能是因为数据帧只生成一次),您可以使用HDF5 (有关使用此格式连接pandas和R的更多信息,请参阅this thread )。
https://stackoverflow.com/questions/18438507
复制相似问题