我是Python的新手。我有2000个文件,每个大约100MB。我必须读取它们中的每一个,并将它们合并到一个大矩阵(或表)中。我可以使用并行处理来节省一些时间吗?如果是,是如何实现的?我试着搜索,事情看起来很复杂。目前,连续完成这项工作大约需要8个小时。我们有一个非常大的服务器,有1TB的RAM和几百个处理器。我怎样才能有效地利用它呢?
谢谢你的帮助。
发布于 2011-11-17 03:10:24
您可以使用模块在不同的进程中对文件进行预处理;但是,如果最终的表保存在内存中,那么该进程将成为瓶颈。
还有另一种可能的方法,将共享内存与对象一起使用。每个子进程可以负责将文件加载到映射内存的一个子进程中。
https://stackoverflow.com/questions/8157068
复制相似问题