如果您还在考虑一台计算机的范围，您可以使用线程、生产者/消费者模式或类似的模式进行扩展。基本上，有一个线程只读取文件，将行放入队列，并有N个线程从队列中选择元素并对其进行处理。这样，您将被IO和/或CPU限制。如果对队列大小设置了限制，您可以限制内存使用，即当队列很大时，生产者端等待一点，然后继续。

要进行扩展，您应该更改生成大型输入文件的过程，以生成许多更小的文件，称为切分。您可以查看数据流框架(如Beam )，以帮助您在许多计算机之间分发处理。

票数 1

页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwareengineering.stackexchange.com/questions/414835

复制

相似问题

问处理大型文件的更好方法
EN

回答 1

Software Engineering用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理大型文件的更好方法EN