我已经从archive.org下载了一个很大的(>75 or )数据抓取,其中包含了2020年6月以来的大部分或全部推文。存档本身由31个.tar文件组成,每个文件包含嵌套文件夹,最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此存档中存储的数据的方法。我想使用MongoDB,因为它基于文档的数据库结构似乎非常适合这个归档文件中的数据类型。这样做的最好方法是什么?
下面是这个归档文件的(you can find it here)外观


任何帮助都将不胜感激。
编辑--明确地说,我并不打算使用MongoDB。我也对其他数据库解决方案持开放态度。
发布于 2021-01-19 10:29:43
MongoDB当然不是一个好主意。因为您需要在RAM中加载数据库。除非您有一个集群,否则您肯定没有足够的RAM来托管此内容。
因此,如果您仍然希望在此程度上使用mongoDB,则可能需要对其进行过滤。
https://stackoverflow.com/questions/65784547
复制相似问题