首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >处理来自大型数据抓取器的数据

处理来自大型数据抓取器的数据
EN

Stack Overflow用户
提问于 2021-01-19 10:00:55
回答 1查看 26关注 0票数 1

我已经从archive.org下载了一个很大的(>75 or )数据抓取,其中包含了2020年6月以来的大部分或全部推文。存档本身由31个.tar文件组成,每个文件包含嵌套文件夹,最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此存档中存储的数据的方法。我想使用MongoDB,因为它基于文档的数据库结构似乎非常适合这个归档文件中的数据类型。这样做的最好方法是什么?

下面是这个归档文件的(you can find it here)外观

任何帮助都将不胜感激。

编辑--明确地说,我并不打算使用MongoDB。我也对其他数据库解决方案持开放态度。

EN

回答 1

Stack Overflow用户

发布于 2021-01-19 10:29:43

MongoDB当然不是一个好主意。因为您需要在RAM中加载数据库。除非您有一个集群,否则您肯定没有足够的RAM来托管此内容。

因此,如果您仍然希望在此程度上使用mongoDB,则可能需要对其进行过滤。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65784547

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档