文章/答案/技术大牛

发布

社区首页 >问答首页 >处理来自大型数据抓取器的数据

问处理来自大型数据抓取器的数据
EN

Stack Overflow用户

提问于 2021-01-19 10:00:55

回答 1查看 26关注 0票数 1

我已经从archive.org下载了一个很大的(>75 or )数据抓取，其中包含了2020年6月以来的大部分或全部推文。存档本身由31个.tar文件组成，每个文件包含嵌套文件夹，最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此存档中存储的数据的方法。我想使用MongoDB，因为它基于文档的数据库结构似乎非常适合这个归档文件中的数据类型。这样做的最好方法是什么？

下面是这个归档文件的(you can find it here)外观

任何帮助都将不胜感激。

编辑--明确地说，我并不打算使用MongoDB。我也对其他数据库解决方案持开放态度。

python

database

mongodb

twitter

回答 1

Stack Overflow用户

发布于 2021-01-19 10:29:43

MongoDB当然不是一个好主意。因为您需要在RAM中加载数据库。除非您有一个集群，否则您肯定没有足够的RAM来托管此内容。

因此，如果您仍然希望在此程度上使用mongoDB，则可能需要对其进行过滤。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65784547

复制

相似问题

问处理来自大型数据抓取器的数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理来自大型数据抓取器的数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理来自大型数据抓取器的数据
EN