文章/答案/技术大牛

发布

社区首页 >问答首页 >合并两个大型数据库时内核停止和重新启动

问合并两个大型数据库时内核停止和重新启动
EN

Stack Overflow用户

提问于 2022-07-23 12:25:20

回答 1查看 67关注 0票数 0

我知道这可能是个很普遍的问题，但我会试试的。我有3个巨大的数据库(每个数据库大约有500万个)，我必须将所有数据库合并在一起，但当我使用

db_cpc_id = pd.merge(df_id_appended, df_cpc_appended, how='left', on='docdb_family_id')

内核停止工作。对于如何避免内核重新启动，有什么建议吗？也许使用pd.concat()可以解决这个问题？

谢谢

python

pandas

merge

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-07-23 14:29:44

首先要考虑的是合并是内存密集型的，您可能没有足够的RAM来执行此操作。请看一看Vaex，因为这是一种快速和容易的方式来操纵大量的数据。https://vaex.io/。它的语法并不相同，但非常类似于熊猫。在下面的示例中，我假设您有5个CSV，可以加载和合并，然后存储。

import vaex

vaex_df1 = vaex.from_csv(file1,convert=True, chunk_size=5_000)
vaex_df2 = vaex.from_csv(file2,convert=True, chunk_size=5_000)
joined_df = vaex_df1.join(vaex_df2, how='left', on='docdb_family_id')

在运行代码时，请检查系统资源，以便更好地理解内核失败的原因:)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73090733

复制

相似问题

问合并两个大型数据库时内核停止和重新启动
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问合并两个大型数据库时内核停止和重新启动EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问合并两个大型数据库时内核停止和重新启动
EN