文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用Pandas分析来分析大型数据集？

问如何使用Pandas分析来分析大型数据集？
EN

Stack Overflow用户

提问于 2019-05-08 15:21:09

回答 5查看 10.5K关注 0票数 8

数据不是完全干净的，但在熊猫中使用是没有问题的。pandas库为EDA提供了许多非常有用的函数。

但是，当我对大数据进行分析时，例如，当我使用10列的1亿条记录，从数据库表中读取它时，它不会完成，我的笔记本电脑内存不足，csv中的数据大小约为6 gb，我的RAM为14 GB，我的空闲使用量约为3-4 GB。

df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df)
profile.to_file(outputfile="myoutput.html")

我也尝试过check_recoded = False选项。但它并不能完全帮助分析。有没有办法将数据分块并读取，最终作为一个整体生成摘要报告？或使用此函数处理大型数据集的任何其他方法。

python

pandas

profiling

pandas-profiling

回答 5

Stack Overflow用户

发布于 2020-03-19 01:11:14

v2.4引入了最小模式，它禁用了昂贵的计算(如相关性和动态装箱)：

from pandas_profiling import ProfileReport


profile = ProfileReport(df, minimal=True)
profile.to_file(output_file="output.html")

票数 8

Stack Overflow用户

发布于 2019-12-10 04:43:46

在pandas-profiling=1.4和当前(测试版) pandas-profiling=2.0之间，禁用相关性计算(从而大大减少计算)的语法发生了很大变化，如下所示：

profile = df.profile_report(correlations={
    "pearson": False,
    "spearman": False,
    "kendall": False,
    "phi_k": False,
    "cramers": False,
    "recoded":False,}
)

此外，您还可以通过禁用柱状图绘制的柱状图计算来减少执行的计算量。

profile = df.profile_report(plot={'histogram': {'bins': None}}

票数 3

Stack Overflow用户

发布于 2019-06-10 12:48:51

当使用pandas分析对大型自由文本字段进行相关性分析时，是否尝试了以下选项可能会导致此问题？

df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df, , check_correlation = False)

有关更多详细信息，请参阅以下github链接：https://github.com/pandas-profiling/pandas-profiling/issues/84

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56035523

复制

相似问题

问如何使用Pandas分析来分析大型数据集？
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Pandas分析来分析大型数据集？EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Pandas分析来分析大型数据集？
EN