首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Pandas分析来分析大型数据集?

如何使用Pandas分析来分析大型数据集?
EN

Stack Overflow用户
提问于 2019-05-08 15:21:09
回答 5查看 10.5K关注 0票数 8

数据不是完全干净的,但在熊猫中使用是没有问题的。pandas库为EDA提供了许多非常有用的函数。

但是,当我对大数据进行分析时,例如,当我使用10列的1亿条记录,从数据库表中读取它时,它不会完成,我的笔记本电脑内存不足,csv中的数据大小约为6 gb,我的RAM为14 GB,我的空闲使用量约为3-4 GB。

代码语言:javascript
复制
df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df)
profile.to_file(outputfile="myoutput.html")

我也尝试过check_recoded = False选项。但它并不能完全帮助分析。有没有办法将数据分块并读取,最终作为一个整体生成摘要报告?或使用此函数处理大型数据集的任何其他方法。

EN

回答 5

Stack Overflow用户

发布于 2020-03-19 01:11:14

v2.4引入了最小模式,它禁用了昂贵的计算(如相关性和动态装箱):

代码语言:javascript
复制
from pandas_profiling import ProfileReport


profile = ProfileReport(df, minimal=True)
profile.to_file(output_file="output.html")
票数 8
EN

Stack Overflow用户

发布于 2019-12-10 04:43:46

pandas-profiling=1.4和当前(测试版) pandas-profiling=2.0之间,禁用相关性计算(从而大大减少计算)的语法发生了很大变化,如下所示:

代码语言:javascript
复制
profile = df.profile_report(correlations={
    "pearson": False,
    "spearman": False,
    "kendall": False,
    "phi_k": False,
    "cramers": False,
    "recoded":False,}
)

此外,您还可以通过禁用柱状图绘制的柱状图计算来减少执行的计算量。

代码语言:javascript
复制
profile = df.profile_report(plot={'histogram': {'bins': None}}
票数 3
EN

Stack Overflow用户

发布于 2019-06-10 12:48:51

当使用pandas分析对大型自由文本字段进行相关性分析时,是否尝试了以下选项可能会导致此问题?

代码语言:javascript
复制
df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df, , check_correlation = False)

有关更多详细信息,请参阅以下github链接:https://github.com/pandas-profiling/pandas-profiling/issues/84

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56035523

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档