数据不是完全干净的,但在熊猫中使用是没有问题的。pandas库为EDA提供了许多非常有用的函数。
但是,当我对大数据进行分析时,例如,当我使用10列的1亿条记录,从数据库表中读取它时,它不会完成,我的笔记本电脑内存不足,csv中的数据大小约为6 gb,我的RAM为14 GB,我的空闲使用量约为3-4 GB。
df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df)
profile.to_file(outputfile="myoutput.html")我也尝试过check_recoded = False选项。但它并不能完全帮助分析。有没有办法将数据分块并读取,最终作为一个整体生成摘要报告?或使用此函数处理大型数据集的任何其他方法。
发布于 2020-03-19 01:11:14
v2.4引入了最小模式,它禁用了昂贵的计算(如相关性和动态装箱):
from pandas_profiling import ProfileReport
profile = ProfileReport(df, minimal=True)
profile.to_file(output_file="output.html")发布于 2019-12-10 04:43:46
在pandas-profiling=1.4和当前(测试版) pandas-profiling=2.0之间,禁用相关性计算(从而大大减少计算)的语法发生了很大变化,如下所示:
profile = df.profile_report(correlations={
"pearson": False,
"spearman": False,
"kendall": False,
"phi_k": False,
"cramers": False,
"recoded":False,}
)此外,您还可以通过禁用柱状图绘制的柱状图计算来减少执行的计算量。
profile = df.profile_report(plot={'histogram': {'bins': None}}发布于 2019-06-10 12:48:51
当使用pandas分析对大型自由文本字段进行相关性分析时,是否尝试了以下选项可能会导致此问题?
df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df, , check_correlation = False)有关更多详细信息,请参阅以下github链接:https://github.com/pandas-profiling/pandas-profiling/issues/84
https://stackoverflow.com/questions/56035523
复制相似问题