我有一个棒球数据df,其中一些列名是:
“游戏”( 2020
我想知道:
的相关性最高。
数据以csv文件的形式出现。

发布于 2022-05-25 13:07:56
看起来您可以使用groupby和transform方法聚合一些数据。您还可以导入和使用SQL查询dataframe的pandasql库。链接到类似的问题:Run sql query on pandas dataframe
发布于 2022-05-25 13:24:49
df = df[df['Games'] >= 100]将只保留100多个游戏的线。然后df['Home Runs'].max()会给出最大数字.在
df.corr()['Home Runs']中的最大值(不包括Home Runs) (可能使用.idxmax())应该会给出最相关的列。注意:您可能必须先进行一些聚合,比如df = df.groupby(['PlayerID']).sum()来获取职业统计数据,而不是年份统计数据,但是您说PlayerID不是唯一的标识符,所以您可能需要对此进行更深入的研究。.sum()聚合只对Games和Home Runs有意义,因此,如果在其他计算中需要Year列,请小心。
https://stackoverflow.com/questions/72377835
复制相似问题