首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在python3中查询df

在python3中查询df
EN

Stack Overflow用户
提问于 2022-05-25 12:41:03
回答 2查看 42关注 0票数 -2

我有一个棒球数据df,其中一些列名是:

“游戏”( 2020

  • "PlayerID“
  1. )--指玩家在那一年玩过的游戏数量,而
  2. 的”年份“--包含了1990年到之间的值--并不是唯一的。基本上显示哪一位球员在“
    1. ”本垒打的年份中为哪一支“球队”打球--那一年被该球员击中的次数。

我想知道:

  1. ,他拥有最多的本垒打数,其游戏数量大于100。
  2. ,哪个列/特性与“本垒打”

的相关性最高。

数据以csv文件的形式出现。

EN

回答 2

Stack Overflow用户

发布于 2022-05-25 13:07:56

看起来您可以使用groupbytransform方法聚合一些数据。您还可以导入和使用SQL查询dataframe的pandasql库。链接到类似的问题:Run sql query on pandas dataframe

票数 0
EN

Stack Overflow用户

发布于 2022-05-25 13:24:49

  1. df = df[df['Games'] >= 100]将只保留100多个游戏的线。然后df['Home Runs'].max()会给出最大数字.

  1. 中查找df.corr()['Home Runs']中的最大值(不包括Home Runs) (可能使用.idxmax())应该会给出最相关的列。

注意:您可能必须先进行一些聚合,比如df = df.groupby(['PlayerID']).sum()来获取职业统计数据,而不是年份统计数据,但是您说PlayerID不是唯一的标识符,所以您可能需要对此进行更深入的研究。.sum()聚合只对GamesHome Runs有意义,因此,如果在其他计算中需要Year列,请小心。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72377835

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档