首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何惩罚DataFrame中的空字段?

如何惩罚DataFrame中的空字段?
EN

Data Science用户
提问于 2019-03-31 14:02:59
回答 1查看 93关注 0票数 3

我必须计算赛车司机在整个赛季的一致性。我的DataFrame由10列(10个电路名称)组成,对于每一个列,我有在圈时间内的标准偏差,驱动程序张贴在该电路中。换句话说,车手从一圈到另一圈的一致性。在比赛中,车手没有完成的字段是空白的。

到目前为止,我已经计算了他们的平均赛季一致性,平均所有10列。然而,不完成一场比赛应该会对车手的一致性产生负面影响,我不知道如何实现。

EN

回答 1

Data Science用户

发布于 2019-03-31 15:29:13

这在很大程度上取决于领域知识。一般的方法是

  1. 每个电路c上最坏的或平均一致性的乘积,分别是(1 + m)\text{max}(\sigma_c)(1 + m)\text{avg}(\sigma_c)对该电路的零值的乘积,或
  2. 每个车手d的最差或平均一致性的乘数,分别为(1 + m)\text{max}(\sigma_d)(1 + m)\text{avg}(\sigma_d),用于未完成的比赛,或
  3. 驱动程序平均值和电路平均一致性(即(1 + m)[\text{avg}(\sigma_d) + \text{avg}(\sigma_c)]/2 )的乘积,用于电路c中未完成的驱动器d竞赛或其他一些组合。

无论选择哪种方法,系数m的选择都会影响最终的排名,也可以确定。

  1. 主观上,从专家的角度来看排名,并选择一个更有意义的,或
  2. 通过尝试一系列的值,比如m \in \{-0.2, -0.1, 0, 0.1, 0.2, .., 0.5\},平均每个驱动程序的一致性、\sigma_d或排名,R_dd。这种方法的一个优点是,当驱动程序的秩对不同的m值具有较低的方差时,它意味着驾驶员的秩对m的选择不敏感,即它不那么有争议,并且当秩随着m的不同选择而变化很大时,平均秩就更具争议性。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/48293

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档