首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python熊猫几个DataFrames最佳实践

Python熊猫几个DataFrames最佳实践
EN

Stack Overflow用户
提问于 2017-05-23 16:46:26
回答 1查看 379关注 0票数 1

我有一个包含大约600万行每日数据的DataFrame,我将使用这些数据来找出某些技术标记如何影响它们各自股票的长期表现。我有两种方法,推荐哪一种?

  1. 制作两个不同的表,一个是原始数据,一个是包含技术标记的过滤副本,然后在主表上进行“查找”以获得后续的性能。
  2. 使用一个大表,包含标记和性能数据。

我不知道还有什么更昂贵的计算--计算所有行的技术标记,甚至是不需要的行,或者对主表进行查找。谢谢。

EN

回答 1

Stack Overflow用户

发布于 2017-05-23 16:51:58

我认为最简单和最有效的途径是有两个表。原因是,对于1大表,您的算法可以采用O(n^2),因为您必须对标记中的每个元素迭代n次,然后对每个元素匹配n次,以满足每个性能。

如果您使用了2表方法,则复杂度将达到O(n * m),其中n是技术标记的数目,然后m是性能中的记录数。在这个用例中,我会想象你的n是基于你想要看的任何一组,而不是整个集合,所以这意味着你的n

或者,如果您能够构建一个主查找表来捕获性能和技术标记之间的所有关系,那么您的复杂性本质上就是一个哈希查找或O(1)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44140675

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档