首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >算法建议

算法建议
EN

Data Science用户
提问于 2016-12-05 16:25:07
回答 1查看 46关注 0票数 0

我有一个非常大的数据集,包含大约15,000行调查数据。这些调查是对投资者有关其金融资产管理公司排名的访谈的定量总结。他们从1到5对一位经理进行评级,我们有大约5年的资产管理公司的每位投资者的数据。

将这些数据编入索引如下:

投资者名称

为了给你一个想法,我举了一个例子。目前,数据保存在Access数据库中,其中包含大量的SQL JOINT,但是我可以按我想要的方式转换数据。所以兼容性不是问题。

我的问题是:我有一个疯狂的想法,不知何故,答案在几年之间是相互关联的。因此,参数1和参数2的增加可能与参数10的下降有关。

我正在寻找方法来验证我的假设,而不必手动(这将是相当乏味的)。也许是通过机器学习或分组发现(我不知道这是否正确)。

你们中有谁熟悉可以帮助我检验我的假设的工具或算法吗?当然,我必须确保我的分析在统计学上是有意义的。

我非常期待听到你的想法。

数据示例

自助餐控股公司-高盛( Goldman Sachs )- AM -2014年

自助餐控股公司高盛AM / 2015 *

盖茨有限公司JP摩根AM 2014年4 ........| 2

盖茨有限公司JP摩根AM 2015年4 ........| 3

自助餐控股公司摩根大通AM 2014年3倍........| 5

自助餐控股公司摩根大通AM 2015年2倍........| 1

EN

回答 1

Data Science用户

发布于 2016-12-05 21:52:07

相关矩阵将有助于发现任何成对相关性(在任何两个变量之间)。我认为这将是一个很好的起点,因为它只是进行初步分析的一行代码。

之后,如果您想研究“参数1的增加和参数2的下降与参数10的下降有关”,您可以编写代码来形成和/积/除法这样的交互变量,并在交互变量与原始变量之间建立一个相关矩阵。

就我个人而言,我发现corrplot软件包在可视化相关矩阵方面很有用。希望这能有所帮助。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/15529

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档