文章/答案/技术大牛

发布

问“关联度”的上限？
EN

Data Science用户

提问于 2019-12-13 10:03:01

回答 1查看 21关注 0票数 1

我们对一个包含五个问题的问卷(Q5)有100个答案。与此无关，我们有大约50个描述回答问题的人(F50)的特性，有些重叠。在抛出了大量的“黑匣子”回归模型，试图预测这50个特征的五个答案中的任何一个后，我们得出的结论是，这些特征与问卷的主题完全正交。

这很有趣，也有点令人惊讶，尝试“证明”可能会很有趣。有没有人知道一种措施或方法，我们可以认为，如果

'X在Q5中应用于F50时不会产生任何预测值‘

然后

F50和Q5之间的因果关系比C弱

多元相互信息的某种味道能成为前进的方向吗？

我希望这个问题有意义。似乎它一般都会很有趣。

regression

correlation

mutual-information

回答 1

Data Science用户

发布于 2019-12-14 02:17:38

很有趣的问题，总是很难证明是否定的。我有一个模糊的想法，但我真的不知道它是否值任何东西，甚至适用于这个问题，所以请拿一点盐！

其思想是使用随机性和多个样本来比较从随机噪声和实际数据X预测的结果:如果X的预测结果并不比从随机噪声预测的结果好得多，那么您已经证明了X没有任何预测能力。当然，这取决于这样一个假设，即用于预测的模型是足够合理的。

我见过使用这种想法的方法，但不幸的是我不记得细节了。我能给出的唯一方向是：

作者身份验证的模拟方法，它基于一个有点类似的想法
我看到了一些使用二项分布试验来正式测试方法X的结果是否与随机基线有显著不同的工作。

很抱歉没有详细的细节，我希望这能帮上忙。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/64755

复制

相似问题

问“关联度”的上限？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问“关联度”的上限？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问“关联度”的上限？
EN