首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pyspark -如何评估多重共线性?VIF等效项

Pyspark -如何评估多重共线性?VIF等效项
EN

Stack Overflow用户
提问于 2018-04-09 07:03:53
回答 1查看 1.7K关注 0票数 1

正如标题所述,我正在试图找到一种方法来评估pyspark中的多重共线性?通常,我会使用statsmodel的VIF,但我在pyspark中看不到等效的函数。

任何关于我如何计算多重共线性的建议都将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2018-04-09 13:14:58

您可以获取相关矩阵:

代码语言:javascript
复制
from pyspark.mllib.stat import Statistics

seriesX = sc.parallelize([1.0, 2.0, 3.0, 3.0, 5.0])  # a series
# seriesY must have the same number of partitions and cardinality as seriesX
seriesY = sc.parallelize([11.0, 22.0, 33.0, 33.0, 555.0])

# Compute the correlation using Pearson's method. Enter "spearman" for Spearman's method.
# If a method is not specified, Pearson's method will be used by default.
print("Correlation is: " + str(Statistics.corr(seriesX, seriesY, method="pearson")))

data = sc.parallelize(
    [np.array([1.0, 10.0, 100.0]), np.array([2.0, 20.0, 200.0]), np.array([5.0, 33.0, 366.0])]
)  # an RDD of Vectors

# calculate the correlation matrix using Pearson's method. Use "spearman" for Spearman's method.
# If a method is not specified, Pearson's method will be used by default.
print(Statistics.corr(data, method="pearson"))

文档:https://spark.apache.org/docs/latest/mllib-statistics.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49723626

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档