文章/答案/技术大牛

发布

社区首页 >问答首页 >用于聚类分析的数据处理

问用于聚类分析的数据处理
EN

Stack Overflow用户

提问于 2020-07-24 01:06:08

回答 1查看 36关注 0票数 0

我尝试为聚类分析准备数据集，比如k-Means或BIRCH算法。我不知道怎么做--从准备开始，然后找到，例如，大纲或其他东西。我希望你能帮助我。

我的数据集是一个数据帧，包含以下列：

A1 | A2 | A3 | A4 | iO

使用df.describe(include = "all")，我得到了以下数据：

         A1             | A2            | A3            |A4             | iO
-------------------------------------------------------------------------------
count    15372.000000    15372.000000    15372.000000    15372.000000    15372
unique   NaN             NaN             NaN             NaN             2
top      NaN             NaN             NaN             NaN             True
freq     NaN             NaN             NaN             NaN             14935 
mean     145.570554      35.750641       64.284180       49.225190       NaN
std      5134.725533     1709.696386     2433.688046     2380.091285     NaN
min      0.436000        0.353000        0.353000        -0.000000       NaN
25%      1.000000        1.920000        2.000000        1.690000        NaN
50%      1.970000        2.000000        3.860000        2.000000        NaN
75%      3.984000        3.907000        6.957000        3.883000        NaN
max      200990.260000   200072.157000   200992.243000   200992.243000   NaN

每列的中位数是：

A2: 2.00
A3: 3.86
A4: 2.0
iO: 1.0

在正常情况下，A1、A2、A3和A4的值在2到5之间。

此外，我还想使用此数据框架进行聚类分析。在我的数据帧中，"iO“是用例的结果，A1、A2、A3和A4对结果有影响。

我希望你能帮助我准备我的数据。

向克里斯蒂安致以最好的敬意

python

data-science

data-processing

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-24 01:57:15

简单的方法是使用Z-Score。将numpy导入为np outliers=[] def detect_outlier(column_data_array)：

threshold=3
mean_1 = np.mean(column_data_array)
std_1 =np.std(column_data_array)


for y in data_1:
    z_score= (y - mean_1)/std_1 
    if np.abs(z_score) > threshold:
        outliers.append(y)
return outliers

或者您可以使用IRQ-Score

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63059569

复制

相似问题

问用于聚类分析的数据处理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于聚类分析的数据处理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于聚类分析的数据处理
EN