首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于聚类分析的数据处理

用于聚类分析的数据处理
EN

Stack Overflow用户
提问于 2020-07-24 01:06:08
回答 1查看 36关注 0票数 0

我尝试为聚类分析准备数据集,比如k-Means或BIRCH算法。我不知道怎么做--从准备开始,然后找到,例如,大纲或其他东西。我希望你能帮助我。

我的数据集是一个数据帧,包含以下列:

代码语言:javascript
复制
A1 | A2 | A3 | A4 | iO

使用df.describe(include = "all"),我得到了以下数据:

代码语言:javascript
复制
         A1             | A2            | A3            |A4             | iO
-------------------------------------------------------------------------------
count    15372.000000    15372.000000    15372.000000    15372.000000    15372
unique   NaN             NaN             NaN             NaN             2
top      NaN             NaN             NaN             NaN             True
freq     NaN             NaN             NaN             NaN             14935 
mean     145.570554      35.750641       64.284180       49.225190       NaN
std      5134.725533     1709.696386     2433.688046     2380.091285     NaN
min      0.436000        0.353000        0.353000        -0.000000       NaN
25%      1.000000        1.920000        2.000000        1.690000        NaN
50%      1.970000        2.000000        3.860000        2.000000        NaN
75%      3.984000        3.907000        6.957000        3.883000        NaN
max      200990.260000   200072.157000   200992.243000   200992.243000   NaN

每列的中位数是:

代码语言:javascript
复制
A2: 2.00
A3: 3.86
A4: 2.0
iO: 1.0

在正常情况下,A1、A2、A3和A4的值在2到5之间。

此外,我还想使用此数据框架进行聚类分析。在我的数据帧中,"iO“是用例的结果,A1、A2、A3和A4对结果有影响。

我希望你能帮助我准备我的数据。

向克里斯蒂安致以最好的敬意

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-24 01:57:15

简单的方法是使用Z-Score。将numpy导入为np outliers=[] def detect_outlier(column_data_array):

代码语言:javascript
复制
threshold=3
mean_1 = np.mean(column_data_array)
std_1 =np.std(column_data_array)


for y in data_1:
    z_score= (y - mean_1)/std_1 
    if np.abs(z_score) > threshold:
        outliers.append(y)
return outliers

或者您可以使用IRQ-Score

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63059569

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档