我尝试为聚类分析准备数据集,比如k-Means或BIRCH算法。我不知道怎么做--从准备开始,然后找到,例如,大纲或其他东西。我希望你能帮助我。
我的数据集是一个数据帧,包含以下列:
A1 | A2 | A3 | A4 | iO使用df.describe(include = "all"),我得到了以下数据:
A1 | A2 | A3 |A4 | iO
-------------------------------------------------------------------------------
count 15372.000000 15372.000000 15372.000000 15372.000000 15372
unique NaN NaN NaN NaN 2
top NaN NaN NaN NaN True
freq NaN NaN NaN NaN 14935
mean 145.570554 35.750641 64.284180 49.225190 NaN
std 5134.725533 1709.696386 2433.688046 2380.091285 NaN
min 0.436000 0.353000 0.353000 -0.000000 NaN
25% 1.000000 1.920000 2.000000 1.690000 NaN
50% 1.970000 2.000000 3.860000 2.000000 NaN
75% 3.984000 3.907000 6.957000 3.883000 NaN
max 200990.260000 200072.157000 200992.243000 200992.243000 NaN每列的中位数是:
A2: 2.00
A3: 3.86
A4: 2.0
iO: 1.0在正常情况下,A1、A2、A3和A4的值在2到5之间。
此外,我还想使用此数据框架进行聚类分析。在我的数据帧中,"iO“是用例的结果,A1、A2、A3和A4对结果有影响。
我希望你能帮助我准备我的数据。
向克里斯蒂安致以最好的敬意
发布于 2020-07-24 01:57:15
简单的方法是使用Z-Score。将numpy导入为np outliers=[] def detect_outlier(column_data_array):
threshold=3
mean_1 = np.mean(column_data_array)
std_1 =np.std(column_data_array)
for y in data_1:
z_score= (y - mean_1)/std_1
if np.abs(z_score) > threshold:
outliers.append(y)
return outliers或者您可以使用IRQ-Score
https://stackoverflow.com/questions/63059569
复制相似问题