我在这个问题上发布了stackoverflow.com,但没有收到任何答复。如果我从其中一个得到答复,我会通知另一个。
我有一个数据集,我的教授要求我研究eps在sklearn.cluster import DBSCAN中的作用?你能提出一些衡量它的效果的方法吗?我生成了eps = np.arange(start = .1, stop = 1, step = .1),但我不知道应该比较什么。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN
%config InlineBackend.figure_format = 'svg' # Change the image format to svg for better quality
don = pd.read_csv('https://raw.githubusercontent.com/leanhdung1994/Deep-Learning/main/donclassif.txt.gz', sep=';')
kmeans = DBSCAN(eps = .2)
y_kmeans = kmeans.fit_predict(don)
plt.figure(figsize = 1.5 * np.array(plt.rcParams['figure.figsize'])) # This is to have bigger plot
plt.scatter(don['V1'], don['V2'], c = y_kmeans, cmap = 'viridis')
eps = np.arange(start = .1, stop = 1, step = .1)发布于 2020-11-02 11:19:52
\epsilon的意思是邻域的大小。点p的邻域(由N_{\epsilon}(p)表示)被定义为N_{\epsilon}(p) = \{q \in D | dist(p,q) \leq \epsilon \}。这里,D是一个n对象(点)的数据库,q是一个查询点。
因此,您教授可能希望您做的是根据其输入参数Epsilon评估聚类优度算法(DBSCAN)。例如,您可以使用剪影评分来度量这种合适性。
https://datascience.stackexchange.com/questions/84827
复制相似问题