目前,我正在尝试使用存储在我的pandas.dataframe (实际上在其中一列中)中的数据进行k均值聚类。奇怪的是,它不是将每一行视为单独的示例,而是威胁所有行,将其作为一个示例,但在非常高的维度中。例如:
df = pd.read_csv('D:\\Apps\\DataSciense\\Kaggle Challenges\\Titanic\\Source Data\\train.csv', header = 0)
median_ages = np.zeros((2,3))
for i in range(0,2):
for j in range (0,3):
median_ages[i, j] =df[(df.Gender == i) &(df.Pclass == j+1)].Age.dropna().median()
df['AgeFill'] = df['Age']
for i in range(0, 2):
for j in range(0,3):
df.loc[ (df.Age.isnull()) & (df.Gender == i) & (df.Pclass == j+1), 'AgeFill'] = median_ages[i, j]然后我就检查它看起来很好:
df.AgeFill
Name: AgeFill, Length: 891, dtype: float64看上去不错,891 float64号码。我要做的是:
k_means = cluster.KMeans(n_clusters=1, init='random')
k_means.fit(df.AgeFill)我检查了集群中心:
k_means.cluster_centers_它会给我一个巨大的数组。
此外:
k_means.labels_给我:
array([0])我做错了什么?为什么它认为我有一个891维的例子,而不是891个?
为了更好地说明这一点,如果我尝试两个集群:
k_means = cluster.KMeans(n_clusters=2, init='random')
k_means.fit(df.AgeFill)追溯(最近一次调用):文件"",第1行,在"D:\Apps\Python\lib\site-packages\sklearn\cluster\k_means_.py",文件k_means.fit(df.AgeFill)第724行中,在fit X= self._check_fit_data(X) File "D:\Apps\Python\lib\site-packages\sklearn\cluster\k_means_.py",第693行中,在_check_fit_data X.shape中(self.n_clusters)( ValueError: n_samples=1应该是>= n_clusters=2
所以你可以看到,它真的认为它只是一个巨大的样本。
但是:
df.AgeFill.shape
(891,)发布于 2015-01-23 17:45:02
您正在传递一个一维数组,而scikit需要一个带有示例和功能轴的2D数组。这应该可以做到:
k_means.fit(df.AgeFill.reshape(-1, 1))在此之前:
>>> df.AgeFill.shape
(891,)之后:
>>> df.AgeFill.reshape(-1, 1).shape
(891, 1)https://stackoverflow.com/questions/28114630
复制相似问题