搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏计算机视觉理论及其实现
k-均值聚类
k-均值聚类是一种表示学习算法。k-均值聚类算法将训练集分成k个靠近彼此不同样本聚类。因此我们可以认为该算法提供了k维的one-hot编码向量h以表示输入x。当x属于聚类i时，有，的其他项为零。k-均值聚类提供的one-hot编码也是一种稀疏表示，因为每个输入表示中大部分元素为零。 k-均值聚类初始化k个不同的中心点，然后迭代交换两个不同的步骤直到收敛。步骤一，每个训练样本分配到最近的中心点所代表的的聚类i。步骤二，每一个中心点，更新为聚类i中所有训练样本的均值。关于聚类的一个问题是，聚类问题本事是病态的。这是说没有单一的标准去度量聚类数据在真实世界中效果如何。我们可以度量聚类的性质，例如类中元素到类中心点的欧几里得距离的均值。这使得我们可以判断从聚类分配中重建训练数据的效果如何。然而我们不知道聚类的性质是否很好地对应到真实世界的性质。
2K10编辑于 2022-09-04
来自专栏AIUAI
Matlab函数kmeans：K-均值聚类
K-means聚类算法采用的是将N*P的矩阵X划分为K个类，使得类内对象之间的距离最大,而类之间的距离最小。 Kmeans(…,’Param1’,Val1,’Param2’,Val2,…) 各输入输出参数介绍： X N*P的数据矩阵 K 表示将X划分为几类，为整数 Idx N*1的向量，存储的是每个点的聚类标号 C K*P的矩阵，存储的是K个聚类质心位置 sumD 1*K的和向量，存储的是类间所有点与该类质心点距离之和 D N*K的矩阵，存储的是每个点与所有质心的距离 […]=Kmeans(…,'Param1 ‘Start’（初始质心位置选择方法） ‘sample’ 从X中随机选取K个质心点 ‘uniform’ 根据X的分布范围均匀的随机生成K个质心 ‘cluster’ 初始聚类阶段随机选择10%的X的子样本 ‘Replicates’（聚类重复次数）整数使用案例： data= 5.0 3.5 1.3 0.3 -1 5.5 2.6 4.4 1.2 0 6.7 3.1 5.6 2.4 1
1.8K30发布于 2019-02-18
来自专栏JAVA烂猪皮
【聚类算法】K-均值聚类(K-Means)算法
一、K-均值聚类(K-Means)概述 1、聚类： “类”指的是具有相似性的集合，聚类是指将数据集划分为若干类，使得各个类之内的数据最为相似，而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础，在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分，属于无监督学习。 2、K-Means： K-Means算法是一种简单的迭代型聚类算法，采用距离作为相似性指标，从而发现给定数据集中的K个类，且每个类的中心是根据类中所有数值的均值得到的，每个类的中心用聚类中心来描述。结合最小二乘法和拉格朗日原理，聚类中心为对应类别中各数据点的平均值，同时为了使算法收敛，在迭代的过程中，应使得最终的聚类中心尽可能的不变。 3、K-Means算法流程：随机选取K个样本作为聚类中心；计算各样本与各个聚类中心的距离；将各样本回归于与之距离最近的聚类中心；求各个类的样本的均值，作为新的聚类中心；判定：若类中心不再发生变动或者达到迭代次数
9.4K41发布于 2020-11-30
来自专栏Urlteam
机器学习-聚类算法-k-均值聚类-python详解
1.首先我们需要选择一个k值，也就是我们希望把数据分成多少类，这里k值的选择对结果的影响很大，Ng的课说的选择方法有两种一种是elbow method，简单的说就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好另一种则是根据具体的需求确定，比如说进行衬衫尺寸的聚类你可能就会考虑分成三类（L,M,S）等 2.然后我们需要选择最初的聚类点（或者叫质心），这里的选择一般是随机选择的，代码中的是在数据范围内随机选择，这里有两种处理方法，一种是多次取均值，另一种则是后面的改进算法（bisecting K-means） 3.终于我们开始进入正题了，接下来我们会把数据集中所有的点都计算下与这些质心的距离，把它们分到离它们质心最近的那一类中去形成二维数组 ## step 2: 开始聚类... print "step 2: clustering..." 原创文章，转载请注明：转载自URl-team 本文链接地址: 机器学习-聚类算法-k-均值聚类-python详解 No related posts.
1.5K30发布于 2019-11-27
来自专栏C/C++的自学之路
K-均值（K-means）聚类算法
K-均值（K-means）聚类算法是一种常用的无监督学习算法，用于将数据集分成 K 个簇（clusters）。 K-均值聚类算法的步骤如下： 1. 随机选择 K 个点作为初始的簇中心。 2. 计算每个数据点与每个簇中心的距离，并将每个点分配到距离最近的簇。 3. K-均值聚类算法的优点包括： 1. 简单易实现，计算速度快。 2. 在处理大型数据集时具有较高的效率。 3. 可以应用于大多数数据类型和领域。 K-均值聚类算法的缺点包括： 1. 对初始簇中心的选择敏感，可能会导致得到不同的聚类结果。 4. 对异常值敏感，可能会影响聚类结果的准确性。总的来说，K-均值聚类算法是一种简单且高效的聚类算法，适用于许多场景，但在一些特定情况下可能表现不佳。在使用该算法时，需要根据具体问题和数据集来选择合适的参数和预处理方式，以获得更好的聚类结果。
44910编辑于 2025-02-15
来自专栏Soul Joy Hub
【Spark Mllib】K-均值聚类——电影类型
K-均值聚类 K-均值算法试图将一系列样本分割成K个不同的类簇（其中K是模型的输入参数），其形式化的目标函数称为类簇内的方差和（within cluster sum of squared errors K-均值聚类的目的是最小化所有类簇中的方差之和。标准的K-均值算法初始化K个类中心（为每个类簇中所有样本的平均向量），后面的过程不断重复迭代下面两个步骤。然后，对电影的系数向量运行K-均值算法。 K-均值最小化的目标函数是样本到其类中心的欧拉距离之和，我们便可以将“最靠近类中心”定义为最小的欧拉距离。不同于以往的模型，K-均值模型只有一个可以调的参数，就是K，即类中心数目。
1.5K10发布于 2019-02-13
来自专栏图像处理与模式识别研究所
K-均值聚类算法的MATLAB的实现。
kmeans_test.m %% (C) Copyright 2012. All rights reserved. Sotiris L Karavarsamis. % Contact author at sokar@aiia.csd.auth.gr % % This is an implementation of the k-means algorithm straight from the % pseudocode description based on the book 'Introduction
88730编辑于 2022-05-28
来自专栏大数据杂谈
Python中用K-均值聚类来探索顾客细分
在这篇文章中，我将详细介绍您如何可以使用K-均值聚类来完成一些客户细分方面的探索。我们的数据我们使用的数据来自 John Foreman 的《智能数据》。 K-均值快速入门为了细分客户，我们需要一种方法来对它们进行比较。要做到这一点，我们将使用K-均值聚类。K-均值是一种获取一个数据集，并从中发现具有类似性质点的组合（或簇）的方法。 K-均值的工作原理是，最小化各个点与各簇中点之间的距离，并以此来进行分组。想一个最简单的例子。如果我告诉你为下面这些点创建 3 个组，并在每个组的中间绘制一个星星，你会怎么做？ ? 在K-均值中，“ x ”的被称为“重心”，并指出（你猜对了），给定簇的中心。我不打算详细讲述K-均值实际上是怎什么样运作的，但希望这说明会给你一个不错的想法。有关K-均值和客户细分的更多信息，请查看以下资源： INSEAD Analytics Cluster Analysis and Segmentation Post Customer Segmentation
1.6K30发布于 2018-07-30
来自专栏数据分析
算法金 | K-均值、层次、DBSCAN聚类方法解析
：在自然语言处理领域，聚类分析可以用于文本聚类，将具有相似主题的文档分在一起，方便后续的信息检索和推荐系统K-均值聚类方法定义与基本原理K-均值（K-Means）是一种常见的划分式聚类算法，其目标是将数据集分成，即该簇中所有数据点的平均值检查质心是否发生变化，若发生变化，则重复步骤2和3，直到质心不再变化或达到预设的迭代次数K值选择与初始中心问题K值选择是K-均值聚类中的一个关键问题。肘部法则通过绘制不同 ( K ) 值对应的聚类误差平方和（SSE），选择拐点处的 ( K ) 值初始中心的选择对K-均值算法的收敛速度和聚类效果有重要影响。：数据集具有任意形状的簇存在噪声和异常点，需要识别并处理希望在不预先指定簇数的情况下进行聚类[ 抱个拳，总个结 ]聚类方法比较与应用三种聚类方法的比较在前面章节中，我们详细介绍了K-均值、层次聚类和DBSCAN 如何选择适合的聚类方法在实际应用中，选择适合的聚类方法需要考虑以下因素：数据集规模：对于大规模数据集，优先选择计算复杂度较低的方法，如K-均值。
1.2K00编辑于 2024-06-26
来自专栏全栈程序员必看
spssk均值聚类报告_K均值聚类
机器学习中的k均值聚类属于无监督学习，所谓k指的是簇类的个数，也即均值向量的个数。在spss中导入的二维数据如下所示：点击菜单栏的“分析”，找到“分类”选中“k-均值聚类” 将需要进行聚类的变量选入右侧框中聚类数由用户设定，方法一般选择“迭代与分类” 选项按钮中，一般勾选以上复选框，spss会统计出初始聚类的中心向量以及每个样本的聚类信息(包括每个样本所属类别，与各自簇类中心向量的欧氏距离)。之后，点击“确定”按钮，完成均值聚类。以下是通过python编程实现k-均值聚类算法所得结果：最终得到的聚类中心： [[ 2.6265299 3.10868015] [-2.46154315 2.78737555] [-3.53973889 所谓枚举法，即通过取不同的k值来观察最终的聚类结果，选取最优结果所对应的k作为该均值聚类的最终k值。肘方法是通过绘制不同的k所对应的样本数据点与各自聚类中心的距离平均值来确定k。
1.3K20编辑于 2022-11-17
来自专栏【计网】Cisco
【模式识别】探秘聚类奥秘：K-均值聚类算法解密与实战
资源获取：关注文末公众号回复模式识别实验 2 K-均值聚类 2.1 研究目的理解K-均值聚类算法的核心原理，包括初始化、数据点分配和聚类中心更新。通过选择挑战性数据集，实际应用K-均值聚类算法并分析不同K值对聚类效果的影响，以及聚类结果的可视化展示。 K-均值聚类的优点包括简单易实现、计算效率高，但也有一些缺点，例如对初始聚类中心的选择敏感，对异常值敏感等。在应用K-均值聚类时，通常需要对数据进行标准化，以确保不同特征的尺度不会影响聚类结果。 K-均值聚类算法主体函数： void C_mean(): 该函数实现了K-均值聚类的主要逻辑。初始化聚类中心，然后通过迭代过程不断更新聚类中心，直到聚类中心不再改变（收敛）为止。学会使用C++标准库对数据进行加载和预处理，确保数据在K-均值聚类算法中能够被正确处理。算法实现：深入研究了K-均值聚类的核心步骤，包括聚类中心的初始化、数据点的分配和聚类中心的更新。
58110编辑于 2024-02-20
来自专栏夏天爱西瓜
机器学习（二）——K-均值聚类（K-means）算法
，言归正传，今天我和大家一起来学习K-均值聚类算法。一 K-均值聚类（K-means）概述 1. 聚类 “类”指的是具有相似性的集合。聚类是指将数据集划分为若干类，使得类内之间的数据最为相似，各类之间的数据相似度差别尽可能大。聚类分析就是以相似性为基础，对数据集进行聚类划分，属于无监督学习。 2. 无监督学习和监督学习上一篇对KNN进行了验证，和KNN所不同，K-均值聚类属于无监督学习。将类内之间数据的均值作为聚类中心，更新聚类中心。，究其原因：虽然算法收敛，但算法只是收敛到了局部最小值，而并非全局最小值，所以可以引入二分K-均值对算法进行优化。
1.3K10发布于 2020-09-07
来自专栏实时计算
机器学习（九）-------- 聚类(Clustering) K-均值算法 K-Means
K-均值是最普及的聚类算法，算法接受一个未标记的数据集，然后将数据聚类成不同的组。 K-均值是一个迭代算法，假设我们想要将数据聚类成 n 个组，其方法为: 首先选择? 下图所示的数据集包含身高和体重两项特征构成的，利用 K-均值算法将数据分为三类，用于帮助确定将要生产的 T-恤衫的三种尺寸。 ? 在运行 K-均值算法的之前，我们首先要随机初始化所有的聚类中心点，下面介绍怎样做：我们应该选择? < ?，即聚类中心点的个数要小于所有训练集实例的数量随机选择?个训练实例，然后令? 个聚类中心分别与这?个训练实例相等 K-均值的一个问题在于，它有可能会停留在一个局部最小值处，而这取决于初始化的情况。没有所谓最好的选择聚类数的方法，通常是需要根据不同的问题，人工进行选择的。选择的时候思考我们运用 K-均值算法聚类的动机是什么，然后选择能最好服务于该目的标聚类数。 ?
87920发布于 2019-08-08
来自专栏《C++与 AI：个人经验分享合集》
机器学习中的 K-均值聚类算法及其优缺点
K-均值聚类算法是一种常见的无监督学习算法，用于将数据集分成 K 个不同的簇。它的目标是最小化数据点与各自质心的距离之和。下面是K-均值聚类算法的步骤：选择要创建的簇的数量 K。更新每个簇的质心，即将簇中所有数据点的平均值作为新的质心。重复步骤3和4，直到质心不再发生变化或达到最大迭代次数。 K-均值聚类算法的优点包括：相对简单和易于实现，适用于大规模数据集。然而，K-均值聚类算法也有一些缺点：需要提前指定簇的数量 K，这对于某些数据集可能不太容易确定。对初始质心的选择敏感，不同的初始质心可能导致不同的结果。综上所述，K-均值聚类算法是一种简单而有效的聚类算法，但在某些情况下可能存在一些局限性。在实践中，可以使用其他聚类算法来克服一些 K-均值聚类算法的限制。
47910编辑于 2024-12-09
机器学习中的 K-均值聚类算法及其优缺点
机器学习中的 K-均值聚类算法及其优缺点 K-均值聚类（K-means clustering）是一种常用的无监督学习算法，用于将数据集划分为K个不相交的簇。 K-均值聚类算法的优点包括：相对简单：K-均值聚类算法是一种简单且易于实现的聚类算法。计算效率高：K-均值聚类算法的时间复杂度相对较低，适用于大规模数据集。可解释性强：K-均值聚类算法生成的簇中心可以帮助解释数据。 K-均值聚类算法的缺点包括：需要指定簇的数量K：K-均值聚类算法需要提前指定簇的数量K，对于没有明确的K值的情况，可能需要进行多次试验。对初始质心敏感：K-均值聚类算法对初始质心的选择非常敏感，不同的初始质心可能会导致不同的聚类结果。对噪声和离群点敏感：K-均值聚类算法对噪声和离群点非常敏感，可能会导致错误的聚类结果。总的来说，K-均值聚类算法是一种常用且有效的聚类算法，但在使用时需要注意选择适当的K值和初始质心，并处理好噪声和离群点的情况。
30410编辑于 2025-08-29
来自专栏图像处理与模式识别研究所
k均值聚类
0.553 0.677 0.156 _______________________________________________________________________________ 算法：k均值聚类是首先将数据分为 k组并随机选取k个对象作为初始聚类中心，然后计算每个对象与各个种子聚类中心间距离，最后将每个对象分配给距离其最近聚类中心。
74620编辑于 2022-05-29
来自专栏机器之心
教程 | 如何为时间序列数据优化K-均值聚类速度？
数据分析解决方案提供商 New Relic 在其博客上介绍了为时间序列数据优化 K-均值聚类速度的方法。机器之心对本文进行了编译介绍。鉴于我们所收集的数据的量是如此巨大，更快的聚类时间至关重要。加速 k-均值聚类 k-均值聚类是一种流行的分组数据的方法。 k-均值方法的基本原理涉及到确定每个数据点之间的距离并将它们分组成有意义的聚类。我们通常使用平面上的二维数据来演示这个过程。以超过二维的方式聚类当然是可行的，但可视化这种数据的过程会变得更为复杂。尽管这一类数据对 k-均值聚类方法而言并不理想，但它足以完成未优化的实现。实际上，TensorFlow 已经包含了 k-均值实现，但我们基本上肯定还是需要对其进行调整才能将其用于时间序列聚类。
1.3K100发布于 2018-05-10
来自专栏《C++与 AI：个人经验分享合集》
讲解机器学习中的 K-均值聚类算法及其优缺点
K-均值（K-means）聚类算法是一种常用的无监督机器学习算法，用于将一组未标记的数据集分为 K 个不同的类别或簇。算法步骤如下：选择要分成的簇的个数 K。更新每个簇的中心点为该簇中所有样本的平均值。重复步骤 3 和步骤 4，直到簇中心点不再改变，或达到预定的迭代次数。 K-均值聚类算法的优点如下：简单而直观，易于理解和实现。 K-均值聚类算法的缺点如下：需要事先指定聚类的个数 K。对于不同形状、大小、密度分布的聚类结果较差。容易收敛到局部最优解，结果依赖于初始的簇中心点选择。对噪声和异常值敏感。为了克服 K-均值聚类算法的一些缺点，还有一些改进的方法，如谱聚类、层次聚类、密度聚类等。
55910编辑于 2024-12-09
来自专栏机器学习，脑机接口，算法优化
k均值聚类（1）
分k个簇，起始随机选择k个点为簇的初始质心，选取距离k个质心最近的一个加入那个簇，之后更新质心，即簇内所有数值的平均，之后继续重复直到质心不再变化或者小于一个阈值。
1.4K00发布于 2020-11-17
来自专栏机器学习/数据可视化
k均值聚类算法
吴恩达老师-K均值聚类 K均值聚类算法中主要是有两个关键的步骤：簇分配和移动聚类中心。簇分配假设有一个样本集合，需要将其分成两个类（簇：cluster，红色和蓝色）首先随机生成两个聚类中心：红色和蓝色两个点遍历每个样本绿色的点，求出和两个聚类中心的距离，判断和哪个更接近，则归属于哪个类（簇）移动聚类中心将两个聚类中心（红色和蓝色的叉）移动到同色点的均值处，找到所有红色（蓝色）点的均值重复上述的步骤：簇分配和移动聚类中心，直到颜色的点不再改变，具体算法过程如下各图所示： image.png 算法特性基于划分的聚类算法，k值需要预先指定；欧式距离的平方表示样本和聚类中心之间的距离，以中心或者样本的均值表示类别算法是迭代算法，不能得到全局最优解选择不同的初始中心，会得到不同的聚类结果 clusterChanged = True #只要聚类结果一直发生变化，就一直执行聚类算法，直至所有数据点聚类结果不变化 while clusterChanged:
1.9K10发布于 2021-03-02

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

k-均值聚类

Matlab函数kmeans：K-均值聚类

【聚类算法】K-均值聚类(K-Means)算法

机器学习-聚类算法-k-均值聚类-python详解

K-均值（K-means）聚类算法

【Spark Mllib】K-均值聚类——电影类型

K-均值聚类算法的MATLAB的实现。

Python中用K-均值聚类来探索顾客细分

算法金 | K-均值、层次、DBSCAN聚类方法解析

spssk均值聚类报告_K均值聚类

【模式识别】探秘聚类奥秘：K-均值聚类算法解密与实战

机器学习（二）——K-均值聚类（K-means）算法

机器学习（九）-------- 聚类(Clustering) K-均值算法 K-Means

机器学习中的 K-均值聚类算法及其优缺点

机器学习中的 K-均值聚类算法及其优缺点

k均值聚类

教程 | 如何为时间序列数据优化K-均值聚类速度？

讲解机器学习中的 K-均值聚类算法及其优缺点

k均值聚类（1）

k均值聚类算法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐