首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Michael阿明学习之路

    K 近邻法(K-Nearest Neighbor, K-NN)

    k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。 分类:对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。 k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。 ,K III 为指示函数,表示当 yi=cjy_i=c_jyi​=cj​ 时 III 为 1, 否则 III 为 0 当 k=1k=1k=1 时,特殊情况,称为最近邻算法,跟它距离最近的点作为其分类 ,那么误分类率是: 1k∑xi∈Nk(x)I(yi≠cj)=1−1k∑xi∈Nk(x)I(yi=cj)\frac{1}{k} \sum\limits_{x_i \in N_k(x) }I(y_i \neq c_j) = 1- \frac{1}{k}\sum\limits_{x_i \in N_k(x) } I(y_i = c_j)k1​xi​∈Nk​(x)∑​I(yi​​=cj​)=1−k1​xi​

    1.7K30发布于 2020-07-13
  • 来自专栏C/C++的自学之路

    K-均值(K-means)

    K-均值(K-means)是一种常用的无监督学习算法,用于将数据集中的样本分成 K 个簇。该算法的过程大致如下: 1. 随机初始化 K 个聚类中心(centroid)。 2. K-均值聚类的优点包括: 1. 简单且易于实现,计算速度快。 2. 可以应用于大规模数据集。 3. 对于具有明显分隔的簇效果良好。 K-均值聚类的缺点包括: 1. 需要预先指定簇的数量 K。 在应用 K-均值聚类算法时,需要根据具体的数据集特点和要达到的聚类目标来合理选择参数,以获得较好的聚类效果。

    36100编辑于 2025-02-16
  • 来自专栏杨熹的专栏

    What is k-means, How to set K?

    What is K-means? ? figure cited here, recommend reading: K-Means Clustering – What it is and How it Works K-means is a clustering Firstly, we predefine a K, and choose K data points arbitrarily as the centers of K clusters. In a word, K-means is to get K clusters, use means to calculate the centers, and assign each sample to Then try k equals to 2, and compare its variation with k=1. ...

    61420发布于 2019-07-22
  • 来自专栏CSDN旧文

    K短路+严格第K短路

      所谓K短路,就是从s到t的第K短的路,第1短就是最短路。     如何求第K短呢?有一种简单的方法是广度优先搜索,记录t出队列的次数,当t第k次出队列时,就是第k短路了。 每个节点最多入队列K次,当t出队列K次时,即找到解。     例:POJ2449     题意:裸的K短路。 queue> using namespace std; const int INF = 0x3f3f3f3f; const int MAX = 1005; int n,m; int start,end,k; return now.f; //严格最短路的判断条件为 cnt[end] == k&&now.f>min(zuiduanlu)         if(cnt[now.v] > k)             ;     if(start == end)         k++;     dijikastra(end);     int result = A_Star();     printf("%d\n"

    79120发布于 2020-10-28
  • 来自专栏产品经理的人工智能学习库

    K邻近 – k-nearest neighbors | KNN

    遗传算法借鉴了生物学中的遗传原理,是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。

    88510发布于 2019-12-18
  • 来自专栏小小程序员——DATA

    K近邻算法 K近邻算法原理

    # K近邻算法 K近邻算法原理## $k$近邻算法介绍- $k$近邻法 (k-Nearest Neighbor;kNN) 是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法- 算法的主要思路 $k$近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的$k$个最近邻训练实例点,然后利用这$k$个训练实例点的类的多数来预测输入实例点的类。 - $k$近邻模型对应于基于训练数据集对特征空间的一个划分。$k$近邻法中,当训练集、距离度量、$k$值及分类决策规则确定后,其结果唯一确定。## $k$近邻法三要素 1. 距离度量 $ 2. k$值的选择 3. 分类决策规则。- 常用的距离度量是欧氏距离。- $k$值小时,$k$近邻模型更复杂;$k$值大时,$k$近邻模型更简单。 - $k$值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的$k$。- 常用的分类决策规则是多数表决,对应于经验风险最小化。## $k$近邻算法流程 1.

    51000编辑于 2023-12-10
  • 来自专栏本立2道生

    Classifying with k-Nearest Neighbors(k近邻)

    因为最近正在琢磨机器学习,第一篇博客就从学的第一个算法开始:k-nearest neighbors algorithm即k近邻算法。 ***********************************正文分界线*************************************** 据wiki:在模式识别和机器学习领域,k近邻算法 (k-nearest neighbors algorithm or k-NN for short)是应用于分类问题(classification )和回归问题(regression)的一种无参数方法。 分类时,k-NN输出为所属分类(class membership);回归时,k-NN输出为属性值(property value)。 分类(classification),即识别出样本所属的类别。 到来时,我们将它和训练样本集中的每条数据进行比对,计算他们特征向量间的距离(相似程度的度量),挑选训练样本集中k个与之距离最近的数据,观察他们的label并计数,即进行“投票表决”,票数最高的label

    69130发布于 2019-09-12
  • 来自专栏从流域到海域

    k-Nearest Neighbors(k近邻算法)

    k-Nearst Neighbors(k近邻算法 近邻回归算法(nearest neighbor regression)模型简单地存储来自训练集的X\pmb{X}XXX和y\pmb{y}y​y​​y,当被要求分类一个测试点时 更一般的,k-nearest neighbors是一类可以被应用于分类或者回归的技术。作为一个非参数学习算法,k-nearest neighbors不受限于固定数量的参数。 我们通常认为k-nearest neighbors算法没有任何参数,而是实现了一个训练数据的简单函数。事实上,甚至不需要一个训练阶段或者学习过程。 作为一个非参数学习算法,k-nearest neighbors能够实现非常高的容量(capacity)。例如,我们有一个多分类任务,使用0-1损失函数来衡量性能。 k-nearest neighbors的一个缺点是它不能学习到一个特征比另一个特征更有判别性。 ? ?

    1.2K30发布于 2019-07-02
  • 来自专栏数据科学(冷冻工厂)

    机器学习算法:K-NN(K近邻)

    导读本文将介绍机器学习中的 K-最近邻算法,K-Nearest Neighbors 是一种机器学习技术和算法,可用于回归和分类任务。1. 简介图片k-最近邻算法,也称为 kNN 或 k-NN,是一种非参数、有监督的学习分类器,它使用邻近度对单个数据点的分组进行分类或预测。 Kk-NN 算法中的 k 值定义了将检查多少个邻居以确定查询点的分类。例如,如果 k=1,实例将被分配到与其单个最近邻相同的类。定义 k 是一种平衡行为,因为不同的值可能会导致过拟合或欠拟合。 较低的 k 值可能具有较高的方差,但较低的偏差,较大的 k 值可能导致较高的偏差和较低的方差。k 的选择将很大程度上取决于输入数据,因为有许多异常值或噪声的数据可能会在 k 值较高时表现更好。 总之,建议 k 使用奇数以避免分类歧义,交叉验证策略可以帮助您为数据集选择最佳 k。4. OperatesKNN 算法在执行时经历了三个主要阶段:将 K 设置为选定的邻居数。

    6.3K22编辑于 2023-01-19
  • 来自专栏每月技术成长

    k1m1 or k230

    k1/m1 与 k230/k230D 均是 近两年发布的 riscv 芯片,均支持 RVV 1.0,本文将对两者进行对比硬件对比项k1/m1k230/k230Dcpu 频率1.6/1.68GHz1.6GHz 仅大核支持 RVV)cpu 算力50 KDMIPS (1.3x a55)-----RVV 规格256 bit128 bitAI 算力2 TOPS 通用算力6T 等效算力内存Max 16GB128MB(k230D 内置)-2GB软件生态对比项k1/m1k230/k230D系统Ubuntu 23.10 、Bianbu、Fedora 41、debian、ubuntu、RT smartkernel6.65.10(linux /m1 的产品更加接近树莓派的定位,但缺少树莓派的丰富GPIO接口,且 kernel 支持尚不如树莓派,而k230则更加偏向于智能监控等AIOT设备,且具备完善的GPIO 等外设例程。 一句话:想要完整系统体验,选k1/m1,想要玩GPIO等外设,选k230

    49600编辑于 2025-04-20
  • 来自专栏翻译scikit-learn Cookbook

    Stratified k-fold K-fold分层

    In this recipe, we'll quickly look at stratified k-fold valuation. Stratified k-fold is nice because its scheme is specifically designed to maintain the class proportions 在这部分,我们将要快速看一下k-fold分层估计。我们已经学过了关于分类表现不均匀的多种方法。k-fold分层因为它的特殊标注的结构来保持分类比例。 How to do it...怎么做 Let's create a stratified k-fold object and iterate it through each fold. is stable across folds.我们能看到通过k-fold分层后每一折的比例在折的数量上来说是稳定的 How it works...怎么运行的: Stratified k-fold works

    1.1K10发布于 2019-12-16
  • 来自专栏WD学习记录

    K-means中K值的选取

    并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓 ,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。 k作为我们的最佳聚类数。 2.2 实践 我们同样使用2.1中的数据集,同样考虑k等于1到8的情况,对于每个k值进行聚类并且求出相应的轮廓系数,然后做出k和轮廓系数的关系图,选取轮廓系数取值最大的k作为我们最佳聚类系数 聚类数k ; (N-k)/(k-1)是复杂度; ? 比率越大,数据分离度越大. 参考: kmeans算法原理以及实践操作(多种k值确定以及如何选取初始点方法) 【转】K-means聚类最优k值的选取

    3.1K20发布于 2018-09-04
  • 来自专栏数据科学(冷冻工厂)

    机器学习算法:K-NN(K近邻)

    导读 本文[1]将介绍机器学习中的 K-最近邻算法,K-Nearest Neighbors 是一种机器学习技术和算法,可用于回归和分类任务。 1. 简介 K-Nearest Neighbors k-最近邻算法,也称为 kNN 或 k-NN,是一种非参数、有监督的学习分类器,它使用邻近度对单个数据点的分组进行分类或预测。 K k-NN 算法中的 k 值定义了将检查多少个邻居以确定查询点的分类。例如,如果 k=1,实例将被分配到与其单个最近邻相同的类。定义 k 是一种平衡行为,因为不同的值可能会导致过拟合或欠拟合。 较低的 k 值可能具有较高的方差,但较低的偏差,较大的 k 值可能导致较高的偏差和较低的方差。k 的选择将很大程度上取决于输入数据,因为有许多异常值或噪声的数据可能会在 k 值较高时表现更好。 总之,建议 k 使用奇数以避免分类歧义,交叉验证策略可以帮助您为数据集选择最佳 k。 4. Operates KNN 算法在执行时经历了三个主要阶段: 将 K 设置为选定的邻居数。

    1.7K30编辑于 2023-02-27
  • 来自专栏产品经理的人工智能学习库

    K均值聚类(k-means clustering)

    文章目录 K均值聚类的优缺点 优点 算法简单,容易实现 ; 算法速度很快; 对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度大约是O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数 通常k<<n。这个算法通常局部收敛。 算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的,且簇与簇之间区别明显时,聚类效果较好。 缺点 对数据类型要求较高,适合数值型数据; 可能收敛到局部最小值,在大规模数据上收敛较慢 分组的数目k是一个输入参数,不合适的k可能返回较差的结果。 百度百科版本 K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。 该算法与k最近邻分类器有松散的关系,这是一种流行的分类机器学习技术,由于名称的原因,它经常与k -means 混淆。应用1最近邻分类器,通过k -means 获得的聚类中心将新数据分类到现有聚类中。

    1.5K10发布于 2019-12-18
  • 来自专栏腾讯云TI平台

    【技术分享】k-means、k-means++以及k-means||算法分析

    本文原作者:尹迪,经授权发布 | 导语 本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。 1 k-means算法原理分析 k-means算法是聚类分析中使用最广泛的算法之一。 3 k-means||算法原理分析 k-means||算法是在k-means++算法的基础上做的改进,和k-means++算法不同的是,它采用了一个采样因子l,并且l=A(k),在spark的实现中l 然后我们使用本地k-means++来得到这k个初始化点。 初始化k个中心点后, 就可以通过一般的k-means流程来求最终的k个中心点了。具体的过程4.3会讲到。

    6.3K31发布于 2019-07-03
  • 来自专栏绿盟科技研究通讯

    k0otkit: Hack K8s in a K8s Way

    k0otkit的名称来自Kubernetes和rootkit。从该名称不难看出,我们希望k0otkit成为“Kubernetes集群内的rootkit”。 这便是本文的主角——k0otkit的任务了。此时的渗透路线如下图所示: ? 接下来,我们就一起来看看k0otkit是如何完成对集群的“快速、隐蔽、持续”控制的。 至此,k0otkit的隐蔽性得到一些提升。 对于我们来说,k0otkit最小的执行单位是容器。因此,我们希望能够将k0otkit容器注入到kube-proxy DaemonSet定义的Pod中。 现在只剩下第三个问题。 具体流程可参考k0otkit的源代码。

    1.4K20发布于 2021-01-12
  • 来自专栏让技术和时代并行

    分布式系统设计|从 1–1K、1K -10K、10K-100K、100K-1M、1M-1B用户演进。

    从 1–1K、1K -10K、10K-100K、100K-1M、1M-1B用户扩展。 构建分布式系统最具挑战性的方面之一是对其进行扩展以处理不同级别的用户流量。 从 1 个用户扩展到 1K 个用户: 在这种规模下,系统相对简单,可以由单个服务器或小型服务器集群来处理。 从 1K 用户扩展到 10K 用户: 在这种规模下,系统开始面临更多挑战,需要更多资源和复杂性。主要挑战是: 处理来自多个用户的并发请求和连接。 扩展数据库以处理更多数据和查询。 用户数从 10K 扩展到 100K: 在这种规模下,系统变得更加复杂,需要更多的优化和调整。主要挑战是: 管理系统分布式组件之间的网络延迟和带宽。 平衡服务器和数据库之间的负载。

    38950编辑于 2023-11-21
  • 来自专栏JasonhavenDai

    统计学习方法之K近邻法1.k近邻法(k-nearest neighbor,k-NN)2.k近邻模型3.k近邻算法的实现

    1.k近邻法(k-nearest neighbor,k-NN) k近邻算法是一个基本分类和回归方法,k-NN的输入时实例的特征向量,对应于特征空间的点,输出是实力的类别,可以取多类。 k-NN不具有显式的学习过程,k-NN实际上利用训练数据集对特征向量空间进行划分,并且作为其分类的“模型”。 k-NN简单直观:给定一个训练集,对新的输入实力,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数所属于的类别就作为新实例的类。 2.k近邻模型 k-NN使用的模型实际上对应于听特征空间的划分,模型由三个基本要素:距离度量,k值的选择,分类决策规则。 极限情况下k=N,考虑所有样本,极简模型 。 在应用中,k值一般选取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

    1.6K50发布于 2018-04-11
  • 来自专栏蛮三刀的后端开发专栏

    Merge k Sorted Lists合并K个排序链表

    题目大意 将k个排序好的链表合并成新的有序链表 解题思路 堆和分治法 代码 最小堆方法 用一个大小为K的最小堆(用优先队列+自定义降序实现)(优先队列就是大顶堆,队头元素最大,自定义为降序后,就变成小顶堆 ,队头元素最小),先把K个链表的头结点放入堆中,每次取堆顶元素,然后将堆顶元素所在链表的下一个结点加入堆中。 简单来说就是不停的对半划分,比如k个链表先划分为合并两个k/2个链表的任务,再不停的往下划分,直到划分成只有一个或两个链表的任务,开始合并。

    1.1K10发布于 2019-03-26
  • 来自专栏生物信息学、python、R、linux

    K-means改进算法(一):K-means++

    在普通的K-means算法中,会存在以下的缺点: 1). 只能收敛到局部最优,受到初始值较大; 2). K不确定,需自己确定; 3). 受noise影响较大。 为了改进k-means算法,出现了K-means++,ISODATA和Kernel K-means等方法。 其中K-means++算法是对初始值选择进行了改进。 普通k-means算法的步骤大概如下所示(假设k=3): ? 普通的K均值算法是随机选取K个点作为聚类的中心,而K-means++按照如下的思想选取K个聚类中心,其基本的思想是,K个初始聚类中心相互之间应该分得越开、离得越远越好(图片来自https://www.cnblogs.com

    1.5K30发布于 2020-12-16
领券