首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法channel

    机器学习分类问题9个常用的评估指标总结

    你好,我是zhenguo 对机器学习的评估度量是机器学习核心部分,本文总结分类问题常用的metrics 分类问题评估指标 在这里,将讨论可用于评估分类问题预测的各种性能指标 1 Confusion Matrix 这是衡量分类问题性能的最简单方法,其中输出可以是两种或更多类型的类。 8 AUC (Area Under ROC curve) AUC(曲线下面积)-ROC(接收器工作特性)是基于不同阈值的分类问题性能指标。顾名思义,ROC是一条概率曲线,AUC衡量可分离性。 9 LOGLOSS (Logarithmic Loss) 它也称为逻辑回归损失或交叉熵损失。它基本上定义在概率估计上,并测量分类模型的性能,其中输入是介于0和1之间的概率值。 machine_learning_algorithms_performance_metrics.htm https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5

    1.9K10编辑于 2022-09-06
  • 来自专栏杀马特

    颜色分类问题

    思路: 创建两个指针分别找0和2并完成就位操作,利用遍历数组找到2可以缩小遍历右界的遍历范围,

    13400编辑于 2025-01-23
  • 来自专栏互联网大杂烩

    分类问题数据挖掘之分类模型

    ---- ---- 聚类分析 聚类分析是一种无监督的分类方法,即不预先指定类别。 根据分类对象不同,聚类分析可以分为样本聚类(Q型)和变量聚类(R型)。 并且距离分类准则和距离计算方法都有多种,可以依据具体情形选择。 适用范围:属于智能聚类方法,用于解决海量数据或者具有复杂类别结构的聚类分析问题。可以同时处理离散和连续变量,自动选择聚类数,可以处理超大样本量的数据。 ---- 模糊聚类分析 采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析。 ---- ---- 神经网络分类方法 神经网络分类算法的重点是构造阈值逻辑单元。一个阈值逻辑单元是一个对象,可以输入一组加权系数的量,对它们进行求和。如果这个和达到或者超过了某个阈值,则输出一个量。

    1.4K20发布于 2018-08-22
  • 来自专栏深度学习框架

    stack overflow 问题分类

    本教程的目的是带领大家学会如何给 stack overflow 上的问题进行打标签 首先我们需要导入要用到的函数库 import matplotlib.pyplot as plt import os import

    99620发布于 2021-07-28
  • 来自专栏图灵技术域

    机器学习多分类问题转二分类问题

    什么是多分类问题? 简单地说就是在监督学习下样本实例的标签有多个,而我们很多问题是二分类分体(正确,错误或者是0,1问题)。 通常情况是将多分类转化为二分类问题。 ? ---- 多分类问题转化为二分类问题 很简单,一个简单的思想就是分主次,采取投票机制。 转化的方式有两种,因为分类问题最终需要训练产生一个分类器,产生这个分类器靠的是训练样本,前面的二分类问题实际上就是产生了一个分类器,而多分类问题根据训练集产生的可不止是一个分类器,而是多个分类器。 像上面的5类,我把最中间的一类当成是第一类,并重新赋予类标签为1,而把四周的四类都认为是第二类,并重新赋予类标签维-1,好了现在的问题是不是就是二分类问题了?是的。 ---- 第二种分类方式 ,思想类似,也是转化为二分类问题,不过实现上不同。

    3.8K40发布于 2021-05-21
  • 来自专栏golang算法架构leetcode技术php

    golang刷leetcode滑动窗口(9) 颜色分类

    解题思路: 本问题被称为 荷兰国旗问题 ,最初由 Edsger W. Dijkstra提出。 其主要思想是给每个数字设定一种颜色,并按照荷兰国旗颜色的顺序进行调整。 注意问题: 由于curr指针从最左扫描到p2,不是最右,所以,当与p2位置的元素交换位置的时候,curr指针不移动。

    38420编辑于 2022-08-02
  • 来自专栏优化

    最优化问题及其分类

    8x2+x11≤0−8x2+x11≤0 −8x3+x12≤0−8x3+x12≤0 −2x4−x5+x10≤0−2x4−x5+x10≤0 −2x6−x7+x11≤0−2x6−x7+x11≤0 −2x8−x9+ x12≤0−2x8−x9+x12≤0 0≤xi≤1,i=1,2,....,9,130≤xi≤1,i=1,2,....,9,13 0≤xi≤100,i=10,11,120≤xi≤100,i=10,11,12 为所有状态构成的解空间, C(si)C(si)为状态 sisi对应的目标函数值,要求寻找最优解 s∗s∗,使得 ∀si∈Ω,C(s∗)=minC(si)∀si∈Ω,C(s∗)=minC(si).组合优化往往涉及排序、分类 因此,解决这些问题的关键在于寻求有效的优化算法。 (3)优化算法及其分类 所谓优化算法,其实就是一种搜索过程或规则,它是基于某种思想和机制,通过一定的途径或规则来得到满足用户要求的问题的解。 优化算法当然还可以从别的角度进行分类,如确定性算法和不确定性算法,局部优化算法和全局优化算法等。

    2.5K10编辑于 2022-06-01
  • 来自专栏火星娃统计

    深度学习-多分类问题

    深度学习-多分类问题 概述 数据来自路透社数据集,为kersa库自带的数据,包含不同的主题,每个主题最少有10个样本 代码 #导入数据 from keras.datasets import reuters model.add(layers.Dense(64, activation='relu'))# 增加节点 model.add(layers.Dense(46, activation='softmax'))# 最终的分类为 46类 # 添加模型参数 model.compile(optimizer='rmsprop',# 模型优化器 loss='categorical_crossentropy',#损失函数为分类交叉熵 (46,) 什么是one-hot编码 问题 最近做这几个项目,一直有这个东西萦绕在我的脑海,久久不能释怀,主要是书里的代码写的太复杂,影响到了理解,其实one-hot就是一开始学习统计分析对分类变量的哑变量设置 按道理神经网络可以处理这样的因子类型,并不需要这样处理,后来明白了,如果将分类变量放入一列,那么对于其他变量就整合了(类似于长数据),在训练神经网络的过程中,这种整合的运算会有可能对数据加权求均值,那么这样的运算就会丢失分类的信息

    89620发布于 2020-09-15
  • 来自专栏HelloGitHub

    9 篇:实现分类、标签、归档日期接口

    例如点击某个分类,博客将跳转到该分类下全部文章列表页面。这些数据的展示都需要开发对应的接口,以便前端调用获取数据。 分类列表、标签列表实现比较简单,我们这里给出接口的设计规范,大家可以使用前几篇教程中学到的知识点轻松实现(具体实现可参考 GtiHub 上的源代码)。 分类列表接口:/categories/ 标签列表接口:/tags/ 归档日期列表的接口实现稍微复杂一点,因为我们需要从已有文章中归纳文章发表日期。 现在,侧边栏所需要的数据接口就开发完成了,接下来实现返回某一分类、标签或者归档日期下的文章列表接口。 在 使用视图集简化代码 我们开发了获取全部文章的接口。 事实上,分类、标签或者归档日期文章列表的 API,本质上还是返回一个文章列表资源,只不过比首页 API 返回的文章列表资源多了个“过滤”,只过滤出了指定的部分文章而已。

    3.6K30发布于 2021-05-14
  • 来自专栏NowlNowl_AI

    机器学习第9天:决策树分类

    介绍 作用:分类 原理:构建一个二叉树,逐级条件判断筛选 基本思想 假如有小明,小红和小张三个人,我们知道他们的身高体重,要通过身高体重来判断是哪个人,决策树算法会构建一个二叉树,逐级判断,如下

    27510编辑于 2024-01-18
  • 来自专栏机器学习/数据可视化

    TF-char3-分类问题

    Char3-分类问题 在人工智能上花一年时间,这足以让人相信上帝的存在————艾伦\cdot佩利 分类问题典型的应用就是教会机器如何去自动识别图片中物体的种类。 手写数字数据集介绍 数据集是手写数字0-9,具有的特征为: 真人书写的0-9数字图片 为了便于存储和计算,将图片缩放到固定的大小size,比如224224,或者9696:作为输入x 每张图片加上标签label MNIST数据集具体信息 特征 包含0-9共10中数字的手写图片,每种数字7000张,总共70000张 60000张是属于训练集,剩下的属于测试集 每张图片缩放到28*28的大小 图片是真人书写,包含了 in R^{10} 真实标签y经过one-hot变成长度为10的稀疏向量y\in {0,1}^{10} 多输入和多输出的线性预测模型是o=W^Tx+b,希望其更接近真实标签y 误差计算 对于分类问题 存在的问题: 欠拟合(左图):线性模型,表达能力差 过拟合(右图):模型过于复杂,表达能力过强,伤害模型的泛化能力 2.

    94110发布于 2021-03-02
  • 来自专栏鸿的学习笔记

    分类问题中维度诅咒(上)

    这个问题的答案听起来有点反直觉:不,我们不能!事实上,在某一点之后,通过添加新特征来增加问题的维度实际上会降低我们的分类器的性能。这由图1示出,并且通常被称为“维度的诅咒”。 ? 分类的最终目标是训练基于这10个训练实例的分类器,能够正确地分类无限数量的狗和猫,这些我们没有任何信息的实例。现在让我们使用一个简单的线性分类器,并尝试获得完美的分类。 这似乎暗示增加特征的数量直到获得完美的分类结果是训练分类器的最佳方式,而在图1所示的引言中,我们认为这种情况不行。但是,请注意,当我们增加问题的维数时,训练样本的密度是如何呈指数下降。 然而,如果我们将高维分类结果投影回较低维的空间,则与该方法相关联的问题的严重性变得更明显: ? Figure 7. 虽然图7所示的具有决策边界的简单线性分类器看起来比图5中的非线性分类器更差,但是这种简单分类器更好地泛化了不可见的数据,因为它没有学习仅在我们的训练数据中的特定异常。

    1.4K20发布于 2018-08-06
  • 来自专栏阿泽的学习笔记

    GBDT 如何用于分类问题

    但越简单的东西越容易出现知识盲区,仔细想一下好像确实有点疑问:GBDT 用的是回归树,是如何做的分类呢? GBDT 通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。 因为训练的过程是通过降低偏差来不断提高最终分类器的精度。 二 GBDT如何用于分类的 第一步:「训练的时候,是针对样本 X 每个可能的类都训练一个分类回归树」。 GBDT 多分类的过程 ? 生成的过程其实非常简单,问题 是哪个特征最合适? 是这个特征的什么特征值作为切分点? 即使我们已经确定了花萼长度做为节点。花萼长度本身也有很多值。

    1.9K20发布于 2020-12-24
  • 来自专栏数据科学与人工智能

    【应用】信用评分卡:分类问题

    2 如何解决分类问题? 3 信用评分卡和分类问题的关系? 统计与数据挖掘中的分类问题 我必须说,当三岁以上的女孩Amishi宣布,她只是与我妻子的朋友而不是我交往时,我感到震惊。 大自然为我们提供了一个内置的方程式,通过高度的精确性来进行性别分类。 想象一下类似的机制来区分好的和坏的借款人。 你在谈论每个银行家的梦想。 正如我在前面的文章中提到的,记分卡在统计和数据挖掘的分类问题上有其根源。 大多数分类问题的想法是创建一个数学方程来区分二元变量。 由于海洋的盐度相当稳定,几滴水足以回答第一个问题。另一方面,第二个问题是黑天鹅问题。你可能需要访问每一颗行星来统治我们的智能生命形式的可能性。 注意 在下一篇文章中,我们将讨论信用评分卡的变量分类和粗分类的一个重要主题。 下回见。

    77310发布于 2018-10-08
  • 来自专栏AI

    监督学习与分类问题

    无监督学习与聚类问题:K-Means、PCA等无监督学习是一种机器学习类型,它在没有标签数据的情况下从数据中学习结构和模式。 本文将详细介绍无监督学习中的聚类问题,并深入讲解常见的聚类算法:K-Means和主成分分析(PCA)。1. 聚类问题:K-Means算法聚类是无监督学习中最重要的任务之一,它试图将数据集中的对象根据相似性进行分组。

    49310编辑于 2025-01-16
  • 来自专栏悠扬前奏的博客

    LintCode-9.Fizz Buzz 问题

    题目 描述 给你一个整数n. 从 1 到 n 按照下面的规则打印每个数: 如果这个数被3整除,打印fizz. 如果这个数被5整除,打印buzz. 如果这个数能同时被3和5整除,打印fizz buzz. 样例 比如 n = 15, 返回一个字符串数组: [ "1", "2", "fizz", "4", "buzz", "fizz", "7", "8", "fizz", "buzz", "11", "fizz", "13", "14", "fizz buzz" ] 解答 思路 代码 clas

    52520发布于 2019-05-31
  • 杂草分类数据集17509张9类别

    数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):17509 分类类别数:9 类别名称:["chineseapple","lantana","negatives 图片数:1009 siam_weed 图片数:1074 snake_weed 图片数:1016 重要说明:暂无 特别声明:本数据集不对训练的模型或者权重文件精度作任何保证,数据集只提供准确且合理分类存放

    17410编辑于 2025-07-20
  • 来自专栏惊羽-布壳儿

    算法练习(9) - TwoSum问题变换

    题目 有一个数组[1,2,5,7,8,8,9,4,4,6],求元素 m+n = 12 的组合,将所有的 m n 组合下标打印出来,需要过滤下标重复的组合,例如 4,7 7,4 是重复组合;时间复杂度需要是 public class TwoSumTest { @Test public void twoSum_test() { int[] arr = {1,2,5,7,8,8,9,4,4,6

    22410编辑于 2022-06-15
  • 来自专栏智能大数据分析

    数据仓库作业六:第9分类规则挖掘

    9分类规则挖掘 第一题 1、设网球俱乐部有打球与气候条件的历史统计数据如下表1所示。 试用ID3算法对样本集进行学习并生成其决策树,再由决策树获得动物的分类规则。 (1)计算分类属性 C 的分类信息熵 已知 S=\{X_1,X_2,…,X_6\} 共有6个样本点,故 |S|=6 ,而分类属性 C=\{1, 0\}=\{C_1,C_2\} ,即 C_1 以下是构造子树的过程: 至此,我们已经得到了一棵完整的决策树,可以用于对新样本进行分类。 因此,根据朴素贝叶斯分类方法,预测顾客 X 会买电脑。

    29600编辑于 2025-01-22
  • 来自专栏编程一生

    排查线上问题9种方式

    这个励志故事告诉咱们要懂得如何排查问题的重要价值。今天咱们就来总结一下排查问题9种方法: 基础方法 监控告警 问题发生常用的手段有生产测试、监控告警和人工客诉。 linux命令可以作为排查问题的利器,比如我在《懂得三境界-使用dubbo时请求超过问题》里提到的netstat -s ,但是要注意不要对线上造成影响。 线上调试 举个例子,有次我们在进行测试环境演练,出现了个怪异的问题。后来有同事说其他一个同事也在用这个环境做调试,所以才会调用哪个接口的地方卡住,出现问题。这种问题要是出现在线上,就是故障了。 高级方法 代码走查 排查问题的最高境界是只通过review代码来发现问题 逻辑推理 但很多大神的解决步骤是:第一,听别人讲述问题现象;第二,提出问题以求证;第三,推理出大致原因并给出可选方案及方案的注意点 为啥是他人,能达到这种境界多是领导或者帮别人排查问题的救火队长,问题发生和自己并没有直接关系。 想达到这种境界还是需要平时的积累和深入理解和深耕。

    1K10编辑于 2022-05-06
领券