首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在不事先知道类数的情况下进行实时分类

在不事先知道类数的情况下进行实时分类
EN

Stack Overflow用户
提问于 2015-05-27 22:46:46
回答 3查看 1.6K关注 0票数 1

是否有一个实现的算法(优先使用python/R或java )可以在完全没有先验知识或假设的情况下对来自未知生成器的传入数据进行分类。

例如,

设G是2d向量的发生器,它在每秒产生一个向量。

我们所知道的,也没有别的,就是这些向量在空间上是可分离成簇的(欧几里得距离)。

问题:如何实时地对我的数据进行分类,以便在每次迭代时,算法都会提出聚类?

EN

回答 3

Stack Overflow用户

发布于 2016-01-02 21:18:51

我还在搜索与数据流聚类相关的内容,我找到了一些文件和代码:

  • 上述调查作者:CharuC.Aggarwal,来自上述书
  • 在具有噪声的进化数据流上基于密度的聚类。作者冯草等人提出了DenStream;这里是对此的一个git回购(Matlab);
  • 陈一新(音译)的基于密度的实时流数据聚类,李图,提出了DD框架(2008年版称为Stream data clustering based on grid density and attraction);有一个DD流,我在A grid and density-based clustering algorithm for processing data stream中找不到佳佳的pdf。
  • 题名/责任者:一种快速稳定的增量聚类算法 L.将聚类作为一种无监督的学习过程;
  • 题名/责任者:自适应随时随地流聚类 L.有ClusTree和 git回购实现DClusTree;
  • 用变尺寸桶进行异常检测和聚类的预聚类算法,Manish Sharma等人。是最近的,可能是相关的(作者的git回购);

本论文是关于莫阿 (大规模在线分析)的声明,它实现了上述一些(StreamKM++,CluStream,ClusTree,Den,CluStream和CobWeb)。我相信progress是在进行中/一厢情愿的想法(并不是在他们的网站上的预发布的一部分)。莫阿是用Java编写的,这里是streamMOA包。

存储库中的代码似乎是D的一个Python实现,但是,据提交人说,它很慢。

同时,是一个基于R.

票数 3
EN

Stack Overflow用户

发布于 2015-05-28 07:23:53

我想你是在问这里的“溪流挖掘”。

读这篇文章

第10章:流聚类算法综述。Charu C. Aggarwal,IBM T. J. Watson研究中心,约克镇高地,纽约

这可以在2014年的书中找到

数据聚类-算法和应用,由Charu C. Aggarwal和Chandan . Reddy编辑。

在这一章中,描述了"CluStream“框架。本课题从2002年开始,以1997年的BIRCH算法为基础,采用“微聚类”的方法。该算法动态创建索引结构。

考虑到BIRCH实现很少,可能没有开源的CluStream算法/框架。

这里有一个Github回购,它有一个BIRCH实现,尽管我还没有尝试过这段代码,而且回购不是用于“流挖掘”的。

所有这些都出现在我的雷达上,因为我最近参加了关于聚类分析的Coursera。

票数 1
EN

Stack Overflow用户

发布于 2015-05-28 01:30:01

没有假设自由的方法。

你是在要求魔法的发生。

  1. 不要盲目地使用聚类结果。不要在流上使用群集。相反,在部署之前分析和更正任何集群结果。
  2. 小心隐藏的假设。例如,假设簇是凸的,基于距离的(为什么欧几里得距离是coorect的选择?),具有相同的大小或扩展,被分离(由什么?)或者形状。每当您设计一个方法时,您都会假设什么是有趣的。
  3. 总之,任何事情都是“聚类”!
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30494393

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档