是否有一个实现的算法(优先使用python/R或java )可以在完全没有先验知识或假设的情况下对来自未知生成器的传入数据进行分类。
例如,:
设G是2d向量的发生器,它在每秒产生一个向量。
我们所知道的,也没有别的,就是这些向量在空间上是可分离成簇的(欧几里得距离)。
问题:如何实时地对我的数据进行分类,以便在每次迭代时,算法都会提出聚类?
发布于 2016-01-02 21:18:51
我还在搜索与数据流聚类相关的内容,我找到了一些文件和代码:
Stream data clustering based on grid density and attraction);有一个DD流,我在A grid and density-based clustering algorithm for processing data stream中找不到佳佳的pdf。本论文是关于莫阿 (大规模在线分析)的声明,它实现了上述一些(StreamKM++,CluStream,ClusTree,Den,CluStream和CobWeb)。我相信progress是在进行中/一厢情愿的想法(并不是在他们的网站上的预发布的一部分)。莫阿是用Java编写的,这里是streamMOA包。
这存储库中的代码似乎是D的一个Python实现,但是,据提交人说,它很慢。
同时,流是一个基于R.
发布于 2015-05-28 07:23:53
我想你是在问这里的“溪流挖掘”。
读这篇文章
第10章:流聚类算法综述。Charu C. Aggarwal,IBM T. J. Watson研究中心,约克镇高地,纽约
这可以在2014年的书中找到
数据聚类-算法和应用,由Charu C. Aggarwal和Chandan . Reddy编辑。
在这一章中,描述了"CluStream“框架。本课题从2002年开始,以1997年的BIRCH算法为基础,采用“微聚类”的方法。该算法动态创建索引结构。
考虑到BIRCH实现很少,可能没有开源的CluStream算法/框架。
这里有一个Github回购,它有一个BIRCH实现,尽管我还没有尝试过这段代码,而且回购不是用于“流挖掘”的。
所有这些都出现在我的雷达上,因为我最近参加了关于聚类分析的Coursera。
发布于 2015-05-28 01:30:01
没有假设自由的方法。
你是在要求魔法的发生。
https://stackoverflow.com/questions/30494393
复制相似问题