一些与流形学习有关的方法通常被认为是很好的可视化方法,如T和自组织映射(SOM).
我明白,当具体提到“可视化”时,意味着非线性维数约简可以很好地洞察其低维投影中的数据,但最常见的是,这种低维投影不能用于机器学习算法,因为高维结构的一些信息丢失了(粗略)。
然而,这里的问题是,如果在可视化中观察到“集群”,那么将聚类算法应用于低维转换数据并分别分析集群或组是可以接受的吗?
例如,我将T应用于相当高维度的数据(40个特性),并获得以下表示:

不考虑图片中观察到的颜色,我想应用一个聚类算法,将数据从找到的集群中分离出来(比如6或7个集群),然后使用每个点的高维表示来分析每个集群的特性。
这是综合的:使用低维来查找簇,并使用高维表示分别分析(探索)每个簇。如果我不能做到这一点,我就看不到在低维空间中视觉化的实际意义,在实际意义上。
我知道to保存了很好的局部结构和不太精确的全局结构,这是我为什么要做的缺点吗?这种低模糊聚类方法是否更适合于其他的流形学习方法?
编辑:也许更直接的方式来问这个问题:我是否可以使用低维表示中观察到的簇来标记或标记示例,并使用这些标签来区分原始高维表示?
发布于 2016-04-04 03:27:46
你可以在低维空间里做任何你想做的事情,也可以尝试验证。通过对上面的内容进行聚类,您实际上是在为更高维度的数据点分配功能/标记。记住,tSNE试图保持距离,这样高维点在低维时就会保持接近。
记住这一点,不要忘记没有两个tSNE实例是相同的,这意味着每次运行tSNE时,集群中心都会有所不同。
https://datascience.stackexchange.com/questions/10974
复制相似问题