首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >isomap降维算法

isomap降维算法

作者头像
生信修炼手册
发布2021-04-29 16:58:15
发布2021-04-29 16:58:15
1.2K0
举报
文章被收录于专栏:生信修炼手册生信修炼手册

降维算法分为线性和非线性两大类,主成分分析PCA属于经典的线性降维,而t-SNE, MDS等属于非线性降维。在非线性降维中,有一个重要的概念叫做流形学习manifold learing。

首先来看下什么叫做流形,流形是一般几何对象的总称,包括各种维度的曲线和曲面,简单理解就是数据本身的分布满足一定的几何特征,以下图中的"瑞士卷"为例

可以看到,在三维空间中,样本点的分布构成了一个瑞士卷的形状,这个瑞士卷就是一个流形。通过流形学习来降维,就是假设数据的分布存在一个潜在的流形,降维其实是将流形在低维空间展开。

从而延伸出了测地线的概念,以上图中的两个黑色点为例,如果不考虑流形的情况下,计算二者的距离可能直接就是欧式距离了,但是在考虑流形的情况下,数据只能在流形上移动,通过邻近点的欧式距离累加来计算,如下图所示

终慢慢延伸,得出两点之间的距离就是红色曲线标记的距离。所谓流形学习,就是在降维时,考虑数据的流形。

在流形学习中,isomap和局部性嵌入LLE都是典型的算法。isomap全称如下

isometric mapping

称之为等距映射,该算法的本质是通过流形中的测地距离来表示高维空间的距离,然后通过MDS算法进行降维。具体的步骤如下

1. 构建邻接图,有两种方法,第一种指定半径阈值,半径内的点为邻近点,第二种为K近邻,在邻近点之间基于欧式距离构建一个邻接图

2. 计算样本点测地距离矩阵,本质是计算邻接图中样本点之间的最短路径,可以选择Floyd-Warshall或者Dijkstra算法

3. 通过MDS算法对测地距离矩阵进行降维

在sickit-learn中使用isomap的代码如下

代码语言:javascript
复制
>>> from sklearn.datasets import load_digits
>>> from sklearn.manifold import Isomap
>>> X, _ = load_digits(return_X_y=True)
>>> X.shape
(1797, 64)
>>> embedding = Isomap(n_components=2)
>>> X_transformed = embedding.fit_transform(X)
>>> X_transformed.shape
(1797, 2)

在sickit-learn中,就是通过指定邻近点数目K来构架邻接图的,不同的K值对算法的结果影响较大。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档