我有一个传统的预测设置,有一个训练数据集train和一个测试数据集test。我不知道结果y的test集。
我发现tsne很好地分离了我的二进制分类设置。然而,tsne不能真正用于预测,就像在predict(tsne, newdata=test)中可以对PCA进行预测一样。
这里最好的方法是什么?
我是否应该将我的train和test集(即rbind)组合起来,并在整个数据集中运行tsne?
发布于 2017-12-19 16:35:21
that并不是这样设计的。由于the是非参数的,所以没有将数据从输入空间映射到映射的函数。标准的方法通常是训练多元回归,从输入数据预测地图位置。您可以在本文t-SNE中更多地阅读到这方面的内容。在本文中,您应该注意到作者采用了直接最小化the损失的方法。
发布于 2017-12-23 12:36:23
下面是一个方法:
这确保您的培训和测试集之间没有数据泄漏。我认为这种方法是将the引入到二进制分类图中的一种讨厌的方法。
请注意,that主要用于高维数据点的可视化,而不是为分类模型提取良好的特征。使用task可视化可以观察到类之间的清晰分离,这意味着可以使用非线性分类算法轻松地将数据建模为二进制分类任务。
如果我是你,我会考虑使用榆树,带有非线性内核的支持向量机,或良好的具有正则性的旧Logistic回归。
https://datascience.stackexchange.com/questions/22441
复制相似问题