文章/答案/技术大牛

发布

社区首页 >问答首页 >神经网络标准化、pca和/或tfidf的排序

问神经网络标准化、pca和/或tfidf的排序
EN

Data Science用户

提问于 2020-09-15 14:49:35

回答 1查看 354关注 0票数 0

我有60k行文本数据。我已经将它标记为55k列。我使用神经网络对数据进行分类，但是对于如何对预处理步骤进行排序有一些问题。我有太多的数据为我的硬件(不适合内存/太慢)，所以我使用PCA来减少尺寸。

很明显，我需要在PCA之前进行评估。我目前正在标准化这些列，但我想知道是否可以使用tfidf而不是标准化。一些行有50k+令牌，而另一些行有<1k标记，因此我担心这些行会对缩放结果产生不适当的影响，这将从管道中滴下。这是个好/坏主意吗？在PCA之前，我会使用tfidf进行标准化吗？
一般来说，神经网络更喜欢标准化的数据。在PCA之后，前几个列的大小要比其他的b/c大得多，它们捕获了如此多的方差。我应该在PCA之后和训练前标准化吗？训练前标准化的原因是没有特征对模型有较大的影响，只是b/c的尺度更大，但是PCA不是告诉我前几个特征实际上更重要吗？FWIW，我试过这两种方法，但不缩放似乎更好一些。
在PCA之后和训练前做坐骨神经怎么样？同样，带有50k+令牌的行将更倾向于权重比小于1k令牌的行大数量级的网络。对于网络来说，为两种类型的行设置权重不是很困难吗？

清晰图:数据->标记->？标准化/ ->？-> PCA ->？标准化/tfidf？->神经网络

pca

text-classification

tfidf

neural-network

nlp

回答 1

Data Science用户

回答已采纳

发布于 2020-09-15 21:43:56

我会这么做：

data -> tokenize -> tfidf* -> neural net

但是在Tfidf向量器中，您实际上可以对使用的术语进行正则化，例如限制术语出现的最小次数和/或定义特性的max_number，以便您只保留那些根据tfidf具有最高重要性的特性。

如果您想通过某种分解技术来减少特征的数量，PCA将是不够的，因为术语频率矩阵是稀疏的，所以您可以，例如，使用NMF (非负矩阵分解)。

所以：

data -> tokenize -> tfidf->NMF -> neural net

这一次，没有必要对tfidf进行正则化，因为您还有一个额外的步骤。

最后，简历上的指标将指导您了解最佳策略是什么。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/81740

复制

相似问题

问神经网络标准化、pca和/或tfidf的排序
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问神经网络标准化、pca和/或tfidf的排序EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问神经网络标准化、pca和/或tfidf的排序
EN