首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >神经网络标准化、pca和/或tfidf的排序

神经网络标准化、pca和/或tfidf的排序
EN

Data Science用户
提问于 2020-09-15 14:49:35
回答 1查看 354关注 0票数 0

我有60k行文本数据。我已经将它标记为55k列。我使用神经网络对数据进行分类,但是对于如何对预处理步骤进行排序有一些问题。我有太多的数据为我的硬件(不适合内存/太慢),所以我使用PCA来减少尺寸。

  1. 很明显,我需要在PCA之前进行评估。我目前正在标准化这些列,但我想知道是否可以使用tfidf而不是标准化。一些行有50k+令牌,而另一些行有<1k标记,因此我担心这些行会对缩放结果产生不适当的影响,这将从管道中滴下。这是个好/坏主意吗?在PCA之前,我会使用tfidf进行标准化吗?
  2. 一般来说,神经网络更喜欢标准化的数据。在PCA之后,前几个列的大小要比其他的b/c大得多,它们捕获了如此多的方差。我应该在PCA之后和训练前标准化吗?训练前标准化的原因是没有特征对模型有较大的影响,只是b/c的尺度更大,但是PCA不是告诉我前几个特征实际上更重要吗?FWIW,我试过这两种方法,但不缩放似乎更好一些。
  3. 在PCA之后和训练前做坐骨神经怎么样?同样,带有50k+令牌的行将更倾向于权重比小于1k令牌的行大数量级的网络。对于网络来说,为两种类型的行设置权重不是很困难吗?

清晰图:数据->标记->?标准化/ ->?-> PCA ->?标准化/tfidf?->神经网络

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-09-15 21:43:56

我会这么做:

代码语言:javascript
复制
data -> tokenize -> tfidf* -> neural net

但是在Tfidf向量器中,您实际上可以对使用的术语进行正则化,例如限制术语出现的最小次数和/或定义特性的max_number,以便您只保留那些根据tfidf具有最高重要性的特性。

如果您想通过某种分解技术来减少特征的数量,PCA将是不够的,因为术语频率矩阵是稀疏的,所以您可以,例如,使用NMF (非负矩阵分解)。

所以:

代码语言:javascript
复制
data -> tokenize -> tfidf->NMF -> neural net

这一次,没有必要对tfidf进行正则化,因为您还有一个额外的步骤。

最后,简历上的指标将指导您了解最佳策略是什么。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/81740

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档