我有60k行文本数据。我已经将它标记为55k列。我使用神经网络对数据进行分类,但是对于如何对预处理步骤进行排序有一些问题。我有太多的数据为我的硬件(不适合内存/太慢),所以我使用PCA来减少尺寸。
清晰图:数据->标记->?标准化/ ->?-> PCA ->?标准化/tfidf?->神经网络
发布于 2020-09-15 21:43:56
我会这么做:
data -> tokenize -> tfidf* -> neural net但是在Tfidf向量器中,您实际上可以对使用的术语进行正则化,例如限制术语出现的最小次数和/或定义特性的max_number,以便您只保留那些根据tfidf具有最高重要性的特性。
如果您想通过某种分解技术来减少特征的数量,PCA将是不够的,因为术语频率矩阵是稀疏的,所以您可以,例如,使用NMF (非负矩阵分解)。
所以:
data -> tokenize -> tfidf->NMF -> neural net这一次,没有必要对tfidf进行正则化,因为您还有一个额外的步骤。
最后,简历上的指标将指导您了解最佳策略是什么。
https://datascience.stackexchange.com/questions/81740
复制相似问题