在Tf-国防军获得的属性之上运行PCA是个好主意吗?
tf-国防军返回了很多属性,所以在这种情况下,我认为运行PCA来减少维数是个好主意。
另一方面,tf-国防军试图找到一些非常具体的例子,而在PCA你试图概括,你会失去一些信号,这一系列的操作。
发布于 2022-06-10 21:57:23
这可能取决于您的下游任务。对于分类,在提高下游分类器模型的速度的同时,性能度量(在我的例子中是F1宏)的下降是可以忽略不计的。
有基于主成分分析( PCA )在基于变压器的嵌入顶部的类似报告。
您可能会松散维度(术语),这些维度(术语)不会给您的数据添加太多的差异(PCA会找到最大方差的投影),但是对于下游任务至关重要(例如,它们会出现在少数类中)。
PCA还可以帮助您捕获术语之间的关联(经常发生在同一文档中的单词),而无需使用n克tf-国防军。
https://datascience.stackexchange.com/questions/101847
复制相似问题