我有大量的非结构化文本文档,对于每个文档,我想要一个向量空间表示,这样我就可以很容易地将文档分类并进行语义性质分析。将文档转换到向量空间的方法有很多种,如词袋(BOW)模型、潜在语义分析(LSA)模型、n- gram模型等。但我认为所有这些方法都需要一个关键字字典。(不确定)但是如果没有查询,如何为大量文档生成字典?(100万)如何确定文档中的重要单词?
发布于 2015-04-28 03:53:59
您可以使用一个简单的频率模型来确定哪些单词是重要的,并且需要将其收录在字典或词典中。该模型假设总计数较低(低于某个阈值)的单词不重要,可以安全地排除。
你可以从一个非常大的字典开始,使用一个简单的频率模型,然后使用特征选择方法,如信息增益,互信息,卡方等,以进一步减少你的词典的大小(有关特征选择方法的更多信息,请参阅Yang和Pedersen的“关于文本分类中的特征选择的比较研究”)。
https://stackoverflow.com/questions/29903857
复制相似问题