首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将文档转化为向量空间表示,如何生成字典?

将文档转化为向量空间表示,如何生成字典?
EN

Stack Overflow用户
提问于 2015-04-28 02:59:02
回答 1查看 63关注 0票数 0

我有大量的非结构化文本文档,对于每个文档,我想要一个向量空间表示,这样我就可以很容易地将文档分类并进行语义性质分析。将文档转换到向量空间的方法有很多种,如词袋(BOW)模型、潜在语义分析(LSA)模型、n- gram模型等。但我认为所有这些方法都需要一个关键字字典。(不确定)但是如果没有查询,如何为大量文档生成字典?(100万)如何确定文档中的重要单词?

EN

回答 1

Stack Overflow用户

发布于 2015-04-28 03:53:59

您可以使用一个简单的频率模型来确定哪些单词是重要的,并且需要将其收录在字典或词典中。该模型假设总计数较低(低于某个阈值)的单词不重要,可以安全地排除。

你可以从一个非常大的字典开始,使用一个简单的频率模型,然后使用特征选择方法,如信息增益,互信息,卡方等,以进一步减少你的词典的大小(有关特征选择方法的更多信息,请参阅Yang和Pedersen的“关于文本分类中的特征选择的比较研究”)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29903857

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档