文章/答案/技术大牛

发布

社区首页 >问答首页 >大型数据集中常见关键词频率的识别

问大型数据集中常见关键词频率的识别
EN

Data Science用户

提问于 2019-08-05 14:14:17

回答 2查看 65关注 0票数 2

我有一个配置文件数据集，其中包含描述许多个人工作历史的自由格式文本。

我想尝试在配置文件集合中识别经常使用的单词或词组，以便我能够构建一个与概要相关的分类(技能)。

例如，如果“转化率优化”这个词在所有配置文件中一起出现了300次，我会把它作为一个高频关键字出现在我的列表中。我希望能够根据单关键字、2字和3字串过滤列表。

然后，我将能够手动挑选与技能相关的常用关键短语，这些短语可以添加到主分类法列表中。

我还需要一些过滤无效单词的方法，比如(“i”、“和”等)

做这样的事情最好的方法是什么？

dataset

clustering

回答 2

Data Science用户

发布于 2019-08-05 16:56:50

我想尝试识别经常使用的单词或词组。

这里的困难是捕捉多个词，而不是单个单词。这意味着对不同的n值使用n-克，而当比较不同长度的两个术语的频率(字数)时，这可能会造成偏差。

我还需要一些过滤无效单词的方法，比如(“i”、“和”等)

这些被称为止词 (有时是虚词或语法词)。它们的特点是，它们经常出现，尽管它们包含在词汇表的很小一部分(fyi，这是与自然语言的齐普夫定律相关的)。这两个属性使它们能够很容易地在预定义列表中列出，这样就可以排除它们，有许多可用的列表(例如这里或那里)。

由于您没有任何预定义的术语列表，因此基线方法可以遵循以下思路：

对于要考虑的每个n值，收集所有的n-grams
删除只包含停止词(或主要包含停止词)的任何n-gram (注意:最好先执行此步骤，但前提是多词术语不包含停止词是安全的)。
计算每个候选术语的文档频率(与TF-以色列国防军重量中相同的DF )
筛选出文档频率很低的术语(对阈值进行不同值的实验)。这一步应该消除很多噪音，但可能不是全部。
如果您的目标是获得一个清晰的实际术语列表，那么您可能仍然需要在这里进行一些手动筛选。通常情况下，剩下的长n克应该很少，而剩下的大部分应该是好的，但是可能仍然有很多假阳性的单克和大数。

这种方法是非常基本的，但它很容易调整，您可以根据您的数据来调整它，或者添加步骤等等。否则，可能有专门的术语提取工具，但我不熟悉任何工具。

票数 1

Data Science用户

发布于 2019-08-10 19:02:09

为此，聚类是错误的工具。

如果要识别频繁模式，请使用频繁模式挖掘。

在这里，您需要考虑顺序和位置，因此某种形式的频繁序列挖掘当然是可行的。

但是由于你可能只有几百份简历，所以你很可能只需数出所有的单词，2克，3克，4克(输入的大小仍然是线性的)，并打印每个最频繁的组合。

如果您可以将多个数据副本加载到主内存中，我建议您简单地使用dict并统计所有出现的情况。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/56990

复制

相似问题

问大型数据集中常见关键词频率的识别
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大型数据集中常见关键词频率的识别EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大型数据集中常见关键词频率的识别
EN