首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大型数据集中常见关键词频率的识别

大型数据集中常见关键词频率的识别
EN

Data Science用户
提问于 2019-08-05 14:14:17
回答 2查看 65关注 0票数 2

我有一个配置文件数据集,其中包含描述许多个人工作历史的自由格式文本。

我想尝试在配置文件集合中识别经常使用的单词或词组,以便我能够构建一个与概要相关的分类(技能)。

例如,如果“转化率优化”这个词在所有配置文件中一起出现了300次,我会把它作为一个高频关键字出现在我的列表中。我希望能够根据单关键字、2字和3字串过滤列表。

然后,我将能够手动挑选与技能相关的常用关键短语,这些短语可以添加到主分类法列表中。

我还需要一些过滤无效单词的方法,比如(“i”、“和”等)

做这样的事情最好的方法是什么?

EN

回答 2

Data Science用户

发布于 2019-08-05 16:56:50

我想尝试识别经常使用的单词或词组。

这里的困难是捕捉多个词,而不是单个单词。这意味着对不同的n值使用n-克,而当比较不同长度的两个术语的频率(字数)时,这可能会造成偏差。

我还需要一些过滤无效单词的方法,比如(“i”、“和”等)

这些被称为止词 (有时是虚词或语法词)。它们的特点是,它们经常出现,尽管它们包含在词汇表的很小一部分(fyi,这是与自然语言的齐普夫定律相关的)。这两个属性使它们能够很容易地在预定义列表中列出,这样就可以排除它们,有许多可用的列表(例如这里那里)。

由于您没有任何预定义的术语列表,因此基线方法可以遵循以下思路:

  1. 对于要考虑的每个n值,收集所有的n-grams
  2. 删除只包含停止词(或主要包含停止词)的任何n-gram (注意:最好先执行此步骤,但前提是多词术语不包含停止词是安全的)。
  3. 计算每个候选术语的文档频率(与TF-以色列国防军重量中相同的DF )
  4. 筛选出文档频率很低的术语(对阈值进行不同值的实验)。这一步应该消除很多噪音,但可能不是全部。
  5. 如果您的目标是获得一个清晰的实际术语列表,那么您可能仍然需要在这里进行一些手动筛选。通常情况下,剩下的长n克应该很少,而剩下的大部分应该是好的,但是可能仍然有很多假阳性的单克和大数。

这种方法是非常基本的,但它很容易调整,您可以根据您的数据来调整它,或者添加步骤等等。否则,可能有专门的术语提取工具,但我不熟悉任何工具。

票数 1
EN

Data Science用户

发布于 2019-08-10 19:02:09

为此,聚类是错误的工具。

如果要识别频繁模式,请使用频繁模式挖掘。

在这里,您需要考虑顺序和位置,因此某种形式的频繁序列挖掘当然是可行的。

但是由于你可能只有几百份简历,所以你很可能只需数出所有的单词,2克,3克,4克(输入的大小仍然是线性的),并打印每个最频繁的组合。

如果您可以将多个数据副本加载到主内存中,我建议您简单地使用dict并统计所有出现的情况。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/56990

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档