我有一个配置文件数据集,其中包含描述许多个人工作历史的自由格式文本。
我想尝试在配置文件集合中识别经常使用的单词或词组,以便我能够构建一个与概要相关的分类(技能)。
例如,如果“转化率优化”这个词在所有配置文件中一起出现了300次,我会把它作为一个高频关键字出现在我的列表中。我希望能够根据单关键字、2字和3字串过滤列表。
然后,我将能够手动挑选与技能相关的常用关键短语,这些短语可以添加到主分类法列表中。
我还需要一些过滤无效单词的方法,比如(“i”、“和”等)
做这样的事情最好的方法是什么?
发布于 2019-08-05 16:56:50
我想尝试识别经常使用的单词或词组。
这里的困难是捕捉多个词,而不是单个单词。这意味着对不同的n值使用n-克,而当比较不同长度的两个术语的频率(字数)时,这可能会造成偏差。
我还需要一些过滤无效单词的方法,比如(“i”、“和”等)
这些被称为止词 (有时是虚词或语法词)。它们的特点是,它们经常出现,尽管它们包含在词汇表的很小一部分(fyi,这是与自然语言的齐普夫定律相关的)。这两个属性使它们能够很容易地在预定义列表中列出,这样就可以排除它们,有许多可用的列表(例如这里或那里)。
由于您没有任何预定义的术语列表,因此基线方法可以遵循以下思路:
这种方法是非常基本的,但它很容易调整,您可以根据您的数据来调整它,或者添加步骤等等。否则,可能有专门的术语提取工具,但我不熟悉任何工具。
发布于 2019-08-10 19:02:09
为此,聚类是错误的工具。
如果要识别频繁模式,请使用频繁模式挖掘。
在这里,您需要考虑顺序和位置,因此某种形式的频繁序列挖掘当然是可行的。
但是由于你可能只有几百份简历,所以你很可能只需数出所有的单词,2克,3克,4克(输入的大小仍然是线性的),并打印每个最频繁的组合。
如果您可以将多个数据副本加载到主内存中,我建议您简单地使用dict并统计所有出现的情况。
https://datascience.stackexchange.com/questions/56990
复制相似问题