首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >nltk.corpus用于数据科学相关的词汇?

nltk.corpus用于数据科学相关的词汇?
EN

Data Science用户
提问于 2019-04-27 03:05:01
回答 2查看 366关注 0票数 0

从我从互联网上搜集到的工作描述来看,我已经浏览了所有的nlp流程,并找到了我找到的地方:

代码语言:javascript
复制
freq = nltk.FreqDist(lemmatized_list)
most_freq_words = freq.most_common(100)

其中产出:

代码语言:javascript
复制
[('data', 179),
 ('experience', 86),
 ('work', 78),
 ('business', 71),
 ('team', 59),
 ('learn', 56),
 ('model', 49),
 ('skills', 47),
 ('science', 41),
 ('use', 41),
 ('build', 39),
 ('machine', 37),
 ('ability', 36),.....

诸若此类。我的问题是,我不想考虑像“经验”,“工作”这样的词,而只考虑与数据科学相关的关键词。我猜有一个数据科学术语的语料库,我可以用它,比如我如何使用停止词语料库来不选择它们。如果有办法请告诉我,谢谢!

EN

回答 2

Data Science用户

发布于 2019-04-27 11:08:47

我有办法让你解决你的问题。所以你需要一个,

  • 预先训练过的嵌入发生器。它可以是Word2Vec或GloVe。他们中的任何一个都能工作。

接下来,我们有了一个频率更高的单词语料库。假设我们有一组100个这样的词,其中第一个单词的频率最高。

现在,我们使用预先训练过的单词嵌入将集合中的每个单词转换成一个向量。因此,您将有一组向量的词从语料库。我们叫它z_i

我们有“数据科学”这个词。也要得到一个矢量。我们叫它x

  1. 测量向量xz_i之间的欧几里德距离。
  2. 或者,您可以测量xz_i之间的余弦相似性。
  3. 上述两种方法都将生成一组值,这些值将显示xz_i值的接近程度。
  4. 从这100个值中,我们得到最少10个值,然后再将它们转换为单词。

这10个词与“数据科学”的相似性最高。

票数 0
EN

Data Science用户

发布于 2019-05-01 07:21:57

总的来说,我同意安迪·M的建议。

为了解决你指出的问题,摆脱文字的工作和经验,你很可能会忽略数据科学语料库中最常见的单词,而把其余的词作为与数据科学相关的术语。

所以,以一种更复杂的方式:

代码语言:javascript
复制
general_texts = [
    ['a', 'sentence', 'about', 'experience'],
    ['another', 'sentence', 'typed', 'at', 'work'],
    ['work', 'experience'],
    ...
]


data_science_texts = [
    ['data', 'science', 'experience'],
    ['work', 'on', 'machine', 'learning'],
    ...
]

freqdist_gnrl = Counter()
freqdist_ds = Counter()

for text in general_texts:
    freqdist_gnrl.update(text)

for text in data_science_texts:
    freqdist_ds.update(text)

mostfreq_words_gnrl = freqdist_gnrl.most_common(2)   # 'work', 'experience'

words_ds = [
    w for w, _ in freqdist_ds.most_common()
    if w not in mostfreq_words_gnrl        # every word other than 'work' or 'experience'
]

在本例中,我使用2作为n作为n-最常用的术语使其工作,但是,在一个更大的语料库中,您可能需要几百个单词。

应用该滤波器后,变量words_ds中的第一个k字应在一定程度上与数据科学相关。

希望这能有所帮助!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/51007

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档