首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >TF-国防军中的Unigram和Bigram组合

TF-国防军中的Unigram和Bigram组合
EN

Stack Overflow用户
提问于 2020-05-06 16:07:00
回答 1查看 1K关注 0票数 2

我正致力于一个项目,我们正在努力制作一个TF-以色列国防军的标题集的文章分为多个集群。我们的目标是使它同时包含--最重要的一元图和大写图--同时包含每个集群的。我们的计划就是这样。我们首先识别出我们的语料库中最有可能出现的比例尺。在这个列表中,我们计算每个星系团中这些大图的频率。我们下一步要做的,也是我们的问题所在,就是要确保我们不会在那些大字中数两次字。比方说,流行的标签是“气候变化”。在我们的语料库中,“气候变化”这个词的频率是6,但“气候”这个词的频率是7(只有一次),而“变化”这个词的频率是8(只有两次)。我们必须确保我们的桌子上有组合的单字和双字数,看上去不像这样:

代码语言:javascript
复制
      n_gram          frequency
1: climate change         6
2:        climate         7
3:         change         8

它必须是这样的(我们将气候变化的“气候”和“变化”频率减去相应的单位数):

代码语言:javascript
复制
      n_gram          frequency
1: climate change         6
2:        climate         1
3:         change         2

问题是,如果我们把每个双字的第一个和第二个单词频率减去它们对应的字数,我们有时会得到一个字的负频率。我们的直觉是这样的:假设一个流行的曲目是“美国”。然后,我们将有两个频繁的大写,即“美国”和“美国”。因此,假设一开始我们有这个表(没有做任何子减操作):

代码语言:javascript
复制
    n_gram          frequency
1:  United States        10
2: States America        10
3:         United        11
4:         States        12
5:        America        13

然后,在减去bigram频率之后,我们将得到这个表:

代码语言:javascript
复制
       n_gram         frequency
1:  United States        10
2: States America        10
3:         United         1
4:         States        -8
5:        America         3

我的问题是:有什么简单的方法可以绕过我看不到的?还有什么其他的原因可以让我们用这种方法得到负频率吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-06 16:54:20

如果你先计算大图,那么当你开始计算字数频率时,你可以忽略增加任何重要数值的实例的频率。例如,如果我们有:

...美国专家认为,如果我们现在不应对气候变化,气候将对美国和我们的地球造成不可逆转的损害。相反,有些人认为气候变化是美国政府编造的一个骗局.“

我们最常看到的是:

代码语言:javascript
复制
  bi_gram         frequency
1:  United States         2
2: States America         2
3: climate change         2

当我们计算我们的单位图时,我们可以忽略作为上述任何一个数值的一部分的单位图的任何实例。例如,我们只能在美国不团结的情况下才能增加它的左边,或者没有国家在它的右边,使我们的单数频度表(忽略其他词):

代码语言:javascript
复制
 uni_gram         frequency
1:          climate       1
2:           change       1
3:          America       1
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61639875

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档