我正致力于一个项目,我们正在努力制作一个TF-以色列国防军的标题集的文章分为多个集群。我们的目标是使它同时包含--最重要的一元图和大写图--同时包含每个集群的。我们的计划就是这样。我们首先识别出我们的语料库中最有可能出现的比例尺。在这个列表中,我们计算每个星系团中这些大图的频率。我们下一步要做的,也是我们的问题所在,就是要确保我们不会在那些大字中数两次字。比方说,流行的标签是“气候变化”。在我们的语料库中,“气候变化”这个词的频率是6,但“气候”这个词的频率是7(只有一次),而“变化”这个词的频率是8(只有两次)。我们必须确保我们的桌子上有组合的单字和双字数,看上去不像这样:
n_gram frequency
1: climate change 6
2: climate 7
3: change 8它必须是这样的(我们将气候变化的“气候”和“变化”频率减去相应的单位数):
n_gram frequency
1: climate change 6
2: climate 1
3: change 2问题是,如果我们把每个双字的第一个和第二个单词频率减去它们对应的字数,我们有时会得到一个字的负频率。我们的直觉是这样的:假设一个流行的曲目是“美国”。然后,我们将有两个频繁的大写,即“美国”和“美国”。因此,假设一开始我们有这个表(没有做任何子减操作):
n_gram frequency
1: United States 10
2: States America 10
3: United 11
4: States 12
5: America 13然后,在减去bigram频率之后,我们将得到这个表:
n_gram frequency
1: United States 10
2: States America 10
3: United 1
4: States -8
5: America 3我的问题是:有什么简单的方法可以绕过我看不到的?还有什么其他的原因可以让我们用这种方法得到负频率吗?
发布于 2020-05-06 16:54:20
如果你先计算大图,那么当你开始计算字数频率时,你可以忽略增加任何重要数值的实例的频率。例如,如果我们有:
...美国专家认为,如果我们现在不应对气候变化,气候将对美国和我们的地球造成不可逆转的损害。相反,有些人认为气候变化是美国政府编造的一个骗局.“
我们最常看到的是:
bi_gram frequency
1: United States 2
2: States America 2
3: climate change 2当我们计算我们的单位图时,我们可以忽略作为上述任何一个数值的一部分的单位图的任何实例。例如,我们只能在美国不团结的情况下才能增加它的左边,或者没有国家在它的右边,使我们的单数频度表(忽略其他词):
uni_gram frequency
1: climate 1
2: change 1
3: America 1https://stackoverflow.com/questions/61639875
复制相似问题