首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >二元组和词的等级

二元组和词的等级
EN

Stack Overflow用户
提问于 2012-01-20 02:43:36
回答 2查看 2.8K关注 0票数 1

我正在使用这个代码来获取二元语法的频率:

代码语言:javascript
复制
text1='the cat jumped over the dog in the dog house'
text=text1.split()

counts = defaultdict(int)
for pair in nltk.bigrams(text):
    counts[pair] +=1

for c, pair in ((c, pair) for pair, c in counts.iteritems()):
    print pair, c

输出为:

代码语言:javascript
复制
('the', 'cat') 1
('dog', 'in') 1
('cat', 'jumped') 1
('jumped', 'over') 1
('in', 'the') 1
('over', 'the') 1
('dog', 'house') 1
('the', 'dog') 2

我需要的是列出二元语法,而不是每个单词,我需要打印单词的排名。当我说“排名”的时候,我指的是出现频率最高的词的排名是1,其次是排名2,以此类推。这里的等级是:1.2.狗和具有相同频率的狗按降序分配等级。3.cat 4.跳过5.等。

例如

代码语言:javascript
复制
1 3 1

而不是

代码语言:javascript
复制
('the', 'cat') 1

我相信,要做到这一点,我需要一本字典,里面有单词和它们的排名,但我被困住了,不知道该怎么做。我所拥有的是:

代码语言:javascript
复制
fd=FreqDist()
ranks=[]
rank=0
for word in text:
    fd.inc(word)
for rank, word in enumerate(fd):
    ranks.append(rank+1)

word_rank = {}
for word in text:
    word_rank[word] = ranks

print ranks
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-01-20 03:19:02

假设已经创建了counts,下面的代码应该会得到您想要的结果:

代码语言:javascript
复制
freq = defaultdict(int)
for word in text:
    freq[word] += 1

ranks = sorted(freq.keys(), key=lambda k: (-freq[k], text.index(k)))
ranks = dict(zip(ranks, range(1, len(ranks)+1)))

for (a, b), count in counts.iteritems():
    print ranks[a], ranks[b], count

输出:

代码语言:javascript
复制
1 3 1
2 6 1
3 4 1
4 5 1
6 1 1
5 1 1
2 7 1
1 2 2

以下是一些中间值,它们可能有助于理解它的工作原理:

代码语言:javascript
复制
>>> dict(freq)
{'house': 1, 'jumped': 1, 'over': 1, 'dog': 2, 'cat': 1, 'in': 1, 'the': 3}
>>> sorted(freq.keys(), key=lambda k: (-freq[k], text.index(k)))
['the', 'dog', 'cat', 'jumped', 'over', 'in', 'house']
>>> dict(zip(ranks, range(1, len(ranks)+1)))
{'house': 7, 'jumped': 4, 'over': 5, 'dog': 2, 'cat': 3, 'in': 6, 'the': 1}
票数 3
EN

Stack Overflow用户

发布于 2012-01-20 03:25:15

代码语言:javascript
复制
text1='the cat jumped over the dog in the dog house'.split(' ')
word_to_rank={}
for i,word in enumerate(text1):
    if word not in word_to_rank:
        word_to_rank[word]=i+1

from collections import Counter
word_to_frequency=Counter(text1)

word_to_tuple={}
for word in word_to_rank:
    word_to_tuple[word]=(-word_to_frequency[word],word_to_rank[word])

tuple_to_word=dict(zip(word_to_tuple.values(),word_to_tuple.keys()))

sorted_by_conditions=sorted(tuple_to_word.keys())

word_to_true_rank={}
for i,_tuple in enumerate(sorted_by_conditions):
    word_to_true_rank[tuple_to_word[_tuple]]=i+1

def fix(pair,c):
    return word_to_true_rank[pair[0]],word_to_true_rank[pair[1]],c

pair=('the', 'cat')
c=1
print fix(pair,c)

pair=('the', 'dog')
c=2
print fix(pair,c)


>>>
(1, 3, 1)
(1, 2, 2)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8931512

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档