首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python中的N-Gram分析

Python中的N-Gram分析
EN

Stack Overflow用户
提问于 2017-06-08 04:23:38
回答 1查看 693关注 0票数 0

下面是我的示例数据:

我需要进行1-2克查询,并计算与查询相关的印象总和和平均值。现在我已经想出了如何使用下面的代码来聚合印象。

代码语言:javascript
复制
def n_grams(txt):
grams = list()
words = txt.split(' ')
for i in range(len(words)):
    for k in range(1, len(words) - i + 1):
        grams.append(" ".join(words[i:i+k]))
return pd.Series(grams)


counts = df['query'].apply(n_grams).join(df)
result = counts.drop("query", axis=1).set_index("impression").unstack()    .rename("ngram").dropna().reset_index()    .drop("level_0", 
axis=1).groupby("ngram")["impression"].sum()
result = result.to_frame()
result['query'] = result.index
result['ngram'] =result['query'].str.split().apply(len)
result = result.groupby(['ngram','query'])['impression'].sum()
result = result.reset_index()
result = result.sort_values(['ngram', 'impression'], ascending=[True, False])

返回的结果如下:

在这里,我需要另一个专栏来显示与这些查询相关的平均印象。例如,“营养”这个词出现了四次,因此平均印象应该是100/4 = 25。此外,我还想显示此查询在另一列中出现的次数。最终结果应该如下所示:

EN

回答 1

Stack Overflow用户

发布于 2017-06-08 04:37:21

此代码将帮助您从二元语法中获取单字的计数,例如“营养”。

代码语言:javascript
复制
2gram=result[result['ngram']==2]
2gram=2gram.reset_index()
#create an empty dictionary to store count of words in bigrams
words=dict()
for i in range(0,len(2gram):
    query_wrds=2gram.loc[i,'query'].split()
        for item in query_words:
            if item not in words:
                words[item]=1
            else:
                words[item]+=1
#to get count of word 'nutrition'
nut_ct=words['nutrition']
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44422120

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档