下面是我的示例数据:

我需要进行1-2克查询,并计算与查询相关的印象总和和平均值。现在我已经想出了如何使用下面的代码来聚合印象。
def n_grams(txt):
grams = list()
words = txt.split(' ')
for i in range(len(words)):
for k in range(1, len(words) - i + 1):
grams.append(" ".join(words[i:i+k]))
return pd.Series(grams)
counts = df['query'].apply(n_grams).join(df)
result = counts.drop("query", axis=1).set_index("impression").unstack() .rename("ngram").dropna().reset_index() .drop("level_0",
axis=1).groupby("ngram")["impression"].sum()
result = result.to_frame()
result['query'] = result.index
result['ngram'] =result['query'].str.split().apply(len)
result = result.groupby(['ngram','query'])['impression'].sum()
result = result.reset_index()
result = result.sort_values(['ngram', 'impression'], ascending=[True, False])返回的结果如下:

在这里,我需要另一个专栏来显示与这些查询相关的平均印象。例如,“营养”这个词出现了四次,因此平均印象应该是100/4 = 25。此外,我还想显示此查询在另一列中出现的次数。最终结果应该如下所示:

发布于 2017-06-08 04:37:21
此代码将帮助您从二元语法中获取单字的计数,例如“营养”。
2gram=result[result['ngram']==2]
2gram=2gram.reset_index()
#create an empty dictionary to store count of words in bigrams
words=dict()
for i in range(0,len(2gram):
query_wrds=2gram.loc[i,'query'].split()
for item in query_words:
if item not in words:
words[item]=1
else:
words[item]+=1
#to get count of word 'nutrition'
nut_ct=words['nutrition']https://stackoverflow.com/questions/44422120
复制相似问题