我试图找出当某个标签出现在推特上时的平均印象数。问题是,对于每个标记,我都有单独的列,但是一些单词,例如,在某些情况下可能是标记1,而在另一些情况下,可能是标记3。我怎样才能按特定的单词分组,即使它出现在数据框架中的不同列中。(一个单词将不会多次出现在同一行中)。我试着按每一列进行分组,然后加入它们,但这使我遇到了许多其他问题。有更好的方法吗?这就是标记列的样子。我想按一个名为“印象”的列进行分组,并在一个给定的标签出现时找到平均印象数(即“云”可能是标记1、标签2或标签9,但我希望代码识别包含云标记的所有tweet,然后按组进行分组)。
发布于 2022-06-21 19:46:45
看你的截图,你有一个专栏,你分裂,并填写了几个列,称为“标签”,在它之前有一个标签。虽然我没有一个解决方案(使用此代码)来查看所有作为“标记”列的列,但这将让您知道“拆分”列中是否有包含云的内容。
df = pd.DataFrame({
'Column1' : ['Thursday', 'Thursday'],
'Column2' : [['#Snowflake', '#Cloud'], ['#Snowflake', '#Azure']]
})
df['Cloud_IND'] = df['Column2'].apply(lambda x : ' '.join(x)).str.contains('Cloud')
dfhttps://stackoverflow.com/questions/72706273
复制相似问题