问用相对频率或绝对频率估计文本中的群体差异
EN

Data Science用户

提问于 2022-08-05 10:36:50

回答 1查看 21关注 0票数 0

我的目标是评估五个政党在推特和演讲中如何使用道德话语的不同之处。为此，我有一本字典，通过regex传递给每个tweet文本/音频转录(这很重要，因为音频转录有些噪音，我不能使用一袋单词)，并获得每一种道德价值被提及的频率。之后，我将使用Tukey HSD间隔期来估计各方之间的差异。然而，我在这里最关心的是我是否应该比较单词的绝对频率还是相对频率。相对频率似乎是正确的选择，因为它们允许知道每个道德价值被用来控制文本/音频的长度。但另一方面，绝对的差异是有趣的(特别是在特定的音频，它可能是噪音，并没有充分捕捉到文本和音频的总长度，根据白空间)。这里有什么准则可以遵循吗？

nlp

text-mining

text

回答 1

Data Science用户

发布于 2022-08-09 04:56:02

我能想到的一点

使用gensim查找单词相似性。你的字典可能不包含所有单词。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/113268

复制

相似问题

问用相对频率或绝对频率估计文本中的群体差异
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用相对频率或绝对频率估计文本中的群体差异EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用相对频率或绝对频率估计文本中的群体差异
EN