我的目标是评估五个政党在推特和演讲中如何使用道德话语的不同之处。为此,我有一本字典,通过regex传递给每个tweet文本/音频转录(这很重要,因为音频转录有些噪音,我不能使用一袋单词),并获得每一种道德价值被提及的频率。之后,我将使用Tukey HSD间隔期来估计各方之间的差异。然而,我在这里最关心的是我是否应该比较单词的绝对频率还是相对频率。相对频率似乎是正确的选择,因为它们允许知道每个道德价值被用来控制文本/音频的长度。但另一方面,绝对的差异是有趣的(特别是在特定的音频,它可能是噪音,并没有充分捕捉到文本和音频的总长度,根据白空间)。这里有什么准则可以遵循吗?
发布于 2022-08-09 04:56:02
我能想到的一点
https://datascience.stackexchange.com/questions/113268
复制相似问题