我的数据是Stocktwits的tweet,我尝试使用python中的Vader库进行情感分析。问题是,正字段、中性字段和负字段加起来不等于1.0。而不是这样,它们加在一起达到2.0。
{'neg':0.0,'neu':2.0,'pos':0.0,‘复合’:0.0}
这是正常的吗?
发布于 2020-07-16 12:09:31
是的,这很正常。文档中的示例显示了类似的结果:
VADER is smart, handsome, and funny.----------------------------- {'pos': 0.746, 'compound': 0.8316, 'neu': 0.254, 'neg': 0.0}
VADER is smart, handsome, and funny!----------------------------- {'pos': 0.752, 'compound': 0.8439, 'neu': 0.248, 'neg': 0.0}
...
VADER is not smart, handsome, nor funny.------------------------- {'pos': 0.0, 'compound': -0.7424, 'neu': 0.354, 'neg': 0.646}
pos,neu和neg分数是属于每个类别的文本比例的比率(所以这些分数加起来应该是1.或接近它的浮点操作)。这些是最有用的度量标准,如果您想要对给定句子的情感进行多维度量的话。
您可能希望使用compound score:
compound评分是通过计算词汇中每个词的价分,并根据规则调整,然后归一化为-1 (最极端负)和+1 (最极端正)。这是最有用的度量,如果您想要一个单一的一维度量的情感给定的句子。称其为“归一化加权综合得分”是准确的。 对于那些希望将句子划分为正、中性或负值的研究者来说,这也是很有用的。
https://stackoverflow.com/questions/62933822
复制相似问题