我有一个大小为1000的文档集合,它们都有一个特征,一个有5个元素的向量。这5个元素的总和等于100。例如,我可以有一个特征为: 10,15,40,20,15的文档。
每个向量元素都等于一种情绪,从非常负面到非常积极。对于1000个文本文档,我得到的结果稍微偏了一点,所以我试图在不改变总和的情况下将它们都稍微向右一点。
例如,10,15,40,20,15在应用公式后,结果应该是7,13,32,40,8。我如何管理它?
提前感谢!
发布于 2014-02-06 02:28:03
据我所知,您希望该向量的第一个(左侧)元素变小,而右侧元素变大,对吧?这可以通过向每个向量添加类似于-10,-5,0,5,10的内容来实现。
发布于 2014-02-06 07:50:46
如果问题是语料库确实比您希望的更负面,那么在分析之前对每个文档进行预添加如何:
I am a happy bunny!如果这还不够,那么还可以添加:
The sun is shining beautifully in Happy Bunny Land today!!如果问题是您的分析产生了比您认为的正确答案更负面的结果,那么调整权重(如果使用加权方法);如果不使用加权单词方法,并且您有一个肯定和否定单词的列表,那么检查这些列表的文档上下文,或者删除一些否定单词,或者在肯定列表中添加一些单词。
https://stackoverflow.com/questions/21583693
复制相似问题