我正在使用七个词汇来计算包含论坛帖子的数据集的情感得分。除了删除所有噪声,如空格、特殊字符、数字和停用词之外,为什么词干也很重要?
我正在使用SentimentAnalysis软件包中的Harvard.IV,Qdap,亨利金融字典和劳兰-麦克唐纳金融字典,以及AFINN,NRC和BING字典。
发布于 2018-11-05 17:04:57
词干分析对情感分析很重要,这是一个有争议的说法。
首先,具有不同情感价值或意义的不同术语被形成同一词干。你可以查看Porter Stemmer on Harvard General Inquirer。来自page的一个例子是closeness和close源于同一个词,其中一个词在第一个地方有积极的意义,另一个词有负面的意思。
关于词干处理对于情感分析来说很重要的另一点是,在词干处理之后,句法和语义处理几乎是不可能的。例如,如果想要对词条进行位置标记,可以为句子创建解析树,或者查找触发器和否定范围;词干提取不是可以考虑应用的过程。
例如,如果我们的句子中有一个词pretty,我们想确定这个词是形容词还是副词,其中pretty and 是积极的,pretty woman是负面的,应用词干可以中断词性标记。
干杯
发布于 2018-11-05 06:25:36
因为这样可以减少数据中的噪音。词干还原的过程将词尾变化形式和相关形式还原为一个单词的共同基础。请查看来自The Stanford Natural Language Processing Group的这篇内容非常丰富的教程
https://stackoverflow.com/questions/53145840
复制相似问题