我有大量的文本数据集,我将包含特定关键字/s的文本与之分开。这里是带有特定关键字的数据集。现在我的下一个任务是根据8情绪和2种情感对这个数据集进行分类,总共会有10种不同的类。我从NRC情感词汇获得了这个想法,它包含了14182个不同的单词和它们的emotion+sentiment类。NRC的主要工作是在http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm。我知道朴素贝叶斯分类,或聚类很好地与二进制分类(例如,两类正面和负面情绪)。但是当10节课出现问题时,我不知道我将如何进一步处理。我非常感谢你的建议。我和R一起做这个任务,最终的结果如下:
|==================================|====================================|
| SentencesWithKeywords | emotion or sentiment class |
-----------------------------------|------------------------------------|
|conflict need resolved turned | anger/anticipation/disgust/fear/joy|
|conversation exchange ideas | negative/positive/sadness/ |
|richer environment | surprise/trust |
| | |
|----------------------------------|------------------------------------|
| sentence2 |anger/anticipation/disgust/fear/joy |
| | negative/positive/sadness/ |
| | surprise/trust |
|----------------------------------|------------------------------------|发布于 2016-08-14 08:33:31
您应该签出插入包(http://topepo.github.io/caret/index.html)。你要做的是两种不同的分类(一个是多类问题,一个是两个类问题)。将文档表示为术语频率向量,并运行您选择的分类算法。支持向量机通常能很好地处理大量的单词。
https://stackoverflow.com/questions/35380553
复制相似问题