目前,我正在为一家电信公司的数据对twitter数据进行多愁善感的分析,我正在将这些数据加载到HDFS中,并使用Mahout的朴素Bayes分类器将情绪预测为积极、消极或中立。
,这是我正在做的,
-i /user/root/new_model/列车向量-el -li /user/root/new_model/labelindex -o /user/root/new_model/model -ow -c
这是非常简单的实现,我所做的,通过这个实现,我得到了非常低的准确性,即使我有良好的培训集。因此,我考虑改用Logistic回归/支持向量机,因为它们能更好地解决这类问题。
那么,我的问题是,如何使用这些算法来建立我的模型,或者用这两种算法来预测tweet的情绪。要做到这一点,我需要遵循哪些步骤?
发布于 2014-09-19 09:12:47
尝试使用CrossFoldLearner,但我怀疑是否采用天真的Bayes作为学习模式,我之前使用过OnlineLogisticRegression。或者希望你可以用天真的贝叶斯来写你自己的crossFoldLearner。另外,我不认为改变算法会大大改善结果。这意味着您必须仔细查看分析器来进行标记化。也许可以考虑bigram标记化,而不是只使用unigram令牌。你有没有考虑过语音学,因为大多数推特单词都不是字典里的。
https://stackoverflow.com/questions/21406736
复制相似问题