文章/答案/技术大牛

发布

社区首页 >问答首页 >Logistic回归支持向量机在Mahout中的实现

问Logistic回归支持向量机在Mahout中的实现
EN

Stack Overflow用户

提问于 2014-01-28 13:22:28

回答 1查看 1.5K关注 0票数 3

目前，我正在为一家电信公司的数据对twitter数据进行多愁善感的分析，我正在将这些数据加载到HDFS中，并使用Mahout的朴素Bayes分类器将情绪预测为积极、消极或中立。

，这是我正在做的，

我提供培训数据给机器(关键:情感，价值:文本)。
利用mahout库通过计算文本的tf-idf(Inverse文档频率)生成特征向量。 mahout seq2sparser -i /user/root/new_model/dataseq -maxDFPercent 1000000 --minSupport 4-maxNGramSize 2 -a org.apache.lucene.analysis.WhitespaceAnalyzer -o /user/root/new_model/predicted
将数据分割成训练集和测试集。
这个特征向量是我传递给朴素贝叶斯算法来建立模型的。

-i /user/root/new_model/列车向量-el -li /user/root/new_model/labelindex -o /user/root/new_model/model -ow -c

使用这个模型，我预测了新数据的情绪。

这是非常简单的实现，我所做的，通过这个实现，我得到了非常低的准确性，即使我有良好的培训集。因此，我考虑改用Logistic回归/支持向量机，因为它们能更好地解决这类问题。

那么，我的问题是，如何使用这些算法来建立我的模型，或者用这两种算法来预测tweet的情绪。要做到这一点，我需要遵循哪些步骤？

hadoop

machine-learning

svm

mahout

logistic-regression

回答 1

Stack Overflow用户

发布于 2014-09-19 09:12:47

尝试使用CrossFoldLearner，但我怀疑是否采用天真的Bayes作为学习模式，我之前使用过OnlineLogisticRegression。或者希望你可以用天真的贝叶斯来写你自己的crossFoldLearner。另外，我不认为改变算法会大大改善结果。这意味着您必须仔细查看分析器来进行标记化。也许可以考虑bigram标记化，而不是只使用unigram令牌。你有没有考虑过语音学，因为大多数推特单词都不是字典里的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21406736

复制

相似问题

问Logistic回归支持向量机在Mahout中的实现
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Logistic回归支持向量机在Mahout中的实现EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Logistic回归支持向量机在Mahout中的实现
EN