首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Logistic回归支持向量机在Mahout中的实现

Logistic回归支持向量机在Mahout中的实现
EN

Stack Overflow用户
提问于 2014-01-28 13:22:28
回答 1查看 1.5K关注 0票数 3

目前,我正在为一家电信公司的数据对twitter数据进行多愁善感的分析,我正在将这些数据加载到HDFS中,并使用Mahout的朴素Bayes分类器将情绪预测为积极、消极或中立。

,这是我正在做的,

  1. 我提供培训数据给机器(关键:情感,价值:文本)。
  2. 利用mahout库通过计算文本的tf-idf(Inverse文档频率)生成特征向量。 mahout seq2sparser -i /user/root/new_model/dataseq -maxDFPercent 1000000 --minSupport 4-maxNGramSize 2 -a org.apache.lucene.analysis.WhitespaceAnalyzer -o /user/root/new_model/predicted
  3. 将数据分割成训练集和测试集。
  4. 这个特征向量是我传递给朴素贝叶斯算法来建立模型的。

-i /user/root/new_model/列车向量-el -li /user/root/new_model/labelindex -o /user/root/new_model/model -ow -c

  1. 使用这个模型,我预测了新数据的情绪。

这是非常简单的实现,我所做的,通过这个实现,我得到了非常低的准确性,即使我有良好的培训集。因此,我考虑改用Logistic回归/支持向量机,因为它们能更好地解决这类问题。

那么,我的问题是,如何使用这些算法来建立我的模型,或者用这两种算法来预测tweet的情绪。要做到这一点,我需要遵循哪些步骤?

EN

回答 1

Stack Overflow用户

发布于 2014-09-19 09:12:47

尝试使用CrossFoldLearner,但我怀疑是否采用天真的Bayes作为学习模式,我之前使用过OnlineLogisticRegression。或者希望你可以用天真的贝叶斯来写你自己的crossFoldLearner。另外,我不认为改变算法会大大改善结果。这意味着您必须仔细查看分析器来进行标记化。也许可以考虑bigram标记化,而不是只使用unigram令牌。你有没有考虑过语音学,因为大多数推特单词都不是字典里的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21406736

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档