首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R中的多类分类

R中的多类分类
EN

Stack Overflow用户
提问于 2016-03-26 15:31:08
回答 1查看 236关注 0票数 2

我有一个特定帐户的推文,我想浏览每一条推文,并将其归类为商业、音乐、体育等类别的标签。

我创建培训数据的方法是为每个类标签分配几个关键字,例如

  1. “商业”的关键词可以是企业家,工作,GDP…。
  2. “音乐”的关键词可以是-歌曲,流派,专辑…

用于训练数据的.CSV文件有2列1.关键字2类

走这条路对吗?

提前谢谢你!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-26 16:32:59

看起来你想要做的事情就像字典方法一样。将字典应用于文本语料库是非常简单的,但考虑到您使用的是tweet,我建议您使用肯尼思·本尼茨优秀的全德达包。

更具体地说,您可以从一个术语列表创建一个自定义字典(我相信这是一个s3类)。

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

然后使用applyDictionary应用字典。您将得到一个包含文本和字典键的漂亮表,如下所示:

代码语言:javascript
复制
docs    christmas opposition taxglob taxregex country
  text1         1          1       1        0       0
  text2         0          0       1        0       2
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36237129

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档