我有一个特定帐户的推文,我想浏览每一条推文,并将其归类为商业、音乐、体育等类别的标签。
我创建培训数据的方法是为每个类标签分配几个关键字,例如
用于训练数据的.CSV文件有2列1.关键字2类
走这条路对吗?
提前谢谢你!
发布于 2016-03-26 16:32:59
看起来你想要做的事情就像字典方法一样。将字典应用于文本语料库是非常简单的,但考虑到您使用的是tweet,我建议您使用肯尼思·本尼茨优秀的全德达包。
更具体地说,您可以从一个术语列表创建一个自定义字典(我相信这是一个s3类)。
https://cran.r-project.org/web/packages/quanteda/quanteda.pdf
然后使用applyDictionary应用字典。您将得到一个包含文本和字典键的漂亮表,如下所示:
docs christmas opposition taxglob taxregex country
text1 1 1 1 0 0
text2 0 0 1 0 2https://stackoverflow.com/questions/36237129
复制相似问题