我正在尝试机器学习,所以我想尝试对tweet进行文本分类。我收集了一个小的tweet样本,但为了执行任何有监督的学习,我需要手动标记我收集的一些tweet。当我扩展我的数据时,这是一项艰巨的任务。
有没有办法在不让我手动标记大量tweet的情况下执行分类?或者,无监督学习对这项任务更好吗?
发布于 2014-05-23 03:56:15
半监督学习方法就是针对这样的问题而创建的。最简单的方法包括手动标记几个观察值,对标记的数据运行监督学习算法以选择分类器来标记其他观察值,并重复此过程。
发布于 2017-03-29 22:03:34
推文是简短的文本。您应该尝试使用为短文本分类量身定做的分类器,例如LibShortText:https://www.csie.ntu.edu.tw/~cjlin/libshorttext/
本文解释了短文本(标题)与全文分类的某些属性:https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf
分类将始终涉及标记的数据(主动学习技术有助于标记数据集),但您可以利用新兴技术,如Snorkel (数据编程)来缓解一些问题:https://github.com/HazyResearch/snorkel
https://stackoverflow.com/questions/23815133
复制相似问题