文章/答案/技术大牛

发布

社区首页 >问答首页 >推文分类

问推文分类
EN

Stack Overflow用户

提问于 2014-05-23 03:00:43

回答 2查看 252关注 0票数 0

我正在尝试机器学习，所以我想尝试对tweet进行文本分类。我收集了一个小的tweet样本，但为了执行任何有监督的学习，我需要手动标记我收集的一些tweet。当我扩展我的数据时，这是一项艰巨的任务。

有没有办法在不让我手动标记大量tweet的情况下执行分类？或者，无监督学习对这项任务更好吗？

twitter

machine-learning

text-classification

回答 2

Stack Overflow用户

发布于 2014-05-23 03:56:15

半监督学习方法就是针对这样的问题而创建的。最简单的方法包括手动标记几个观察值，对标记的数据运行监督学习算法以选择分类器来标记其他观察值，并重复此过程。

票数 0

Stack Overflow用户

发布于 2017-03-29 22:03:34

推文是简短的文本。您应该尝试使用为短文本分类量身定做的分类器，例如LibShortText：https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

本文解释了短文本(标题)与全文分类的某些属性：https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf

分类将始终涉及标记的数据(主动学习技术有助于标记数据集)，但您可以利用新兴技术，如Snorkel (数据编程)来缓解一些问题：https://github.com/HazyResearch/snorkel

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23815133

复制

相似问题

问推文分类
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问推文分类EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问推文分类
EN