首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >推文分类

推文分类
EN

Stack Overflow用户
提问于 2014-05-23 03:00:43
回答 2查看 252关注 0票数 0

我正在尝试机器学习,所以我想尝试对tweet进行文本分类。我收集了一个小的tweet样本,但为了执行任何有监督的学习,我需要手动标记我收集的一些tweet。当我扩展我的数据时,这是一项艰巨的任务。

有没有办法在不让我手动标记大量tweet的情况下执行分类?或者,无监督学习对这项任务更好吗?

EN

回答 2

Stack Overflow用户

发布于 2014-05-23 03:56:15

半监督学习方法就是针对这样的问题而创建的。最简单的方法包括手动标记几个观察值,对标记的数据运行监督学习算法以选择分类器来标记其他观察值,并重复此过程。

票数 0
EN

Stack Overflow用户

发布于 2017-03-29 22:03:34

推文是简短的文本。您应该尝试使用为短文本分类量身定做的分类器,例如LibShortText:https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

本文解释了短文本(标题)与全文分类的某些属性:https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf

分类将始终涉及标记的数据(主动学习技术有助于标记数据集),但您可以利用新兴技术,如Snorkel (数据编程)来缓解一些问题:https://github.com/HazyResearch/snorkel

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23815133

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档