我有一个小的未标记的文本数据集,我想将所有文档分类为2类。
我理解并使用过监督分类。我已经搜索了很多,但仍然无法理解无监督的二进制分类是如何工作的。你能给我举个例子或一个简单的解释吗?或者是一些解释得很好的文件、文档或代码?
谢谢。
发布于 2018-07-06 13:59:30
如果我错了,请纠正我,但是你没有监督的分类和聚类没有太大的不同。这是因为因为它是不受监督的,所以您实际上没有一个用户提供的指示说明您的类应该是什么。因此,一个无监督的机器学习系统会猜测它自己的类,一个简单的方法就是使这些类与集群相对应。
在您的例子中,您可以将每个文档表示为一纸空文。然后,如果有必要,您可以进行特征缩减(例如,使用PCA)。最后,您可以使用k-均值(实际上是2-均值,因为您需要二进制分类)。为这两个集群中的任何一个分配一个新元素是您的分类器。
发布于 2018-07-06 14:00:13
中的差异
无监督学习和监督学习的区别在于,在无监督学习的情况下,您的数据集没有标记。
优化
差异
当你执行有监督的学习时,你正试图最小化和客观的相对于你当前的模型预测和你被标记的例子的基本真理。程序如下:
在无监督的学习中,你试图从数据中得出推论。在那里,你需要调整你的词汇,以更好地理解事情。而不是执行二进制分类,而是使用K类执行集群,在您的例子中是K=2。所以目标有点不同。例如,您可能需要通过调整决策边界来最大化2集群之间的差异,而不是最小化日志丢失。一个例子可以是:
请参阅这优秀的中介文章,以发现一些集群技术。
例如,在您的用例中,您可以尝试的是在给定词汇表的情况下创建每个文档的嵌入,以获得数据集的密集表示,然后在数据集上执行聚类算法。
https://datascience.stackexchange.com/questions/34096
复制相似问题