首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >小数据集上的无监督二值分类

小数据集上的无监督二值分类
EN

Data Science用户
提问于 2018-07-06 13:34:55
回答 2查看 3.3K关注 0票数 0

我有一个小的未标记的文本数据集,我想将所有文档分类为2类。

我理解并使用过监督分类。我已经搜索了很多,但仍然无法理解无监督的二进制分类是如何工作的。你能给我举个例子或一个简单的解释吗?或者是一些解释得很好的文件、文档或代码?

谢谢。

EN

回答 2

Data Science用户

发布于 2018-07-06 13:59:30

如果我错了,请纠正我,但是你没有监督的分类和聚类没有太大的不同。这是因为因为它是不受监督的,所以您实际上没有一个用户提供的指示说明您的类应该是什么。因此,一个无监督的机器学习系统会猜测它自己的类,一个简单的方法就是使这些类与集群相对应。

在您的例子中,您可以将每个文档表示为一纸空文。然后,如果有必要,您可以进行特征缩减(例如,使用PCA)。最后,您可以使用k-均值(实际上是2-均值,因为您需要二进制分类)。为这两个集群中的任何一个分配一个新元素是您的分类器。

票数 1
EN

Data Science用户

发布于 2018-07-06 14:00:13

在数据

中的差异

无监督学习和监督学习的区别在于,在无监督学习的情况下,您的数据集没有标记。

优化

中的

差异

当你执行有监督的学习时,你正试图最小化和客观的相对于你当前的模型预测和你被标记的例子的基本真理。程序如下:

  • 挑一个例子
  • 执行预测
  • 计算损失
  • 调整模型权重
  • 再举一个例子..。

在无监督的学习中,你试图从数据中得出推论。在那里,你需要调整你的词汇,以更好地理解事情。而不是执行二进制分类,而是使用K类执行集群,在您的例子中是K=2。所以目标有点不同。例如,您可能需要通过调整决策边界来最大化2集群之间的差异,而不是最小化日志丢失。一个例子可以是:

  • 选择一个幼稚的边界
  • 在给定决策边界的情况下,将每个示例分配到它们的集群中。
  • 调整边界,使集群距离最大化。

请参阅优秀的中介文章,以发现一些集群技术。

关于用例

例如,在您的用例中,您可以尝试的是在给定词汇表的情况下创建每个文档的嵌入,以获得数据集的密集表示,然后在数据集上执行聚类算法。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/34096

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档