新手对数据科学和ML发出警告。目前我正在学习监督学习和非监督学习,而监督学习很容易消化,我可以与许多实际的用例联系起来。没有监督的学习是我无法与现实世界中的用例相关联的地方(虽然我发现了很多引号,人们说他们用它来分割客户,检测欺诈等等)。
为了论证起见,我将引用从Azure Studio的一个示例中获取的一个示例。
该数据集包含各国及其在各种食物中的平均蛋白质摄入量)。
当通过KMeans算法运行此数据集时,它会创建3个集群,并适合这些集群中的国家名称。
所以在这个具体的例子中,我想要解决的问题是什么?
我是想根据蛋白质摄入习惯找到类似的国家吗?
我是否基于给定的数据集创建了群体,然后就有了一种人类智慧,可以将这些群体(或集群)限定为“素食富国”、“红肉富国”等。那么,当一个新的国家到来时,我们就会预测这个国家是否属于哪个集群?
在这种情况下,工作流中需要一个中间的人类智能,它需要标记集群(而不是在分类中标记每个数据点)。这是正确的理解吗?
发布于 2018-03-24 19:45:39
你想要了解这些数据。
因此,您运行一个集群,然后研究集群中的点与集群中的点是如何不同的。然后在这些观察的基础上,形成一个假设。例如,你可能会注意到,一个集群包含了吃大量快餐和超重的国家。然后你可以提出快餐会导致超重的假设,然后检验这个假设。
这是一种探索性数据分析的形式。没有一个数学功能来最大化,但它是一个工具,让人类了解他们的数据,然后能够制定新的假设,不会突然出现在你的脑海,否则。
发布于 2018-03-25 03:30:53
聚类是一个非常主观的问题。在大多数情况下,您有一组未标记的样本。一种情况是,您知道数据中有k个组或集群,您只需要找到那些k个集群。在这里,可以使用k均值或高斯混合模型(或任何其他相关方法)来发现集群。另一种情况是,您甚至不知道数据中有多少集群或组,您希望使用群集方法找到集群的数量。例如,一种不需要预先知道聚类数目的聚类算法,比如x-均值。在某些情况下,您需要对数据进行预处理,对其进行分区,然后在监督学习算法中使用结果。
发布于 2020-02-21 17:46:37
https://datascience.stackexchange.com/questions/29462
复制相似问题