首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ML集群是如何应用于现实世界的?

ML集群是如何应用于现实世界的?
EN

Data Science用户
提问于 2018-03-23 08:24:21
回答 3查看 158关注 0票数 2

新手对数据科学和ML发出警告。目前我正在学习监督学习和非监督学习,而监督学习很容易消化,我可以与许多实际的用例联系起来。没有监督的学习是我无法与现实世界中的用例相关联的地方(虽然我发现了很多引号,人们说他们用它来分割客户,检测欺诈等等)。

为了论证起见,我将引用从Azure Studio的一个示例中获取的一个示例。

该数据集包含各国及其在各种食物中的平均蛋白质摄入量)。

当通过KMeans算法运行此数据集时,它会创建3个集群,并适合这些集群中的国家名称。

所以在这个具体的例子中,我想要解决的问题是什么?

我是想根据蛋白质摄入习惯找到类似的国家吗?

我是否基于给定的数据集创建了群体,然后就有了一种人类智慧,可以将这些群体(或集群)限定为“素食富国”、“红肉富国”等。那么,当一个新的国家到来时,我们就会预测这个国家是否属于哪个集群?

在这种情况下,工作流中需要一个中间的人类智能,它需要标记集群(而不是在分类中标记每个数据点)。这是正确的理解吗?

EN

回答 3

Data Science用户

发布于 2018-03-24 19:45:39

你想要了解这些数据。

因此,您运行一个集群,然后研究集群中的点与集群中的点是如何不同的。然后在这些观察的基础上,形成一个假设。例如,你可能会注意到,一个集群包含了吃大量快餐和超重的国家。然后你可以提出快餐会导致超重的假设,然后检验这个假设。

这是一种探索性数据分析的形式。没有一个数学功能来最大化,但它是一个工具,让人类了解他们的数据,然后能够制定新的假设,不会突然出现在你的脑海,否则。

票数 2
EN

Data Science用户

发布于 2018-03-25 03:30:53

聚类是一个非常主观的问题。在大多数情况下,您有一组未标记的样本。一种情况是,您知道数据中有k个组或集群,您只需要找到那些k个集群。在这里,可以使用k均值或高斯混合模型(或任何其他相关方法)来发现集群。另一种情况是,您甚至不知道数据中有多少集群或组,您希望使用群集方法找到集群的数量。例如,一种不需要预先知道聚类数目的聚类算法,比如x-均值。在某些情况下,您需要对数据进行预处理,对其进行分区,然后在监督学习算法中使用结果。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/29462

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档