问一列数据集上的无监督学习(图)
EN

Data Science用户

提问于 2020-01-23 12:26:23

回答 1查看 48关注 0票数 2

我是机器学习的新手，所以我在这里要求一个健全的检查，如果我问的问题是合理的。

我有一个列的数据集，所以我想用熊猫调用csv中的一个列。

从这列数字中取一个数字，做一些无监督的学习，以确定这个值是否是该列中的一个异常值，它是否属于该列。

下面的图表显示了我如何看待这一过程。我不知道在这种情况下，不受监督的方法最适合做些什么。

发布于 2020-01-23 16:04:16

几点意见/问题/考虑：

维基百科:无监督学习是一种自组织的Hebbian学习，它帮助在没有预先存在的标签的情况下在数据集中找到以前未知的模式。
不正常就是个标签。
为什么不只是Z-得分？https://en.wikipedia.org/wiki/Standard_得分#Z-测试。计算分布：\mu和\sigma，并检查值是否在\mu +/- 1.96 \sigma内，95\%可能是从列中数字的正态分布中得到的。
值列可以是数字以外的东西吗？(例如颜色名称)
或者是一个带有漂移的时间序列？

编辑：

在幕后，机器学习基本上是一组关于列和行子集的智能统计和决策。但是，只有一列，没有时间序列，没有什么明智的子集或决定。从本质上说，这是元素的一个特殊的Z分数。你必须决定你想要多少\sigma。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/66927

复制

相似问题

问一列数据集上的无监督学习(图)EN