文章/答案/技术大牛

发布

社区首页 >问答首页 >事件数据分类

问事件数据分类
EN

Stack Overflow用户

提问于 2013-10-07 03:26:59

回答 1查看 136关注 0票数 0

我开始学习机器学习和分析，我的方法是深入研究数据，学习我需要的方法/工具。

我有一组事件数据，通过带有唯一it的RFID芯片记录人们进出房间的情况，这样我就有了芯片何时进入房间和何时离开的时间戳。我想根据芯片进出房间的情况对芯片in进行分类。

例如,

一个定期离开并定期回来的芯片可能属于在那个房间工作的人。
进入并停留很长一段时间的芯片可能属于移动的电子设备。
一个芯片来了，离开一段时间后，很少或只有一组出入口可能是访客。
一个芯片在房间里花费最少的时间，不经常访问，可能只是一个人走过。

这是我的四大类。

到目前为止，我已经尝试过k-均值聚类。对于每个芯片，我计算了一些参数，这些参数可以表示特定的类别:平均在房间中花费的时间、一周内所看到的天数、在一个房间中的总时间以及每天平均的出入口数。

有了这一点，我看到了一些合理的结果，但取决于我使用的参数，结果大不相同。看看我在图上生成的芯片参数，分类上有很大的变化。我没有任何好的训练数据，所以我首先尝试了分类方法。

我主要是寻求一些建议，什么可能是更好的算法或技术使用，甚至即使我的方法是遥远的。如果需要的话，我可以提供代码或虚拟数据，但我真的只是在寻找一个好的方向。

machine-learning

classification

cluster-analysis

回答 1

Stack Overflow用户

发布于 2013-10-07 04:34:07

听起来是个有趣的问题！这里有几个一般性的建议，可以给你一些好的想法。

首先，如果您能够通过对这些数据进行建模来确定您想要达到的某种目标，那将是非常有用的。这可能是你想要识别入侵者，或了解有多少种不同类别的RFID徽章(你在你的问题中列出了四种，但如果真的有五种或十种呢?)，或者其他一些完全的任务。您可能需要不同的数据，这取决于您所识别的任务，但这将是有用的，因为这样您就可以判断您正在尝试的内容是否实际有效。希望这是合理的。

其次，如果您使用k均值(或任何聚类算法，真的)以无监督的方式对数据建模，那么将数据的特性规范化是一个好主意。假设你只有两个特征--一个表示最后一次进入房间的时间，另一个表示一个月的入口处总数。第一个特性的值将在[0，24]范围内，而第二个特性的值可以从0到1000 (比方说)。然后，当您计算数据点之间的距离时，第二个特性可能仅仅因为数值更大而主导距离计算。首先，尝试从每个特征中减去平均值，然后除以标准差。这有望使您的特性集群更加稳定，如果没有其他的话。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19216621

复制

相似问题

问事件数据分类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问事件数据分类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问事件数据分类
EN