首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >事件数据分类

事件数据分类
EN

Stack Overflow用户
提问于 2013-10-07 03:26:59
回答 1查看 136关注 0票数 0

我开始学习机器学习和分析,我的方法是深入研究数据,学习我需要的方法/工具。

我有一组事件数据,通过带有唯一it的RFID芯片记录人们进出房间的情况,这样我就有了芯片何时进入房间和何时离开的时间戳。我想根据芯片进出房间的情况对芯片in进行分类。

例如,

  • 一个定期离开并定期回来的芯片可能属于在那个房间工作的人。
  • 进入并停留很长一段时间的芯片可能属于移动的电子设备。
  • 一个芯片来了,离开一段时间后,很少或只有一组出入口可能是访客。
  • 一个芯片在房间里花费最少的时间,不经常访问,可能只是一个人走过。

这是我的四大类。

到目前为止,我已经尝试过k-均值聚类。对于每个芯片,我计算了一些参数,这些参数可以表示特定的类别:平均在房间中花费的时间、一周内所看到的天数、在一个房间中的总时间以及每天平均的出入口数。

有了这一点,我看到了一些合理的结果,但取决于我使用的参数,结果大不相同。看看我在图上生成的芯片参数,分类上有很大的变化。我没有任何好的训练数据,所以我首先尝试了分类方法。

我主要是寻求一些建议,什么可能是更好的算法或技术使用,甚至即使我的方法是遥远的。如果需要的话,我可以提供代码或虚拟数据,但我真的只是在寻找一个好的方向。

EN

回答 1

Stack Overflow用户

发布于 2013-10-07 04:34:07

听起来是个有趣的问题!这里有几个一般性的建议,可以给你一些好的想法。

首先,如果您能够通过对这些数据进行建模来确定您想要达到的某种目标,那将是非常有用的。这可能是你想要识别入侵者,或了解有多少种不同类别的RFID徽章(你在你的问题中列出了四种,但如果真的有五种或十种呢?),或者其他一些完全的任务。您可能需要不同的数据,这取决于您所识别的任务,但这将是有用的,因为这样您就可以判断您正在尝试的内容是否实际有效。希望这是合理的。

其次,如果您使用k均值(或任何聚类算法,真的)以无监督的方式对数据建模,那么将数据的特性规范化是一个好主意。假设你只有两个特征--一个表示最后一次进入房间的时间,另一个表示一个月的入口处总数。第一个特性的值将在[0,24]范围内,而第二个特性的值可以从0到1000 (比方说)。然后,当您计算数据点之间的距离时,第二个特性可能仅仅因为数值更大而主导距离计算。首先,尝试从每个特征中减去平均值,然后除以标准差。这有望使您的特性集群更加稳定,如果没有其他的话。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19216621

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档