我是机器学习和深度学习的新手。我一直想解决时间序列问题,它每秒钟都有数据。另外,我最近一直在研究word2vector和时间序列数据。有一天,我想出了一个想法,把像日期时间这样的序列数据转换成一个热编码?
time
2017-11-01 00:00:01
2017-11-01 00:00:02
2017-11-01 00:00:03
2017-11-01 00:00:04
.
.
.我的想法有以下的局限性,
我要你确定我上面所说的关于限制的内容。另外,我想让你给我一些想法,把时间序列数据发展成一个热向量,用于机器学习和深度学习?+你认为这个想法怎么样?
发布于 2018-01-31 05:41:39
如果您试图预测未来的值,那么将它们作为分类特性来处理是没有意义的。没有什么可以预测未来的数据,因为你不会再次看到这些数据。
即使您试图预测不可见的过去数据,但每次只出现一次或少数次,情况也是如此。
相反,时间值应该确定培训数据的顺序。这样可以避免泄漏未来的数据,具有状态的模型可以从数据的顺序性质中学习特性。
但是,在某些情况下,您可能希望从时间值中提取其他特性。下面是一些示例:
我们来举个例子吧。以下是用户访问网站的时间数据集:
time user
2017-11-01 00:00 Alice
2017-11-01 00:00 Bob
2017-11-02 00:00 Chris
2017-11-03 00:00 Alice
2017-11-04 00:00 Alice
2017-11-04 00:00 Bob
2017-11-07 00:00 Chris
2017-11-10 00:00 Alice下面是我们添加的具有其他特性的数据集:
time user last_visit weekend? time_of_day
2017-11-01 16:22 Alice N/A No afternoon
2017-11-01 11:13 Bob N/A No morning
2017-11-02 20:35 Chris N/A No evening
2017-11-03 16:07 Alice 2 days No afternoon
2017-11-04 17:20 Alice 1 day Yes afternoon
2017-11-04 10:44 Bob 3 days Yes morning
2017-11-07 08:06 Chris 5 days No morning
2017-11-10 17:11 Alice 6 days No afternoon如果我们试图预测某个用户何时会访问下一次,那么这些特性可能对我们有很大帮助。例如,我们可能决定Alice更有可能在下午访问,或者Bob不太可能连续两天访问。
https://datascience.stackexchange.com/questions/27273
复制相似问题