我的数据看起来是这样的: People <-- Events <--Activities。父对象是People,其中唯一的变量是person_id。事件和活动都有时间索引,还有event_id和activity_id,它们都有一些功能。
“人”实体的成员在所有不同的时间访问不同的地方。我正在尝试为人们生成深度特征。如果人物类似于1,2,3,我如何传递为(Person,cutofftime)之类的事物创建深层特征的截止时间: 1,January2,1,January3
如果我只有3个人,似乎我不能传递一个有10行的cutoff_time数据帧(例如,1个人有10个可能的截止时间)。尽管从我的cutoff_times数据帧中删除了重复的数据,尝试这样做还是得到了错误"Duplicated row in cutoff time dataframe“。
我必须在People实体中包含时间索引吗?这将使我的父实体在索引中有多个人,尽管他们会有不同的时间索引。我的直觉是people实体不应该包含任何datetime列。我想给DFS函数提供截止时间。
我的cutoff_times df.head看起来像这样,并且有一些people_id的多个实例:
+-------------------------------------------+
| person_id time label |
+-------------------------------------------+
| 0 f_GZSVLYU 2019-12-06 0.0 |
| 1 f_ATBJEQS 2019-12-06 1.0 |
| 2 f_GLFYVAY 2019-12-06 0.5 |
| 3 f_DIHPTPA 2019-12-06 0.5 |
| 4 f_GZSVLYU 2019-12-02 1.0 |
+-------------------------------------------+父People实体如下所示:
+-------------------+
| person_id |
+-------------------+
| 0 f_GZSVLYU |
| 1 f_ATBJEQS |
| 2 f_GLFYVAY |
| 3 f_DIHPTPA |
| 4 f_DVOYHRQ |
+-------------------+我怎样才能让featuretools理解我想做的事情呢?
‘截止时间数据帧中的重复行’我已经检查了我的cutoff_times df,没有重复的行。Person_id、times和labels都有多个匹配项,但没有两行是相同的。错误所指的这些重复项会在EntitySet中的其他位置吗?
发布于 2020-01-06 04:25:33
答案是cutoff_df的一行具有相同的ID和时间,但具有不同的标签。这是个问题。
https://stackoverflow.com/questions/59603623
复制相似问题