我正在使用“拆分数据”模块来推荐拆分数据,用于培训和测试火柴盒推荐器。输入数据是有效的用户项评等元组(例如,575978 - 157381 - 3),除了将其更改为.75和.25拆分之外,我还将推荐拆分的参数保留为默认(0)。但是,当该模块完成时,它将返回dataset1的完整、未拆分的数据集和dataset2的完全空(但标记)数据集。在使用“拆分行”模式执行分层拆分时也会发生这种情况。知道怎么回事吗?
谢谢。
编辑:包括我的数据样本。
UserID ItemID Rating
835793 165937 3
154738 11214 3
938459 748288 3
819375 789768 6
738571 98987 3
847509 153777 3
991757 124458 3
968685 288070 2
236349 8337 3
127299 545885 3发布于 2018-06-21 16:34:37
弄明白了。在链上的“删除重复行”模块中,我只是通过UserID而不是UserID和ItemID删除重复的数据。这仍然留下了相当多的行,但我认为它扰乱了分层。
https://stackoverflow.com/questions/50954802
复制相似问题