我在训练一个模型来确定两个人是否是一样的。模型应该包含两个人(表示为dataframe行)
我试着给表单的配对数据贴上标签
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
300 | 50 | 1 | na | africa | 12 | 90Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
700 | 100 | 0 | na | africa | 12 | 90这些对都被发送到单独的csv文件中进行标记,因为我想训练一个分类器,它接收成对的人行,并将它们标记为重复的或不重复的。
正如你所看到的,如果我只有10个人,这可能很快就会失控。10C2= 45对。有什么想法,如何使标签的数据更容易?
我考虑过在excel中这样做,但我觉得打开这些excel文件肯定会产生问题。
发布于 2020-10-17 15:46:47
所以我想明白了,我只需要对excel中的行,即row1特性,row2特性,标签。水平阅读这些功能是非常烦人的,但如果我使用外部监视器或2,这并不可怕。
发布于 2020-10-16 23:13:48
O(N*log(N))
若要对相邻行执行操作,只需将列设置为一个位置;将每一行与原始行进行比较。
https://stackoverflow.com/questions/64397467
复制相似问题