我已经将我的数据集转换为二进制。所有为0的数值都是0,所有大于0的数值都转换为1。现在,这会导致我的数据重复。我使用的是NSLKDD数据集。有超过25000个实例,现在在将它们转换为二进制并删除重复后,只剩下1729个实例不是重复的。我应该如何在不复制的情况下对它们进行二值化?哦,我把它输入到遗传算法中,这也导致了子代的重复。
发布于 2019-11-25 20:02:59
我不确定是否知道dataset,但如果您有一个包含多个列的dataframe df:
df
columnA columnB columnC ....
....此question提供了有关删除重复项的概述:
#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)https://stackoverflow.com/questions/59028789
复制相似问题