文章/答案/技术大牛

发布

社区首页 >问答首页 >数据集的二值化会导致duplication.Is，有什么解决方案吗？

问数据集的二值化会导致duplication.Is，有什么解决方案吗？
EN

Stack Overflow用户

提问于 2019-11-25 17:35:54

回答 1查看 26关注 0票数 0

我已经将我的数据集转换为二进制。所有为0的数值都是0，所有大于0的数值都转换为1。现在，这会导致我的数据重复。我使用的是NSLKDD数据集。有超过25000个实例，现在在将它们转换为二进制并删除重复后，只剩下1729个实例不是重复的。我应该如何在不复制的情况下对它们进行二值化？哦，我把它输入到遗传算法中，这也导致了子代的重复。

machine-learning

svm

genetic-algorithm

preprocessor

python

回答 1

Stack Overflow用户

发布于 2019-11-25 20:02:59

我不确定是否知道dataset，但如果您有一个包含多个列的dataframe df：

df
columnA columnB columnC ....
....

此question提供了有关删除重复项的概述：

#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59028789

复制

相似问题

问数据集的二值化会导致duplication.Is，有什么解决方案吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集的二值化会导致duplication.Is，有什么解决方案吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集的二值化会导致duplication.Is，有什么解决方案吗？
EN