首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据集的二值化会导致duplication.Is,有什么解决方案吗?

数据集的二值化会导致duplication.Is,有什么解决方案吗?
EN

Stack Overflow用户
提问于 2019-11-25 17:35:54
回答 1查看 26关注 0票数 0

我已经将我的数据集转换为二进制。所有为0的数值都是0,所有大于0的数值都转换为1。现在,这会导致我的数据重复。我使用的是NSLKDD数据集。有超过25000个实例,现在在将它们转换为二进制并删除重复后,只剩下1729个实例不是重复的。我应该如何在不复制的情况下对它们进行二值化?哦,我把它输入到遗传算法中,这也导致了子代的重复。

EN

回答 1

Stack Overflow用户

发布于 2019-11-25 20:02:59

我不确定是否知道dataset,但如果您有一个包含多个列的dataframe df

代码语言:javascript
复制
df
columnA columnB columnC ....
....

question提供了有关删除重复项的概述:

代码语言:javascript
复制
#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59028789

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档