我有两个专栏,出生年份和成为客户的第一年。有大量样本的出生年份少于第一年作为一个客户,这在现实生活中是没有意义的。例如,一个客户出生于1992年,自1983年以来一直是客户。
我想知道我能否解决这个数据准备问题,因为我不能删除或交换这两列中的数据。
我感谢任何形式的帮助。
发布于 2021-12-18 03:23:59
考虑到您不能修改数据,那么我假设您正在寻找能够突出显示系统模式的数据分析技术?如果是的话,我们需要更多的信息。
利用问题的上下文。儿童或成年人可以买到的产品吗?数据是如何收集的?一些条目是否来自诈骗者或遗留软件错误?这些不一致的记录所代表的分数是多少?你还有哪些关于这些客户的专栏?这真的取决于..。
例如:如果数据是手动输入的,或者是从物理文档中以数字方式扫描的,那么任何一年的输入都可能有“黄油手指”或OCR翻译错误。也许你可以根据其他客户的姓氏和其他人口统计数据,推断出其他客户是他们的家庭成员。也许,对所有客户进行聚类会在一致和不一致的记录之间显示定义良好的子组。
要有创造性,提出假设,并试图用数据来证明这些假设,以讲述一个可信的故事。一定要分析一致的客户,以拒绝某些假设。
https://datascience.stackexchange.com/questions/106228
复制相似问题