客户经常发送中断数据进行分析。我花了很多时间清理数据或等待一个正确的数据集。你能推荐一个能处理最常见的卷曲的工具吗?(错误的引号)..。
发布于 2017-04-30 23:37:37
Weka已经内置了预处理技术,而且u可能需要检查强大的工具dataPreparator,因为它提供了多种技术,用于将预处理操作符的数据清理、转换和探索链接到流图(操作符树)中,并且可以通过用户友好的图形用户界面处理大量数据(因为数据集没有存储在计算机内存中)。
发布于 2017-04-30 05:21:22
如果您知道您需要的数据的性质,如@Emre所建议的手动清理,您可以使用Apache或Pandas。利用Spark和Pandas的数据帧方面将帮助您以更方便的方式预处理数据。因为数据帧占了任何数据类型,所以很容易访问和清理所需的段。如果损坏的数据是重复的,您也可以使用几种Map技术来快速清除它。如果是大数据的话。
https://datascience.stackexchange.com/questions/18684
复制相似问题