我在过去读过的大部分材料通常都假定训练集是完美无缺的。然而,我所得到的似乎并不是这样的。打算发送到培训集中的数据通常是有问题的(我甚至不知道如何开始区分好的和坏的)。为了提高数据的有效性,我花了更多的时间试图对文件进行预处理,而不是实际构建原型。
我只丢弃了一部分声称更好的数据。还有其他来源的数据来补充第一组培训数据中缺失的部分。考虑到数据的数量,我几乎不可能花太多的时间在这些数据上。
因此,问题是,人们如何处理现实生活中非常可怕、不一致的数据(假设我在处理地址,人们经常因为城市规划不善或缺乏明确的指示而写错了邮政编码,拼错了邻居的名字,再加上excel对数据进行了“自动更正”,使"1-2“变成"1-Feb”等等)?具体来说,如果训练集(和交叉验证集)有可疑的质量,我如何确保训练分类器的质量?
发布于 2015-11-17 03:01:21
欢迎来到数据科学的真实世界。在这里,数据集并不像你想象的那么干净,当你在网上做那些课程/教程时。这些都是精雕细琢的。但是,现实世界的数据并非如此。
清洗和擦洗的步骤称为数据预处理步骤。
因此,除了@jknappen的出色回答之外,还有一些不错的数据清理技术是:
在来自Kaggle论坛的不错的参考中讨论了数据集的预处理和清理.
发布于 2015-11-16 12:44:05
你可以使用半监督学习的技术,在那里你有一个小的干净的训练集和一些肮脏的数据。您可以通过判断其他数据的好坏来扩展您的数据库,并将“最佳”数据点合并到您的培训集中。
https://datascience.stackexchange.com/questions/8857
复制相似问题