文章/答案/技术大牛

发布

问处理质量有问题的培训
EN

Data Science用户

提问于 2015-11-16 10:57:53

回答 2查看 218关注 0票数 6

我在过去读过的大部分材料通常都假定训练集是完美无缺的。然而，我所得到的似乎并不是这样的。打算发送到培训集中的数据通常是有问题的(我甚至不知道如何开始区分好的和坏的)。为了提高数据的有效性，我花了更多的时间试图对文件进行预处理，而不是实际构建原型。

我只丢弃了一部分声称更好的数据。还有其他来源的数据来补充第一组培训数据中缺失的部分。考虑到数据的数量，我几乎不可能花太多的时间在这些数据上。

因此，问题是，人们如何处理现实生活中非常可怕、不一致的数据(假设我在处理地址，人们经常因为城市规划不善或缺乏明确的指示而写错了邮政编码，拼错了邻居的名字，再加上excel对数据进行了“自动更正”，使"1-2“变成"1-Feb”等等)？具体来说，如果训练集(和交叉验证集)有可疑的质量，我如何确保训练分类器的质量？

data-cleaning

preprocessing

回答 2

Data Science用户

回答已采纳

发布于 2015-11-17 03:01:21

欢迎来到数据科学的真实世界。在这里，数据集并不像你想象的那么干净，当你在网上做那些课程/教程时。这些都是精雕细琢的。但是，现实世界的数据并非如此。

清洗和擦洗的步骤称为数据预处理步骤。

因此，除了@jknappen的出色回答之外，还有一些不错的数据清理技术是：

消除零方差列/预测器:这些列并不重要，它们会导致模型和适合崩溃和泄漏的错误。因此，消除它们是完全合理的。
相关预测因素:降低预测因子之间的相关性水平将是预处理过程中非常好的一步。
缩放:你必须知道为什么缩放在预处理过程中是重要的.
预测器变换

在来自Kaggle论坛的不错的参考中讨论了数据集的预处理和清理.

票数 6

Data Science用户

发布于 2015-11-16 12:44:05

你可以使用半监督学习的技术，在那里你有一个小的干净的训练集和一些肮脏的数据。您可以通过判断其他数据的好坏来扩展您的数据库，并将“最佳”数据点合并到您的培训集中。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/8857

复制

相似问题

问处理质量有问题的培训
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理质量有问题的培训EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理质量有问题的培训
EN