首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >处理质量有问题的培训

处理质量有问题的培训
EN

Data Science用户
提问于 2015-11-16 10:57:53
回答 2查看 218关注 0票数 6

我在过去读过的大部分材料通常都假定训练集是完美无缺的。然而,我所得到的似乎并不是这样的。打算发送到培训集中的数据通常是有问题的(我甚至不知道如何开始区分好的和坏的)。为了提高数据的有效性,我花了更多的时间试图对文件进行预处理,而不是实际构建原型。

我只丢弃了一部分声称更好的数据。还有其他来源的数据来补充第一组培训数据中缺失的部分。考虑到数据的数量,我几乎不可能花太多的时间在这些数据上。

因此,问题是,人们如何处理现实生活中非常可怕、不一致的数据(假设我在处理地址,人们经常因为城市规划不善或缺乏明确的指示而写错了邮政编码,拼错了邻居的名字,再加上excel对数据进行了“自动更正”,使"1-2“变成"1-Feb”等等)?具体来说,如果训练集(和交叉验证集)有可疑的质量,我如何确保训练分类器的质量?

EN

回答 2

Data Science用户

回答已采纳

发布于 2015-11-17 03:01:21

欢迎来到数据科学的真实世界。在这里,数据集并不像你想象的那么干净,当你在网上做那些课程/教程时。这些都是精雕细琢的。但是,现实世界的数据并非如此。

清洗和擦洗的步骤称为数据预处理步骤。

因此,除了@jknappen的出色回答之外,还有一些不错的数据清理技术是:

  1. 消除零方差列/预测器:这些列并不重要,它们会导致模型和适合崩溃和泄漏的错误。因此,消除它们是完全合理的。
  2. 相关预测因素:降低预测因子之间的相关性水平将是预处理过程中非常好的一步。
  3. 缩放:你必须知道为什么缩放在预处理过程中是重要的.
  4. 预测器变换

来自Kaggle论坛的不错的参考中讨论了数据集的预处理和清理.

票数 6
EN

Data Science用户

发布于 2015-11-16 12:44:05

你可以使用半监督学习的技术,在那里你有一个小的干净的训练集和一些肮脏的数据。您可以通过判断其他数据的好坏来扩展您的数据库,并将“最佳”数据点合并到您的培训集中。

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/8857

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档