首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在生成额外数据时,应该考虑的主要问题是什么?

在生成额外数据时,应该考虑的主要问题是什么?
EN

Data Science用户
提问于 2018-01-11 09:59:11
回答 1查看 45关注 0票数 1

我一直在参与一个项目,在这个项目中,由于错误的测量/无效的值,我不得不削减大部分数据集,最后我们得到了一个小数据集。

该数据集涉及以下内容:

  • 工具偏转:计量学测量传感器
  • 工具磨损:计量学.测量传感器
  • 件形精度:计量.传感器测量
  • 件.粗糙度:计量学.测量传感器
  • 机器输入.参数:系统输入

我想为每个计量数据集生成更多的数据,使用机器输入作为参考,然而,我觉得它可能会使我的模型有偏差。

如你所见,我对这个问题很困惑。

  1. 如果我朝着这个解决方案前进,我应该期待什么?
  2. 有什么限制我应该知道吗?
EN

回答 1

Data Science用户

发布于 2018-01-11 10:24:20

就像你说的,数据集中有偏见的可能。为了避免这种情况,您必须遵循生成数据的算法。我建议的解决方案是参数化方法。查找数据的统计分布,并根据该分布填写相应的数据。

如果你想知道更多关于参数方法的知识,你可以在这里看我的答案。

由数据集上的概率分布生成训练数据意味着什么?

关于一些机器学习方法,请看我在这里发布的答案。

处理缺失值的最佳方法是什么?

从来没有一种正确的方法来做你想要的事情,但是有一些好的方法,这取决于你的数据的细微差别。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26514

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档