我一直在参与一个项目,在这个项目中,由于错误的测量/无效的值,我不得不削减大部分数据集,最后我们得到了一个小数据集。
该数据集涉及以下内容:
我想为每个计量数据集生成更多的数据,使用机器输入作为参考,然而,我觉得它可能会使我的模型有偏差。
如你所见,我对这个问题很困惑。
发布于 2018-01-11 10:24:20
就像你说的,数据集中有偏见的可能。为了避免这种情况,您必须遵循生成数据的算法。我建议的解决方案是参数化方法。查找数据的统计分布,并根据该分布填写相应的数据。
如果你想知道更多关于参数方法的知识,你可以在这里看我的答案。
关于一些机器学习方法,请看我在这里发布的答案。
从来没有一种正确的方法来做你想要的事情,但是有一些好的方法,这取决于你的数据的细微差别。
https://datascience.stackexchange.com/questions/26514
复制相似问题