给出一些预测数据集,
例如,我有不同的房价预测数据:
数据集1: 100培训和100个测试样本,50个特征
数据集2:100个培训和100个测试样本,120个特性
数据集3:1000个训练和1000个测试样本,50个特征
数据集4:1000个训练和1000个测试样本,5000功能
如何从这些数据集的下列数据中选择最佳的方法来估计线性回归模型中的未知参数(预测价格)?
我应该一个接一个地对这些数据进行实验,并比较结果,还是根据数据集对何时使用它们有任何规则?
请帮帮忙
发布于 2015-10-04 10:47:49
在数据处理之后,这是预测模型上最困难的任务。然而,为了回答这个问题,我们需要更多的细节。你说“最好的模特”是什么意思?你想要精确和长时间的训练吗?你需要速度快、精度低的东西吗?他们俩之间有什么事吗?你的特征是什么?你是刚刚拿走了它们,还是从它们中创建了新的特性?
无论如何,我建议您花一些时间阅读微软关于机器学习的完美教程。为了理解我的意思,本教程的一部分:
当我有一个类似的问题,我不知道选择哪一个时,我通常会根据微软的备忘单或科学知识-学习上的一个不同的算法得出3-4个不同的算法,试着所有这些算法,并选择一个或两个结果最好的算法。
https://datascience.stackexchange.com/questions/5973
复制相似问题