我注册了一门数据挖掘的研究生课程,我的任务是编写数据挖掘预处理器的代码。我可以自由选择编程语言和数据集。我想知道是否有人能提出一个很好的数据集供使用。我一直在浏览UCI储存库,我找到了更多这样的资源。但作为一个初学者,我不确定哪一组数据会是一个好的选择。预处理程序应该处理以下内容:
在选择数据集时,我应该考虑哪些属性?你认为有什么具体的数据吗?
发布于 2011-11-01 06:59:55
你自己回答了问题。选择具有您提到的属性的数据集列表,作为UCI存储库已分类数据集。你可以选择任何人开始玩它。
因此,首先,如果我是您,我将按步骤进行,了解这些数据集的外观及其对分类器性能的影响,并选择一些流行数据集,因为它们在大多数研究论文中被用作基准数据集。你列出的很多都是单独的机器学习问题,很多研究都在进行中。
我会从这样的开始:
缺少的值:虹膜,投票,心脏病
复制:921,810首歌曲数据集(我认为不是UCI格式)
规范化:任何具有不同特征范围的连续值数据集。
取样技术: Pima
降维:瑞士辊
此外,另一种寻找数据集的最佳办法是参考一些相关出版物。例如,对于降维,您可以查看PCA、ISOMAP等论文,取样时可以查看平滑纸等,并查看它们在实验中使用的数据类型并进行相应的处理。
https://stackoverflow.com/questions/7949445
复制相似问题