文章/答案/技术大牛

发布

问良好的预处理数据集
EN

Stack Overflow用户

提问于 2011-10-31 02:27:16

回答 1查看 1.1K关注 0票数 3

我注册了一门数据挖掘的研究生课程，我的任务是编写数据挖掘预处理器的代码。我可以自由选择编程语言和数据集。我想知道是否有人能提出一个很好的数据集供使用。我一直在浏览UCI储存库，我找到了更多这样的资源。但作为一个初学者，我不确定哪一组数据会是一个好的选择。预处理程序应该处理以下内容：

数据清洗
- 缺失值
- 错误
- 离群值
- 非归化
- 去重复

数据约简
- 抽样技术
- 降维

在选择数据集时，我应该考虑哪些属性？你认为有什么具体的数据吗？

preprocessor

machine-learning

data-mining

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-11-01 06:59:55

你自己回答了问题。选择具有您提到的属性的数据集列表，作为UCI存储库已分类数据集。你可以选择任何人开始玩它。

因此，首先，如果我是您，我将按步骤进行，了解这些数据集的外观及其对分类器性能的影响，并选择一些流行数据集，因为它们在大多数研究论文中被用作基准数据集。你列出的很多都是单独的机器学习问题，很多研究都在进行中。

我会从这样的开始：

缺少的值:虹膜，投票，心脏病

复制:921,810首歌曲数据集(我认为不是UCI格式)

规范化:任何具有不同特征范围的连续值数据集。

取样技术: Pima

降维:瑞士辊

此外，另一种寻找数据集的最佳办法是参考一些相关出版物。例如，对于降维，您可以查看PCA、ISOMAP等论文，取样时可以查看平滑纸等，并查看它们在实验中使用的数据类型并进行相应的处理。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7949445

复制

相似问题

问良好的预处理数据集
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问良好的预处理数据集EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问良好的预处理数据集
EN