我正在寻找具有相同列且其内容(行)不同的数据集。当我运行决策树(分类)时,我将为每个模型(树)获得不同的模型(树)。它可以是不同银行或保险公司客户的数据。
为了澄清这一问题,数据集应该有以下标准:
1. Have same columns
2. Categorized target column (i.e. I can build decision tree)
3. Each dataset can have enough data (over 1000 tuples)
4. The decision trees that I create (2) from each dataset is different发布于 2016-02-17 07:41:17
如果我正确理解您的目标,您希望在来自不同分布的相似实体上构建分类器,而不是比较分类器/源分布。我说的对吗?
顺便说一句,如果确实如此,您可能会发现域自适应的区域
在这种情况下,我将朝着拆分数据库的方向前进(因为您需要相同的实体和特性)。为了使分裂有意义,我建议通过一个应该改变实体行为的特性来进行拆分(例如,国家,时间上的很长时间)。为了拥有足够大的分区数据集,您应该使用的数据集必须相当大。
您可能认为有用的特定数据集是2000年年美国人口普查 (概念和拆分特性的大量选项)。
发布于 2016-02-22 18:54:45
我希望这个数据集适合you.This包含eBay在线拍卖(2012年)的细节。非常类似于您的银行客户数据库,您正在寻找。和所有CSV格式。因此,您可以将其导入到SQL also.Just试用。
所有文件都以逗号分隔格式(CSV)提供。
此数据集包含以下内容的详细信息:
拍卖bid -拍卖出价的唯一标识--投标人出价的代理出价--从拍卖人开始时(以天为单位)--投标人的eBay用户名--投标人开价的eBay反馈评级--由卖方价格确定的开价--物品出售的收盘价(相当于第二高的出价+增量)
或者我个人最喜欢的谷歌广告数据集。你得检查一下才知道它有多少信息..。
https://datascience.stackexchange.com/questions/10234
复制相似问题