我有三个表-- Sales Manager、Customer和Order。每个销售经理有多个客户,每个客户可以有多个订单。
我感兴趣的是确定销售经理的某些属性和客户的属性是否会导致特定产品的销售(假设产品A是/否)。
假设我有3个销售经理、10个客户和20个订单。
我应该将数据集的结构设置为3行、10行还是20行。请给我建议。
此外,决策树和分类算法是否会自动理解经理、客户和订单之间的层次关系?
谢谢。
发布于 2011-04-18 06:30:37
我认为你应该把它做成一个大的特征矩阵。假设你有表
销售经理(id attr_1 ...attr_m)
客户(id attr_1 ...attr_n sales_manager_id)
Order (id product_id_1 ...product_id_l customer_id)
然后,很可能以以下形式创建矩阵是合理的
矩阵:
product_id order_attr_1 ...order_attr_l customer_attr_1 ...customer_attr_n ...manager_attr_1 ...manager_attr_m
现在,您有了20*l行矩阵,其中包含为特定顺序给定的所有属性。
在最简单的形式中,您可以使用以下矩阵进行分类。在属性太多的情况下,可能首先使用PCA是合理的。也许你应该试着使用Weka,看看会发生什么。
考虑到你关于层次关系的问题,那么分类算法将不会显式地理解它们。
我在这里推荐这本书:Introduction to Data Mining,因为它回答了你的大多数问题。
https://stackoverflow.com/questions/5696814
复制相似问题