我有一个问题,不知道该应用哪种算法。我正在考虑在第二种情况下应用集群,但不知道第一种情况:
我有.5百万张信用卡活动文档。每个文档都定义良好,每行包含一个事务。日期、金额、零售商名称以及零售商的简短描述( 5-20个单词)。样本: 2004-11-47,$500,亚马逊,一家提供商品和服务的在线零售商,包括书籍,硬件,音乐等。问题: 1.如何对每个条目进行分类,因为没有预先定义的类别。2.如果给你预先定义的类别,比如“餐馆”、“娱乐”等,你会怎么做?
发布于 2011-09-15 17:23:16
1)如何在没有预先定义的类别的情况下对每个条目进行分类。
你不会的。相反,你会对数据的二维特征使用一些降维算法,猜测“自然”聚类的数量,然后运行聚类算法。
2)如果给你预先定义的类别,比如“餐馆”、“娱乐”等,你会怎么做?
你可以手动标记一大堆类别,然后训练一个分类器,看看它在准确性/F1、交叉验证等常用机制下的效果如何。或者你可以检查聚类算法是否能很好地提取这些类别,但之后你仍然需要一些标记的数据。
https://stackoverflow.com/questions/7416815
复制相似问题