首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当预定义的类别不可用时如何对文本进行分类

当预定义的类别不可用时如何对文本进行分类
EN

Stack Overflow用户
提问于 2011-09-14 21:07:14
回答 1查看 136关注 0票数 1

我有一个问题,不知道该应用哪种算法。我正在考虑在第二种情况下应用集群,但不知道第一种情况:

我有.5百万张信用卡活动文档。每个文档都定义良好,每行包含一个事务。日期、金额、零售商名称以及零售商的简短描述( 5-20个单词)。样本: 2004-11-47,$500,亚马逊,一家提供商品和服务的在线零售商,包括书籍,硬件,音乐等。问题: 1.如何对每个条目进行分类,因为没有预先定义的类别。2.如果给你预先定义的类别,比如“餐馆”、“娱乐”等,你会怎么做?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-09-15 17:23:16

1)如何在没有预先定义的类别的情况下对每个条目进行分类。

你不会的。相反,你会对数据的二维特征使用一些降维算法,猜测“自然”聚类的数量,然后运行聚类算法。

2)如果给你预先定义的类别,比如“餐馆”、“娱乐”等,你会怎么做?

你可以手动标记一大堆类别,然后训练一个分类器,看看它在准确性/F1、交叉验证等常用机制下的效果如何。或者你可以检查聚类算法是否能很好地提取这些类别,但之后你仍然需要一些标记的数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7416815

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档