首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用机器学习对大文本进行分类

利用机器学习对大文本进行分类
EN

Stack Overflow用户
提问于 2018-03-07 12:20:14
回答 2查看 702关注 0票数 1

我有一个大型的xls文档,其中每行都包含一个问题id、它的描述以及expl的分类:类别1- A- a1

我正在尝试建立一个机器学习模型,帮助我根据类别对这个文档进行分类。目标是对于每一个新条目(也就是新的问题描述),我们将能够定义其各自的类别。

约束条件:我有10个以上的类别,它们也是分层的(类别1有不同的子类别,每个子类别有不同的子类别)。我正在考虑分级分类或多类分类,但不知道。

描述功能是一个长文本。我正在考虑多项logistic回归,但我读到它需要数值数据。我是否必须将文档中使用的所有单词编成词典才能给它一个数值?这是正确的选择吗?

我也希望每个新条目都有分数来分类最近的类(对于一个新的描述X,类别2-B-b1给出了80%的分数)。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-03-07 21:07:46

您可以使用的策略之一是伯努利朴素贝叶斯(classifier)。

这是一个简单的数学方程,允许您将问题简化为每个类别的单词频率的简单列表。

一旦您为已知属于适当类别的文本建立了有意义的单词频率基线,该公式将能够返回新文本在每个类别中匹配的概率。

这可以给出一个非常大的矩阵的单词x类别,但每个元素的处理非常简单。根据您的卷和性能要求,可以对公式进行优化,将计算限制在文本中实际存在的单词上,以便对与以前见过但在文本中不存在的其他单词相关联的因素进行分类和跳过(如果Bernoulli分类器与您的解决方案相关,我可以详细说明这一点)。注意,Python中可能存在分类器的现有实现(我还没有检查)。

票数 1
EN

Stack Overflow用户

发布于 2018-03-07 12:32:29

一种很好的方法是将您的.xls文件转换为熊猫数据,并使用快速文本https://fasttext.cc/创建文本分类模型,任何新文本都将被分类到相应的类别中。有关适当的文档,请参考https://github.com/facebookresearch/fastText

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49151825

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档