首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本分类方法

文本分类方法
EN

Stack Overflow用户
提问于 2019-04-22 19:08:04
回答 1查看 95关注 0票数 0

我有两个重要的列,产品名称和产品类别的数据。我想把一个搜索词归类为一个类别。创建分类器的方法(在Python中使用Sklearn & DaskML)是:

  1. 清洁产品名称栏中的塞子、号码等。
  2. 创建90% 10%的列车测试分割
  3. 使用OneHotEncoder将文本转换为矢量
  4. 对训练数据创建分类器(朴素贝叶斯)
  5. 测试分类器

我实现了OneHotEncoder (或任何编码器)通过创建一个矩阵来将文本转换为数字,同时要考虑单词发生的地点和次数。

Q1。我是否需要在火车测试分裂之前还是火车测试分裂之后从文字转换成矢量?

Q2。当我将搜索新单词(可能已经不在文本中)时,我将如何分类它,因为如果我编码搜索词,它将与用于培训数据的编码器无关。有人能帮助我的方法,以便我可以将一个搜索词分类为一个类别,如果这个词不存在的培训数据?

EN

回答 1

Stack Overflow用户

发布于 2019-04-22 19:26:21

Q1。在火车测试分裂之前,我需要把文字转换成矢量吗?

答:每种算法都将输入作为输入的某种数字表示,因此必须从文字转换为向量。除此之外,别无他途。除了OneHotEncode之外,还有其他方法,如CountVectorizer和TfIdf,它们被推荐使用而不是OneHotEncoding。你可以读到更多关于他们的这里

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55799752

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档