我有两个重要的列,产品名称和产品类别的数据。我想把一个搜索词归类为一个类别。创建分类器的方法(在Python中使用Sklearn & DaskML)是:
我实现了OneHotEncoder (或任何编码器)通过创建一个矩阵来将文本转换为数字,同时要考虑单词发生的地点和次数。
Q1。我是否需要在火车测试分裂之前还是火车测试分裂之后从文字转换成矢量?
Q2。当我将搜索新单词(可能已经不在文本中)时,我将如何分类它,因为如果我编码搜索词,它将与用于培训数据的编码器无关。有人能帮助我的方法,以便我可以将一个搜索词分类为一个类别,如果这个词不存在的培训数据?
发布于 2019-04-22 19:26:21
Q1。在火车测试分裂之前,我需要把文字转换成矢量吗?
答:每种算法都将输入作为输入的某种数字表示,因此必须从文字转换为向量。除此之外,别无他途。除了OneHotEncode之外,还有其他方法,如CountVectorizer和TfIdf,它们被推荐使用而不是OneHotEncoding。你可以读到更多关于他们的这里。
https://stackoverflow.com/questions/55799752
复制相似问题