我有一个训练数据集,其中"Output“col的值依赖于三列(这是分类的不订货)。
Inp1 Inp2 Inp3 Output
A,B,C AI,UI,JI Apple,Bat,Dog Animals
L,M,N LI,DO,LI Lawn, Moon, Noon Noun
X,Y,Z LI,AI,UI Xmas,Yemen,Zombie Extras因此,基于这些训练数据,我需要一个ML算法来预测任何传入的数据行,这样如果它类似于训练行,那么就需要一个最大的相似输出。
行可以继续增加(因此get_dummies创建了许多列,使用这些列是不可行的),而且没有按优先级排序。要使ML模型工作,需要对Inp列的分类数据进行哪种编码。请提出一个更好的方式来模拟同样的。
发布于 2022-05-06 04:42:14
您可以尝试使用其他编码器,如均值编码器、有序标记编码器、证据权重编码器、概率比编码器、二进制编码器。
https://datascience.stackexchange.com/questions/110500
复制相似问题