我在看C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集,需要区分伦敦安大略省、伦敦英格兰,甚至法国勃艮第的伦敦,但要注意周围文字的特点:例如邮政编码、州名称,即使没有提到“加拿大”或“英格兰”。我还可以访问元数据,如拨号代码,这可以帮助确定它是哪个国家。
随后,一旦经过训练,我想在大型数据集上运行分类器。
在我发现的所有例子中,这里结果只有两个状态(在这个例子中,打或不打)。
c4.5分类器能否将伦敦(加拿大)、伦敦(英格兰)、伦敦(法国)作为结果类处理,或者我是否需要为伦敦(加拿大)、真假等设置不同的分类器?
发布于 2013-06-11 21:25:57
我在你的案子里有两种选择。
p(c|v) (给定特征x1和x2,数据x属于c类的概率)。


这些数字是借用了这个优秀的教程关于多类分类的安德鲁齐塞尔马。
https://stackoverflow.com/questions/17031056
复制相似问题