首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习的分层分类自上而下方法

机器学习的分层分类自上而下方法
EN

Stack Overflow用户
提问于 2016-04-22 21:09:27
回答 3查看 4.4K关注 0票数 3

我有一个句子的数据集,这些句子已经用来自层次结构的标签进行了注释。层次结构是对音乐流派的选择。它是一个树,而不是DAG --每个节点都有一个父节点,而且只有一个父节点。下面是一个摘录示例:

代码语言:javascript
复制
root = music
     parent = latin
            child = afro-cuban
                    child = salsa
            child = brazilian
                    child = axe
     parent = non-latin
            child = classical
     ...

例如,对于句子Mozart is the best,从收集的注释中,大多数人同意此句子的类标签或基本事实是classical。从层次上看,我们知道classical也是non-latin音乐的一种形式,也是music的一种形式。而i prefer salsa可能已经被注释为latin

在分类方面,扁平化层次结构--我已经这么做了--直观地说并不能解决问题,因为我们完全忽略了类层次结构。当我们面临多类分类问题时,它在使用Weka和选择分类器时也会产生较低的结果。

我的问题是,我读过非常模糊的文献和在线文章,关于分层分类是如何实现的。我想用Weka和Python。但我只是想弄清楚在这种情况下如何执行分层分类。所以我的问题是:

1)绕过这个问题最好的建议是什么?实现自上而下的方法是最好的选择吗?如果我这样做,我如何避免在每个级别上错误分类的问题?也就是说,它可以预测级别1上的latin和级别2上的classical。那么二进制分类器呢?我乐于接受大家的建议。

2)训练和测试数据是如何进入其中的?

3)如何评估分类性能?特别是使用自上而下的方法,因为我们将对每个单独的级别进行评估。

EN

回答 3

Stack Overflow用户

发布于 2017-02-04 02:44:55

这个survey article很好地解释了层次分类的各种策略。

您可以通过控制用于训练子分类器的训练数据来防止不一致的预测,就像您给出的拉丁文>经典示例一样。例如,您首先训练一个二进制分类器来区分拉丁语和非拉丁语,使用所有用于训练的数据。然后,仅使用这两个类中的示例作为训练数据,训练分类器以区分非裔古巴人和巴西人。在推理时,如果拉丁/非拉丁量词预测“拉丁”,则仅将未标记的示例传递给非洲裔古巴人/巴兹利安分类器。

票数 2
EN

Stack Overflow用户

发布于 2016-04-25 01:43:45

我不确定我完全理解你的问题,但据我所知,听起来Decision tree,或者像Random Forest这样的最先进的算法将是一个很好的选择。您将需要构建树,可能使用一些NLP技术来删除不必要的单词,如"is","I"," the“(可能,但需要更深入地检查),并使用这些单词作为树的特征。

至于第二个问题,你可能应该阅读一些关于机器学习的知识。首先,Andrew Ng course on Coursera是一个很好的选择。但是对于你的问题,训练是你选择进行训练的数据的一部分,而测试数据是你评估算法性能的依据。这也可以回答你的第三个问题。

票数 0
EN

Stack Overflow用户

发布于 2018-04-11 13:13:40

分层地组织类,创建类别的树或DAG (有向无环图),利用它们之间的关系信息。

我们采取自上而下的方法,在树的每个级别(或节点)训练分类器(同样,尽管这不是唯一的分层方法,但它绝对是使用最广泛的方法,也是我们为手头的问题选择的方法),其中给定的决策将引导我们沿着不同的分类路径。

来自下面链接的博客的音乐例子:我们首先训练一个分类器来预测,比如说,音乐的流派(死亡金属),然后,我们训练另一个分类器来预测,例如,乐队的国籍(瑞典),然后我们可以训练一个分类器来预测该子组中现有的乐队(Arch Enemy,在盖茨,…)

查看这篇关于层次分类的文章,了解更多详细信息。

https://www.kdnuggets.com/2018/03/hierarchical-classification.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36794774

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档