首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我可以使用无监督学习,然后是监督学习吗?

我可以使用无监督学习,然后是监督学习吗?
EN

Data Science用户
提问于 2014-08-16 11:05:43
回答 4查看 9.6K关注 0票数 5

我有一个关于使用监督学习和非监督学习对文档进行分类的问题。

例如:-我有一堆关于足球的文件。我们知道,足球在英国、美国和澳大利亚有着不同的含义。因此,很难将这些文件分为三种不同的分类(即足球、美式足球和澳大利亚足球)。

我的方法尝试使用基于无监督学习的余弦相似项。在使用聚类学习之后,我们能够基于余弦相似性创建多个聚类,其中每个聚类将包含相似的文档术语。在创建聚类之后,我们可以使用语义特征来识别这些聚类,这取决于支持向量机( SVM )这样的监督模型来进行精确的分类。

我的目标是创建更准确的分类,因为如果我想测试一个新的文档,我想知道这个文档是否可以与这些分类相关。

EN

回答 4

Data Science用户

发布于 2014-08-29 16:19:06

您可以首先尝试对数据进行集群,然后尝试查看群集信息是否有助于分类任务。

例如,如果您的数据如下(在1d中):

代码语言:javascript
复制
AA A AA A A      BBB B B B BB BB BB      AA AA A A AAA

然后,在每个类上运行一个聚类算法,获得两种不同的A,并为A1和A2学习两个独立的分类器,然后删除对最终输出的聚类区分。

其他常用的无监督技术包括PCA。

至于你的足球例子,问题是,无监督的算法不知道它应该寻找什么。与其学习把美式足球和足球分开,不如选择国际比赛和全国比赛。或者是欧洲对美国的比赛,看上去它一开始就学到了美国足球和足球,但它把美国足球和美国足球放在了一起,而欧洲的美国足球队则被纳入了欧洲足球集群.因为它没有关于你感兴趣的结构的指导;而大陆也是一个有效的结构!

因此,通常,我不会盲目地假设没有监督的技术会产生与你想要的结果相匹配的分配。他们可以产生任何一种结构,你会想要仔细检查他们在使用之前发现了什么。如果您盲目地使用它,请确保您在评估上花费了足够的时间(例如,如果聚类提高了分类器的性能,那么它可能会按预期工作.)

票数 5
EN

Data Science用户

发布于 2014-08-28 16:56:45

听起来好像你想要使用非监督的学习来创建一个培训集。我说的对吗?您使用聚类分析来确定哪些文档来自英国、美国或奥兹--或者哪个文档分别讨论足球、足球或澳大利亚足球?然后把那些有标记的文档输入到某种监督的学习算法中?

这将完全取决于你能如何区分英国、美国和奥兹。我会认为找到民族来源已知的文档是相当简单的,这样您就可以构建一个检测语言变体的监督算法。你甚至不需要一个谈论足球的语料库,因为辩证法的不同表现在主题独立的其他方面。(例如,我显然来自北美,因为我只是写了“主题独立的方式”,而不是“因为辩证法的差异不取决于主题”)。

然而,你的问题“我可以使用非监督学习,然后监督学习”的答案是否定的,如果你在寻找超越学习。如果一个非监督的学习算法的结果被输入到一个监督的学习算法中,那么最终的结果是没有监督的--房间里还没有成年人。结果过程的分类误差将包含两个阶段的误差项。如果您使用带有适当标记的训练数据的支持向量机,您将不会获得与您相同的性能。这并不意味着你不应该使用你提议的方法..。也许还能用..。但它不会是一个监督的学习算法。

票数 2
EN

Data Science用户

发布于 2014-10-28 07:00:01

常用的方法是利用无监督学习来降低维数,然后利用监督学习得到精确的预测模型。例如,参见Bhat和Zaelit,2012年,年,其中他们首先使用主成分分析将问题的维度从87降到35。然后,利用L1回归得到最优的预测模型。该方法优于建立在整个数据集及其子集上的基于非线性树的模型。

如果您的目标是创建更准确的数据聚类分类,那么一种常用的技术是使用监督学习作为一种方法,为最近的示例准确地选择集群见Pan等人,2013年年的数量。这里的基本方法是选择聚类的数目,以便有监督的多类方法能够学习这些聚类,并以最高的样本外精度预测聚类。这是一种让自己相信集群既有意义又可预测的方法。

另一种方法,如果您的目标是将文档归类为来自美国/美国/澳大利亚的文档,或者就此进行讨论,那么足球/美式足球/澳大利亚足球可以解决三个二进制分类问题,这些问题可以独立地预测文档是否涉及足球、美式足球或澳大利亚足球。结合这三个分类器的结果(称为二进制关联),您还可以将文档标记为足球或美式足球,或者以上三种标签的任何组合。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/985

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档