首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有偏初始数据集主动学习

有偏初始数据集主动学习
EN

Stack Overflow用户
提问于 2016-02-14 16:19:49
回答 1查看 156关注 0票数 1

选择有偏差的初始(种子)数据集会影响使用主动学习构建的机器的训练和准确性吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-07 15:50:45

可能会的。假设种子数据样本有很大的偏倚,而且模型没有看到任何特定集群的示例。然后,在进行预测时,该模型可以将它们预测为属于其他类,并且具有很高的确定性(即它变得严重偏倚)。因此,它不会觉得需要查询标签中的此类数据实例,也不会学习它们。但是当我们稍后用真正的标签测试模型的结果时,它会显示出低精度,因为这些实际上是错误的预测。

尽管如此,我们也可能不希望种子数据集中的训练数据分布“完全一致”,因为如果我们有相当数量的异常值或人为错误的标签,或者严重倾斜但不太可能出现的数据聚类,这将妨碍模型的建立。

一种解决方案可以是“主动清除”这类实例,或者其他方法,我们可以允许种子数据有一定的有意偏差(这可能是向高密度集群或有影响力的标签,或集合分歧或模型的不确定性)。然后,我们确保在基于模型结果的进一步决策过程中,考虑到模型中引入的偏差。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35394018

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档