问有偏初始数据集主动学习
EN

Stack Overflow用户

提问于 2016-02-14 16:19:49

回答 1查看 156关注 0票数 1

选择有偏差的初始(种子)数据集会影响使用主动学习构建的机器的训练和准确性吗？

machine-learning

statistics

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-07 15:50:45

可能会的。假设种子数据样本有很大的偏倚，而且模型没有看到任何特定集群的示例。然后，在进行预测时，该模型可以将它们预测为属于其他类，并且具有很高的确定性(即它变得严重偏倚)。因此，它不会觉得需要查询标签中的此类数据实例，也不会学习它们。但是当我们稍后用真正的标签测试模型的结果时，它会显示出低精度，因为这些实际上是错误的预测。

尽管如此，我们也可能不希望种子数据集中的训练数据分布“完全一致”，因为如果我们有相当数量的异常值或人为错误的标签，或者严重倾斜但不太可能出现的数据聚类，这将妨碍模型的建立。

一种解决方案可以是“主动清除”这类实例，或者其他方法，我们可以允许种子数据有一定的有意偏差(这可能是向高密度集群或有影响力的标签，或集合分歧或模型的不确定性)。然后，我们确保在基于模型结果的进一步决策过程中，考虑到模型中引入的偏差。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35394018

复制

相似问题

问有偏初始数据集主动学习
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有偏初始数据集主动学习EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有偏初始数据集主动学习
EN