通过主动学习,我希望将注释的工作量降到最低,但仍然是一个很好的分类器。
我最初的出发点是,我有大约20k个图像,它们可以属于10个不同的类,并且现在有0标记的图像。在每一次主动学习迭代之后,我希望得到例如100幅图像的标签。如果这很重要,不幸的是,数据很可能不平衡,这意味着五个类可能非常罕见。
那么,我如何构建主动学习的测试集呢?
我在谷歌( Google )和谷歌( Google )奖学金网站上寻找这一主题,但没有发现关于详细介绍主动学习项目测试集构建的论文的好文章。
任何想法,经验或进一步的阅读欢迎!谢谢!
发布于 2021-06-24 16:34:04
我正在研究如何将主动学习应用到测试中。我知道您已经有了一个培训数据集,但是您没有测试数据集,您将使用主动学习来标记更多用于测试的样本。你有两个选择:
选项1:如果训练数据集足够大。然后,您可以将此数据集视为整个数据集,并将其分为(70%、30%)用于培训和测试。不需要使用主动学习来选择测试样本。拆分数据集并从零开始对模型进行培训。
选项2:如果训练数据集很小,您可能会应用主动学习来标记更多用于测试的样本。我应该选择哪些样品进行测试?简单的解决方案是应用您以前在对培训数据集进行抽样时使用的技术。否则,如果您想应用更特殊的抽样标准,例如代表性、多样性或硬样本,您可以阅读本文并在那里实现算法。
发布于 2023-05-08 14:41:20
我认为这篇论文https://arxiv.org/abs/2103.05331就是为了回答这个问题而设计的!
https://datascience.stackexchange.com/questions/96276
复制相似问题