首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何构建主动学习项目的测试集?

如何构建主动学习项目的测试集?
EN

Data Science用户
提问于 2021-06-04 20:25:58
回答 2查看 306关注 0票数 1

通过主动学习,我希望将注释的工作量降到最低,但仍然是一个很好的分类器。

我最初的出发点是,我有大约20k个图像,它们可以属于10个不同的类,并且现在有0标记的图像。在每一次主动学习迭代之后,我希望得到例如100幅图像的标签。如果这很重要,不幸的是,数据很可能不平衡,这意味着五个类可能非常罕见。

那么,我如何构建主动学习的测试集呢?

  1. 在开始时随机抽取一个一定百分比的样本,注释它,并在整个项目中保持测试集的静态?
  2. 用每个主动学习迭代来培养测试集?(例如:100个新标记的图像中有10个随机添加到增长的测试集中?)
  3. 还有别的主意吗?

我在谷歌( Google )和谷歌( Google )奖学金网站上寻找这一主题,但没有发现关于详细介绍主动学习项目测试集构建的论文的好文章。

任何想法,经验或进一步的阅读欢迎!谢谢!

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-06-24 16:34:04

我正在研究如何将主动学习应用到测试中。我知道您已经有了一个培训数据集,但是您没有测试数据集,您将使用主动学习来标记更多用于测试的样本。你有两个选择:

选项1:如果训练数据集足够大。然后,您可以将此数据集视为整个数据集,并将其分为(70%、30%)用于培训和测试。不需要使用主动学习来选择测试样本。拆分数据集并从零开始对模型进行培训。

选项2:如果训练数据集很小,您可能会应用主动学习来标记更多用于测试的样本。我应该选择哪些样品进行测试?简单的解决方案是应用您以前在对培训数据集进行抽样时使用的技术。否则,如果您想应用更特殊的抽样标准,例如代表性、多样性或硬样本,您可以阅读本文并在那里实现算法。

具有不确定性、代表性和多样性的主动学习方法

票数 0
EN

Data Science用户

发布于 2023-05-08 14:41:20

我认为这篇论文https://arxiv.org/abs/2103.05331就是为了回答这个问题而设计的!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/96276

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档