假设我们有10,000个未标记的文档,我们希望使用批量大小为5的基于池的抽样,并且我们将使用最小置信度(LC)来进行查询策略。
这个主动学习的大纲是否合理:
1)随机选取30个文档,并将其标记为labelled:=>:30,未标记: 9970。
2)对30个标注数据进行模型训练。
3)使用该模型对9970份未标注的文档进行预测。
4)使用LC从所有预测文档中选择模型最不确定的5个文档。
5)获取标签为5 documents:=>标签: 35,未标签: 9965
6)对标签数据模型进行再培训。
7)继续执行步骤2-6,直到标记资源过期或其他停止标准得到满足为止。
这是正确的吗?我最关心的是第三步),我们是否应该对每一次迭代中的所有数据进行再培训?这似乎会导致计算速度缓慢,但另一方面,如果我们不评估每一份文档,我们如何才能知道哪一份最有助于标记呢?
发布于 2019-03-03 21:25:25
你的流量是正确的。模型对新的标记数据进行了再培训。否则,下一个标记候选将从模型最不确定的前一个候选区域中选择。通过对新标记数据的培训,模型将转移到最不确定的新区域。下面是这次调查关于主动学习的第5页中基于池的方法的图表:

https://datascience.stackexchange.com/questions/46602
复制相似问题