首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >这种主动学习的方法正确吗?

这种主动学习的方法正确吗?
EN

Data Science用户
提问于 2019-03-03 20:23:50
回答 1查看 153关注 0票数 2

假设我们有10,000个未标记的文档,我们希望使用批量大小为5的基于池的抽样,并且我们将使用最小置信度(LC)来进行查询策略。

这个主动学习的大纲是否合理:

1)随机选取30个文档,并将其标记为labelled:=>:30,未标记: 9970。

2)对30个标注数据进行模型训练。

3)使用该模型对9970份未标注的文档进行预测。

4)使用LC从所有预测文档中选择模型最不确定的5个文档。

5)获取标签为5 documents:=>标签: 35,未标签: 9965

6)对标签数据模型进行再培训。

7)继续执行步骤2-6,直到标记资源过期或其他停止标准得到满足为止。

这是正确的吗?我最关心的是第三步),我们是否应该对每一次迭代中的所有数据进行再培训?这似乎会导致计算速度缓慢,但另一方面,如果我们不评估每一份文档,我们如何才能知道哪一份最有助于标记呢?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-03-03 21:25:25

你的流量是正确的。模型对新的标记数据进行了再培训。否则,下一个标记候选将从模型最不确定的前一个候选区域中选择。通过对新标记数据的培训,模型将转移到最不确定的新区域。下面是这次调查关于主动学习的第5页中基于池的方法的图表:

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/46602

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档