因此,我试图在一个包含字母表前5个字母的数据集上训练一个具有自定义轻量级ConvNet主干的ConvNet网络(已经使用了ResNet ),其中两个字母是随机选择的,并被放在图像中的随机位置。我不确定在这样的场景中使用什么增强,所以我只使用图像翻译来提供增强样本之间的某种程度的差异。
这听起来是一项极其琐碎的任务,但在建立在冻结的预先训练网络之上的多标签分类器上,它的性能非常差。我很肯定,这是因为学习到的表示的质量很差,而不是线性分类器。显然,这在监督分类器上工作得很好。
我试过的变体:
数据集中的示例图像(这里的标签是1,1,0,0,0,0,0)

有人能帮我弄清楚怎么做吗?
发布于 2020-11-27 08:39:14
这不是我第一次听到有人尝试SimCLR并得到可怕的结果.
我有一些问题:
,
F 213
https://stackoverflow.com/questions/64939504
复制相似问题