个层次外,新增 2 个层次的对比匹配,分别是(Video Encoder-Layer-2,Text Encoder Layer-5)和(Video Encoder-Layer-3,Text Encoder Layer -9) HiT-3-level-a:除基础 HiT 的 2 个层次外,新增 1 个层次的对比匹配,对应(Video Encoder-Layer-3,Text Encoder Layer-9) HiT-3
FCN Layer-9:fcn layer-8升序2次,与VGG16的layer 4匹配,使用带参数的转置卷积:(kernel=(4,4),stead=(2,2),padding=’same’)。 FCN Layer-10:fcn layer-9被放大2倍,以便与VGG16第3层的尺寸匹配,使用带参数的转置卷积:(kernel=(4,4),stead=(2,2),padding=(相同))。
FCN Layer-9:fcn layer-8升序2次,与VGG16的layer 4匹配,使用带参数的转置卷积:(kernel=(4,4),stead=(2,2),padding=’same’)。 FCN Layer-10:fcn layer-9被放大2倍,以便与VGG16第3层的尺寸匹配,使用带参数的转置卷积:(kernel=(4,4),stead=(2,2),padding=(相同))。