我见过几个同时训练混合专家模型的例子(在整个gated+m.o.e网络上进行一次迭代)。然而,这只适用于可以通过这种方式进行优化的模型。例如,假设一个专家是knn分类器,另一个是标准mlp。
因此是针对每个专家计算的损失,然后门控网络本身被优化,或者是计算的总损失w.r.t。门控权重*专家输出?
发布于 2018-01-25 00:16:34
精心设计@Wontonimo答案
在混合专家网络中,对于每个输入,每个专家都提供自己的输出,然后由门控网络进行加权。
在训练过程中,每个专家都会收到正确的输出和一个系数(通常在0,1中),该系数将与先前提供给该特定输入的输出质量成比例。
门控网络动态地将输入空间划分为(模糊)子集,以分配给专家。
这允许每个专家专门研究可能的输入值的子集。
专家网络和门控网络最好同时训练,因为它们的更新是相互依赖的。
https://stackoverflow.com/questions/43907935
复制相似问题