我正在研究tnn,我发现它不像其他神经网络那样工作,因为它们有层次和权重。我的问题是,tnn可以与联邦学习一起使用,在联邦学习中,我们对客户端的模型进行了培训,并且只向服务器发送模型权重。
发布于 2021-09-02 07:26:03
变压器结构与其他体系结构没有什么区别,因为它有层、可训练的参数,并且采用梯度下降技术进行训练。因此,它可以受到联邦学习的约束。
然而,与其他体系结构(如LSTM)相比,转换器模型通常非常大,并且在联邦设置中存在问题,特别是缓慢和不稳定的收敛。
您可以查看为联邦设置专门制造的转换器的变体,例如:文本到语音的动态变换联合学习 (INTERSPEECH'21)
https://datascience.stackexchange.com/questions/101707
复制相似问题