试图找到多头关注的源代码,但找不到任何实现细节。我想知道这个模块是否只包含注意部分而不是整个变压器块(即它不包含正常化层、剩余连接和附加的前馈神经网络)?
发布于 2022-01-06 14:25:24
根据源代码的说法,答案是否定的。毫不奇怪,MultiheadAttention只实现了注意函数。
MultiheadAttention
https://stackoverflow.com/questions/70606412
相似问题