对于变压器模型,在矩阵乘法之前用一个掩码(用1e-9替换为1e-9)用值张量掩盖注意力分数。关于掩蔽,我有3个简短的问题,希望你能澄清这些问题:
我之所以问这个问题,是因为在实现中使用了用于查询、键和值的线性层和bias=False。
bias=False设置为在层的输出中保留零,还是有不同的解释?发布于 2019-12-18 12:59:19
key_padding_mask。attn_mask。重量掩码是填充物和因果面罩的组合,在计算软件最大值之前,它被用来知道填充-\infty的位置,在它之后是零。
padding_idx当然是用来清除填充的令牌的。https://datascience.stackexchange.com/questions/65067
复制相似问题