我正在检查伯特GitHub页面,并注意到有一些新的模型是由一种名为“全词掩蔽”的新训练技术建立的。下面是一个描述它的片段:
在原始的预处理代码中,我们随机地选择WordPiece令牌作为掩码.例如:
Input Text: the man jumped up , put his basket on phil ##am ##mon ' s head
Original Masked Input: [MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon ' s head这项新技术被称为“全词掩蔽”。在这种情况下,我们总是同时屏蔽与一个单词对应的所有标记。总的掩蔽率保持不变。
Whole Word Masked Input: the man [MASK] up , put his basket on [MASK] [MASK] [MASK] ' s head我无法理解“我们总是同时掩盖与一个单词对应的所有标记”。“跳转”、“菲尔”、"##am“和"##mon”被蒙蔽了,我不知道这些标记是如何关联的。
发布于 2019-06-16 19:15:00
##am #mon是将单个单词“philammon”编码成3个标记的子单词。注释仅仅意味着它们通过考虑子字编码来掩蔽单词而不是标记。
有关子字编码的更多信息,请看cs224的幻灯片,特别是2月14日在http://web.stanford.edu/class/cs224n/index.html#schedule举行的子单词讲座的字节对编码。
https://datascience.stackexchange.com/questions/53875
复制相似问题